Subiecte

Abstract

fundal

Rata obezității atât la copii, cât și la adulți în Statele Unite a crescut semnificativ începând cu anii 1980 (Dwyer-Lindgren și colab., 2013; Fryar și colab., 2016; Segal și colab., 2017). În 2017, proiectul State of Obesity a estimat că prevalența obezității la adulți în SUA statele au variat de la 22,3 la 37,7% (Segal și colab., 2017). Această creștere a prevalenței obezității se datorează unei interacțiuni complexe a factorilor biologici, structurali și individuali (Hill și Peters, 1998; Nelson și colab., 2006; Papas și colab., 2007; Ogden și colab., 2010). Factori precum siguranța publică, statutul socio-economic și mediul construit în cartier pot avea impact asupra accesului la facilitățile recreative și la alimentele proaspete și sănătoase (Freedman și colab., 2002; Giles-Corti și colab., 2003; Hill și colab., 2003; Ellaway și colab. 2005; Gordon-Larsen și colab., 2006; Lopez-Zetina și colab., 2006; Mobley și colab., 2006; Bennett și colab., 2007; Papas și colab., 2007; Casagrande și colab., 2009; Maharana și Nsoesie, 2018). Mediul social al unui individ poate influența și comportamentele de sănătate (cum ar fi dieta slabă și inactivitatea fizică) care sunt considerați factori de risc pentru obezitate (Christakis și Fowler, 2007; McFerran și colab., 2009; Yakusheva și colab., 2011).

utilizarea

În acest studiu, ne-am propus să evaluăm asocierea dintre prevalența obezității estimată de Centrele pentru Controlul și Prevenirea Bolilor (CDC) și diferite variabile de hrană și exercițiu din social media (de exemplu, Twitter) și interogări de căutare (de exemplu, Google Search Trends) pentru masculii și femelele separat. De asemenea, am demonstrat că integrarea datelor din sursele de internet menționate anterior cu datele demografice și variabilele de mediu construit ar putea fi utilă pentru estimarea prevalenței obezității în S.U.A. județe după sex.

Metode

Estimări de obezitate la nivel de județ, specifice sexului

Estimările obezității ajustate în funcție de vârstă pentru SUA județele au fost descărcate din CDC. Aceste estimări au fost obținute prin aplicarea unei tehnici de estimare a suprafeței mici la datele din sistemul de supraveghere și factorii de comportament (BRFSS) - un sondaj telefonic privind comportamentele de sănătate legate de boli cronice, leziuni și boli infecțioase care pot fi prevenite pentru adultul neinstituționalizat din S.U.A. populație (Malec și colab., 1997; Centers for Disease Control and Prevention, 2018a).

Cele mai recente estimări ale obezității la nivel de județ în funcție de sex din CDC s-au bazat pe sondajul BRFSS din 2013. Pentru a alinia datele CDC cu datele de pe Twitter care au fost colectate între aprilie 2015 și martie 2016, am folosit modele liniare autoregresive pentru a prognoza prevalența obezității în 2015. Modelul nostru a folosit estimări din anii precedenți pentru a estima prevalența obezității în 2015. Modelul R 2 (adică, coeficientul de determinare) a fost de 82,73% și, respectiv, de 82,73% pentru bărbați și femei. În timp ce proiectul State of Obesity a raportat o creștere a prevalenței obezității pentru toate, cu excepția celor șapte state, între 2013 și 2016, această creștere a fost semnificativă doar pentru trei state: Alabama, Michigan și Nebraska (vezi SI Fig. 1) (Segal și colab., 2017 ). În analiza noastră am folosit atât estimările obezității din 2013, cât și proiecțiile din 2015.

Date despre rețelele sociale

Prelucrarea datelor din rețelele sociale

Datele au fost curățate pentru a exclude duplicatele, valorile aberante (adică utilizatorii ale căror tweeturi au reprezentat mai mult de 1% din tweets), postările de locuri de muncă și tweets-urile care se încadrează în afara Statelor Unite adiacente. Clasificatorul de text pentru entropia maximă din Machine Learning for Language Toolkit (MALLET) (McCallum, 2002) a fost utilizat pentru a clasifica sentimentul tweet între zero și unu, unul indicând sentimentul pozitiv cel mai puternic. Această clasificare a fost realizată cu un proiect mai larg care vizează evaluarea fericirii în S.U.A. județelor și evaluarea asocierii sale cu diverse rezultate ale sănătății, inclusiv mortalitatea prematură, diabetul și obezitatea. Clasificatorul a fost instruit în mod riguros folosind seturi de date existente și disponibile public din Sentiment140 (Sentiment140, 2009), Sanders Analytics (Sanders Analytics, 2011) și Kaggle (Kaggle. Sentiment classification, 2011). În timp ce MALLET nu este singurul set de instrumente de sentiment disponibil, am constatat că a depășit o abordare de tip „bag-of-words”, Sentiment140, și clasificatoare standard de învățare automată supravegheate. Comparativ cu 500 de tweets etichetate manual, acuratețea scorurilor noastre de opinie a fost de 77%.

S-au colectat 80 de milioane de tweets cu subiect general, un total de 3.817.125 de tweets au fost identificate ca conținând cel puțin un cuvânt cheie legat de alimente. A existat o mediană de 12 tweet-uri alimentare pe utilizator. Am folosit un algoritm de potrivire a textului pentru a identifica tweet-urile alimentare față de cele non-alimentare. Acest algoritm a identificat iterativ alimente cu două cuvinte (de exemplu, pui de portocale) și apoi a trecut din nou prin date pentru a identifica alimentele cu un singur cuvânt (de exemplu, taco). Pentru a evalua performanța, am aplicat algoritmul la 2500 de tweets etichetate manual (2000 legate de alimente și 500 non-alimentare). Acuratețea și scorul F1 (media armonică a preciziei și rechemării; 1 este cel mai bun scor posibil) au fost 0,83 și respectiv 0,86. Precizia este definită ca raportul dintre clasificările adevărate pozitive la toate cazurile pozitive, iar rechemarea este definită ca raportul dintre clasificările adevărate pozitive la toate cazurile prezise corect. Am comparat abordarea noastră cu mai multe abordări de învățare supravegheate (de exemplu, rețeaua neuronală feed forward (FFNN), mașini vectoriale de suport (SVM), gradient boosting și fastText (Joulin et al., 2016)) și am constatat că abordarea noastră a funcționat mai bine.

Densitatea calorică definită ca calorii la 100 g a fost estimată pentru fiecare aliment pe baza datelor din USDA. Densitatea calorică pentru fiecare tweet a fost calculată prin însumarea caloriilor asociate pentru fiecare aliment menționat în tweet. Sentimentul predominant al fiecărui tweet alimentar a fost de asemenea constatat folosind procesul de analiză a sentimentului descris anterior.

Un total de 1.382.284 de tweets conțineau cel puțin un cuvânt cheie de activitate fizică. A existat o mediană de cinci tweets pe utilizator. Pentru a identifica tweet-urile de exerciții, am folosit un algoritm de potrivire a cuvintelor cheie care a eliminat expresiile populare care nu denotă activitate fizică (de exemplu, „pleacă” sau „întârzie”), fraze asociate cu cultura pop (de exemplu, „Walking Dead”) și termeni care denotă vizionarea, mai degrabă decât participarea la exerciții (de exemplu, „participă” și „urmărește”). Pentru sporturile de echipă, am păstrat doar tweet-uri care conțineau cuvintele joacă/joacă/jucat împreună cu activitatea. Pentru a evalua performanța acestui algoritm de potrivire a textului, 2500 de tweets au fost etichetate manual (2000 legate de exercițiu și 500 fără legătură cu exercițiul). Precizia a fost de 85%, iar scorul F1 a fost de 0,90. Intensitatea exercițiului (denumită în continuare „calorii arse”) a fost cuantificată folosind echivalentul metabolic asociat cu efectuarea fiecărei activități pe o durată de 30 de minute de către un individ de 155 de kilograme, greutatea medie a unui adult american (Ainsworth și colab., 2000; Harvard Health Publications, 2015). Pentru detalii suplimentare despre prelucrarea datelor, consultați (Nguyen și colab., 2017).

Inferație demografică a utilizatorilor de social media

Am aplicat clasificatorul ansamblului pentru a deduce genul fiecărui utilizator în seturile de date Twitter descrise anterior pentru alimente și activitate fizică. Am generat apoi variabile specifice sexului la nivel de județ pentru hrană și activitate fizică, inclusiv, proporția de alimente, mâncare sănătoasă și tweet-uri de fast-food, sentiment față de mâncare, sentiment față de activitatea fizică, proporția de tweets de activitate fizică, calorii consumate și calorii arse.

Tendințe de căutare Google (GST)

Am folosit Google Trends (https://trends.google.com/trends/) pentru a obține căutări la nivel de stat pentru expresiile: centru de fitness, fast-food, slăbire, produse alimentare ecologice și magazin alimentar. Am folosit date la nivel de stat, deoarece datele la nivel de județ nu erau disponibile. După examinarea corelațiilor dintre aceste variabile, am selectat termenii -centru de fitness, fast-food, și magazin alimentar- pentru a evita multicoliniaritatea. Datele au fost scalate de Google pentru a avea maximum o sută, astfel încât statele cu cel mai mare volum de căutări au avut o valoare de o sută.

analize statistice

Pentru a evalua asocierea dintre postările pe Twitter și estimările sondajului privind prevalența obezității la nivel de județ, am adaptat modele de regresie cu efecte mixte liniare separate, cu un efect de grup de interceptare variabilă la nivel de stat, pentru a ține cont de variațiile dintre state pentru bărbați și femei. Modelul poate fi specificat după cum urmează: