2.1 BRFSS și SMART

Centrele pentru controlul bolilor analizează datele sondajului Sistemului de supraveghere a factorului de risc comportamental (BRFSS) pentru anumite zone statistice metropolitane și micropolitane (MMSA) într-un program numit Tendințe de risc ale zonei metropolitane/micropolitice selectate ale BRFSS (SMART BRFSS).

În această lucrare, ne vom concentra pe datele din SMART din 2016 și, în special, pe datele din Cleveland-Elyria, OH, Metropolitan Statistical Area. Scopul acestui sondaj este de a furniza informații de sănătate localizate care pot ajuta practicienii din domeniul sănătății publice să identifice problemele locale de sănătate emergente, să planifice și să evalueze răspunsurile locale și să aloce eficient resursele nevoilor specifice.

2.1.1 Resurse cheie

  • datele complete sunt disponibile sub forma datelor SMART BRFSS MMSA 2016, găsite într-un fișier SAS Transport Format. Datele au fost publicate în august 2017.
  • PDF-ul Variable Layout MMSA care listează pur și simplu variabilele incluse în fișierul de date
  • PDF-ul Variabilelor calculate care descrie factorii de risc în funcție de numele variabilelor de date - există, de asemenea, o matrice sumară online a acestor variabile calculate.
  • lungul sondaj de întrebări din 2016 PDF care listează toate întrebările puse ca parte a BRFSS în 2016
  • enormul Codebook pentru sondajul PDF BRFSS 2016 care identifică variabilele după nume pentru noi.

Mai târziu în acest termen, vom folosi toate resursele respective pentru a ajuta la construirea unui set de date mai complet decât vom studia astăzi. Voi demonstra, de asemenea, modul în care am construit setul de date smartcle1 pe care îl vom folosi în acest capitol.

2.2 Datele smartcle1: carte de bucate

Fișierul de date smartcle1.csv disponibil pe pagina de date și coduri a site-ului nostru web descrie informații despre 11 variabile pentru 1036 de respondenți la BRFSS 2016, care locuiesc în Cleveland-Elyria, OH, zona statistică metropolitană. Variabilele din fișierul smartcle1.csv sunt enumerate mai jos, împreună cu (în unele cazuri) articolele BRFSS care generează aceste răspunsuri.

2.3 smartcle2: Omiterea observațiilor lipsă: analize de caz complete

În scopul adaptării primelor noastre modele, vom elimina problema lipsă și vom analiza doar cazurile complete din datele noastre smartcle1. Vom discuta despre metodele de imputare a datelor lipsă mai târziu în aceste note.

Pentru a inspecta lipsa datelor noastre, am putea lua în considerare utilizarea funcției skim din pachetul skimr. Vom exclude codul de identificare al respondentului (SEQNO) din acest rezumat ca neinteresant.

Acum, vom crea o nouă versiune numită smartcle2 care conține fiecare variabilă, cu excepția sărăciei și care include toți respondenții cu date complete despre variabile (altele decât sărăcia). Vom stoca aceste observații cu date complete în smartble2 tibble.

Rețineți că există doar 896 de respondenți cu complet date despre cele 10 variabile (excluzând slăbiciunea) din smartble2 tibble, în comparație cu datele noastre originale smartcle1 care descriau 1036 respondenți și 11 variabile, dar cu o mulțime de date lipsă.

2.4 Rezumarea numerelor de date smartcle2

2.4.1 Noua jucărie: funcția skim

2.4.2 Rezumatul obișnuit pentru un cadru de date

Desigur, putem folosi rezumatul obișnuit pentru a obține informații de bază despre date.

2.4.3 Funcția de descriere în Hmisc

Sau putem folosi funcția de descriere din pachetul Hmisc.

2.5 Numărarea ca analiză exploratorie a datelor

Numărarea lucrurilor poate fi uimitor de utilă.

2.5.1 Câți respondenți s-au exercitat în ultimele 30 de zile? A variat acest lucru în funcție de sex?

deci știm acum că 42,3% dintre subiecții din datele noastre au fost femei care au exercitat. Să presupunem că, în schimb, dorim să găsim procentul de exercițieni în cadrul fiecărui sex ...

și acum știm că 82,8% dintre bărbați au exercitat cel puțin o dată în ultimele 30 de zile, comparativ cu 72,3% dintre femei.

2.5.2 Care este distribuția somnurilor ?

Putem număra variabile cantitative cu seturi discrete de valori posibile, cum ar fi sleephrs, care este capturat ca un întreg (care trebuie să se încadreze între 0 și 24.)

Desigur, un rezumat natural al unei variabile cantitative ca aceasta ar fi grafic.

date

2.5.3 Care este distribuția IMC ?

2.5.4 Câți dintre respondenți au un IMC sub 30?

2.5.5 Câți dintre respondenții care au un IMC 2.5.6 Obezitatea este asociată cu sexul, în aceste date?

2.5.7 Compararea rezumatelor somnului în funcție de starea obezității

Putem compara mijloacele somnului, medianele și percentilele 75 pentru respondenții al căror IMC este sub 30 cu respondenții al căror IMC nu este?

2.5.8 Funcția de degresare în interiorul unei conducte

degresat funcția funcționează în țevi și cu celelalte funcții ordonate.

2.6 Prima încercare de modelare: Bmi poate prezice sănătatea fizică ?

Vom începe cu un efort de a prezice sănătatea fizică folosind bmi. Un grafic natural ar fi un diagramă de dispersie.

O întrebare bună pe care ne-o punem aici ar putea fi: „În ce interval de IMC putem face o predicție rezonabilă a sănătății fizice?”

Acum, s-ar putea să luăm complotul de mai sus și să adăugăm un model liniar simplu ...

care arată același model de regresie a celor mai mici pătrate pe care îl putem încadra cu comanda lm.

2.6.1 Montarea unui model de regresie simplă

Coeficienții modelului pot fi obținuți prin tipărirea obiectului modelului, iar funcția de rezumat oferă mai multe descrieri utile ale reziduurilor modelului, semnificația sa statistică și calitatea potrivirii.

2.6.2 Rezumatul modelului pentru o regresie simplă (cu un singur predictor)

Modelul adaptat prezice sănătatea fizică cu ecuația -1.45 + 0.195 * bmi, după cum putem citi din coeficienții modelului.

Fiecare dintre cei 896 de respondenți incluși în datele smartcle2 aduce o contribuție la acest model.

2.6.2.1 Reziduuri

Să presupunem că Harry este una dintre persoanele din grupul respectiv, iar datele lui Harry sunt BMI = 20 și sănătate fizică = 3.

  • Valoarea fizică a sănătății observată de Harry este doar valoarea pe care o avem în datele pentru ei, în acest caz, sănătatea fizică observată = 3 pentru Harry.
  • Valoarea de sănătate fizică ajustată sau estimată a lui Harry este rezultatul calculării -1,45 + 0,195 * bmi pentru Harry. Deci, dacă IMC-ul lui Harry era de 20, atunci valoarea estimată a lui Harry pentru sănătatea fizică este -1,45 + (0,195) (20) = 2,45.
  • Reziduul pentru Harry este apoi rezultatul observat minus rezultatul potrivit, așa că Harry are un reziduu de 3 - 2,45 = 0,55.
  • Grafic, un reziduu reprezintă distanța verticală între punctul observat și linia de regresie montată.
  • Punctele de deasupra liniei de regresie vor avea reziduuri pozitive, iar punctele de sub linia de regresie vor avea reziduuri negative. Punctele de pe linie au zero reziduuri.

Reziduurile sunt rezumate în partea de sus a rezultatului sumar pentru modelul liniar.

  • Media reziduală va fi întotdeauna zero într-un model obișnuit cu cele mai mici pătrate, dar un rezumat cu cinci numere al reziduurilor este furnizat de rezumat, la fel ca și o deviație standard estimată a reziduurilor (denumită aici eroarea standard reziduală).
  • În datele smartcle2, reziduul minim a fost -9,17, deci pentru un subiect, valoarea observată a fost cu 9,17 zile mai mică decât valoarea prezisă. Aceasta înseamnă că predicția a fost de 9,17 zile prea mare pentru subiectul respectiv.
  • În mod similar, reziduul maxim a fost de 28,07 zile, deci pentru un subiect predicția a fost de 28,07 zile prea mică. Nu este o performanță puternică.
  • Într-un model de cel puțin pătrate, se presupune că reziduurile urmează o distribuție normală, cu zero medie și deviație standard (pentru datele smartcle2) de aproximativ 8,6 zile. Astfel, prin definiția unei distribuții normale, ne-am aștepta
  • aproximativ 68% din reziduuri să fie între -8,6 și +8,6 zile,
  • aproximativ 95% din reziduuri să fie între -17,2 și +17,2 zile,
  • aproximativ toate (99,7%) din reziduuri să fie între -25,8 și +25,8 zile.

2.6.2.2 Secțiunea Coeficienți

Rezumatul pentru un model liniar arată estimări, erori standard, valori t și valori p pentru fiecare coeficient de potrivire.

  • Estimările sunt estimările punctuale ale interceptării și pantei BMI din modelul nostru.
  • În acest caz, panta noastră estimată este de 0,195, ceea ce implică faptul că dacă IMC-ul lui Harry este 20 și IMC-ul lui Sally este 21, prezicem că sănătatea fizică a lui Sally va fi cu 0,195 zile mai mare decât cea a lui Harry.
  • Erorile standard sunt, de asemenea, furnizate pentru fiecare estimare. Putem crea intervale aproximative de încredere de 95% prin adăugarea și scăderea a două erori standard din fiecare coeficient sau putem obține un răspuns puțin mai precis cu funcția confint.
  • Aici, intervalul de încredere de 95% pentru panta BMI este estimat a fi (0,11, 0,28). Aceasta este o măsură bună a incertitudinii în panta care este surprinsă de modelul nostru. Avem încredere de 95% în procesul de construire a acestui interval, dar acest lucru nu înseamnă că suntem 95% siguri că panta adevărată este de fapt în acel interval.

De asemenea, sunt disponibile o valoare t (doar estimarea împărțită la eroarea standard) și valoarea p adecvată pentru testarea ipotezei nule că adevărata valoare a coeficientului este 0 față de o alternativă cu două cozi.

  • Dacă un coeficient de pantă este statistic semnificativ diferit de 0, acest lucru implică faptul că 0 nu va face parte din intervalul de incertitudine obținut prin confint .
  • Dacă panta ar fi zero, ar sugera că bmi nu ar adăuga nicio valoare predictivă modelului. Dar este puțin probabil aici.

Dacă coeficientul pantei bmi este asociat cu o valoare p mică, ca în cazul modelului nostru_A, sugerează că modelul care include bmi este semnificativ statistic mai bun la prezicerea sănătății fizice decât modelul fără bmi .

  • Fără bmi modelul nostru_A ar deveni un model exclusiv de interceptare, în acest caz, care ar prezice sănătatea fizică medie pentru toată lumea, indiferent de orice altă informație.

2.6.2.3 Modelul Rezumate potrivite

Rezumatul unui model liniar afișează, de asemenea:

  • Statistica F și valoarea p dintr-un test ANOVA global al modelului.
    • Obținerea unui rezultat semnificativ statistic aici este de obicei destul de simplă, deoarece comparația este între modelul nostru și un model care prezice pur și simplu valoarea medie a rezultatului pentru toată lumea.
    • Într-o regresie liniară simplă (cu un singur predictor) ca aceasta, statistica t pentru panta este doar rădăcina pătrată a statisticii F, iar valorile p rezultate pentru testul t al pantei și pentru testul F global vor fi identice.
  • Pentru a vedea testul ANOVA F complet pentru acest model, putem rula anova (model_A) .

2.6.3 Folosirea pachetului de mătură

Pachetul de mături are trei funcții de utilizare specială într-un model de regresie liniară: