Articol

  • Articol complet
  • Cifre și date
  • Referințe
  • Citații
  • Valori
  • Licențierea
  • Reimprimări și permisiuni
  • PDF

ABSTRACT

Foi de calcul sunt instrumente software utilizate pe scară largă pentru introducerea, stocarea, analiza și vizualizarea datelor. Concentrându-ne pe aspectele de introducere și stocare a datelor, acest articol oferă recomandări practice pentru organizarea datelor din foaia de calcul pentru a reduce erorile și a ușura analizele ulterioare. Principiile de bază sunt: ​​fiți consecvenți, scrieți date precum AAAA-LL-ZZ, nu lăsați nici o celulă goală, puneți un singur lucru într-o celulă, organizați datele ca un singur dreptunghi (cu subiecții ca rânduri și variabile ca coloane și cu un singur rând de antet), creați un dicționar de date, nu includeți calcule în fișierele de date brute, nu utilizați culoarea fontului sau evidențierea ca date, alegeți nume bune pentru lucruri, faceți copii de rezervă, utilizați validarea datelor pentru a evita erorile de introducere a datelor, și salvați datele în fișiere text simplu.

datelor

1. Introducere

Foile de calcul, pentru toate dreptunghiurile lor banale, au fost subiect de neliniște și controversă de zeci de ani. Unii scriitori au admonestat că „programatorii reali nu folosesc foi de calcul” și că trebuie „să oprim acea foaie de calcul subversivă” (Casimir 1992; Chadwick 2003). Alții au sfătuit cercetătorii cum să folosească foi de calcul pentru a-și îmbunătăți productivitatea (Wagner și Keisler 2006). Pe fondul acestei dezbateri, foile de calcul au continuat să joace un rol semnificativ în fluxurile de lucru ale cercetătorilor și este clar că acestea sunt un instrument valoros pe care este puțin probabil ca cercetătorii să îl abandoneze complet.

Cu toate acestea, pericolele foilor de calcul sunt reale - atât de mult încât Grupul european de riscuri pentru foaia de calcul păstrează o arhivă publică de „povești de groază” din foaia de calcul (http://www.eusprig.org/horror-stories.htm). Mulți cercetători au examinat ratele de eroare în foile de calcul, iar Panko (2008) a raportat că în 13 audituri ale foilor de calcul din lumea reală, o medie de 88% conținea erori. Programele populare de foi de calcul fac, de asemenea, anumite tipuri de erori ușor de comis și dificil de corectat. Microsoft Excel convertește unele nume de gene în date și stochează datele diferit între sistemele de operare, ceea ce poate cauza probleme în analizele din aval (Zeeberg și colab. 2004; Woo 2014). Cercetătorii care folosesc foi de calcul ar trebui să fie conștienți de aceste erori comune și să proiecteze foi de calcul care să fie ordonate, consecvente și cât mai rezistente la greșeli.

Foile de calcul sunt adesea folosite ca instrument multifuncțional pentru introducerea, stocarea, analiza și vizualizarea datelor. Majoritatea programelor de foi de calcul permit utilizatorilor să efectueze toate aceste sarcini, totuși considerăm că foile de calcul sunt cele mai potrivite pentru introducerea și stocarea datelor și că analiza și vizualizarea ar trebui să aibă loc separat. Analiza și vizualizarea datelor într-un program separat, sau cel puțin într-o copie separată a fișierului de date, reduce riscul contaminării sau distrugerii datelor brute din foaia de calcul.

Murrell (2013) a contrastat datele care sunt formatate pentru ca oamenii să le poată vizualiza cu ochi cu datele formatate pentru un computer. El a oferit un exemplu extins de cod de computer pentru a extrage date dintr-un set de fișiere cu aranjamente complexe. Este important ca analiștii de date să poată lucra cu astfel de fișiere de date complexe. Dar dacă aranjarea inițială a fișierelor de date este planificată având în vedere computerul, procesul de analiză ulterioară este simplificat.

În acest articol, oferim recomandări practice pentru organizarea datelor din foi de calcul într-un mod pe care atât oamenii, cât și programele de computer pot să le citească. Urmând aceste sfaturi, cercetătorii vor crea foi de calcul mai puțin predispuse la erori, mai ușor de procesat de către computere și mai ușor de partajat cu colaboratorii și publicul. Foi de calcul care respectă recomandările noastre vor funcționa bine cu instrumentele ordonate și metodele reproductibile descrise în altă parte în această colecție și vor sta la baza unui flux analitic robust și reproductibil.

Pentru un set de date existent al cărui aranjament ar putea fi îmbunătățit, vă recomandăm să nu aplicați editarea manuală plictisitoare și potențial predispusă la erori pentru a revizui aranjamentul. Mai degrabă, sperăm că cititorul ar putea aplica aceste principii atunci când proiectează aspectul pentru seturile de date viitoare.

2. Fii consecvent

Prima regulă de organizare a datelor este fii consistent. Orice ai face, fă-o constant. Introducerea și organizarea datelor dvs. într-un mod consecvent de la început vă va împiedica pe dvs. și colaboratorii dvs. să fiți nevoiți să petreceți timp armonizând datele mai târziu.

Utilizați coduri consistente pentru variabilele categorice. Pentru o variabilă categorică precum sexul unui șoarece într-un studiu de genetică, utilizați o singură valoare comună pentru bărbați (de exemplu, „bărbat”) și o valoare comună unică pentru femei (de exemplu, „femeie”). Nu scrieți uneori „M”, alteori „bărbat” și alteori „bărbat”. Alegeți una și respectați-o.

Folosiți un cod fix consistent pentru orice valoare lipsă. Preferăm să se completeze fiecare celulă, astfel încât să se poată distinge între valorile lipsă cu adevărat și valorile lipsă neintenționat. Utilizatorii R preferă „NA”. De asemenea, puteți folosi o cratimă. Dar rămâneți cu o singură valoare pe tot parcursul. Cu siguranță nu utilizați o valoare numerică precum -999 sau 999; este ușor să ratezi că se dorește să lipsească. De asemenea, nu introduceți o notă în locul datelor, explicând de ce lipsește. Mai degrabă, creați o coloană separată cu astfel de note.

Folosiți nume variabile consistente. Dacă într-un singur fișier (de exemplu, primul lot de subiecte), aveți o variabilă numită „Glucoză_10wk”, atunci numiți-o exact așa în alte fișiere (de exemplu, pentru alte loturi de subiecte). Dacă se numește în mod variabil „Glucoză_10wk”, „gluc_10 săptămâni” și „glucoză de 10 săptămâni”, atunci în aval, analistul de date va trebui să afle că toate acestea sunt cu adevărat același lucru.

Utilizați identificatori de subiect consecvenți. Dacă uneori este „153” și alteori „mouse153” și alteori „mouse-153F” și alteori „Mouse153”, va exista o muncă suplimentară pentru a afla cine este cine.

Utilizați un aspect de date consecvent în mai multe fișiere. Dacă datele dvs. sunt în mai multe fișiere și utilizați aspecte diferite în fișiere diferite, va fi o treabă suplimentară pentru analist să combine fișierele într-un singur set de date pentru analiză. Cu o structură consistentă, va fi ușor să automatizăm acest proces.

Folosiți nume de fișiere coerente. Aveți un sistem pentru denumirea fișierelor. Dacă un fișier se numește „Serum_batch1_2015-01-30.csv”, atunci nu apelați fișierul pentru următorul lot „batch2_serum_52915.csv”, ci folosiți mai degrabă „Serum_batch2_2015-05-29.csv”. Păstrarea unei scheme consistente de denumire a fișierelor vă va ajuta să vă asigurați că fișierele dvs. rămân bine organizate și va facilita procesarea în serie a fișierelor, dacă este necesar.

Utilizați un format consistent pentru toate datele, preferabil cu formatul standard AAAA-LL-ZZ, de exemplu, 01-08-2015. Dacă uneori scrieți 8/1/2015 și alteori 8-1-15, va fi mai dificil să folosiți datele în analize sau vizualizări de date.

Folosiți fraze consistente în notițe. Dacă aveți o coloană separată de note (de exemplu, „dead” sau „lo off curve”), fiți consecvenți în ceea ce scrieți. Nu scrieți uneori „mort” și alteori „Mort” sau alteori „curbă off” și alteori „curbă off”.

Aveți grijă la spațiile suplimentare din interiorul celulelor. O celulă goală este diferită de o celulă care conține un singur spațiu. Și „mascul” este diferit de „mascul” (adică, cu spații la început și la sfârșit).

3. Alegeți nume bune pentru lucruri

Este important să alegeți nume bune pentru lucruri. Acest lucru poate fi greu și, prin urmare, merită să ne gândim puțin la timp.

Ca regulă generală, nu utilizați spații, nici în numele variabilelor, nici în numele fișierelor. Fac programarea mai dificilă: analistul va trebui să înconjoare totul în ghilimele duble, cum ar fi „glucoză 6 săptămâni”, mai degrabă decât să scrie doar glucoză_6_ săptămâni. În cazul în care ați putea folosi spații, utilizați linii de subliniere sau poate cratime. Dar nu utilizați un amestec de linii de subliniere și cratime; alege unul și fii consecvent.

Aveți grijă la spațiile străine la începutul sau la sfârșitul unui nume de variabilă. „Glucoza” este diferită de „glucoză” (cu un spațiu suplimentar la final).

Evitați caracterele speciale, cu excepția punctelor de subliniere și a cratimelor. Alte simboluri ($, @,%, #, &, *, (,),!, /, Etc.) au adesea o semnificație specială în limbajele de programare și, astfel, pot fi mai greu de manevrat. De asemenea, sunt puțin mai greu de tastat.