23 august 2016 • 5 minute citite
Biblioteci la îndemână Python pentru formatare și curățare a datelor
Lumea reală este dezordonată, la fel și datele sale. Atât de dezordonat, încât un sondaj recent a raportat că oamenii de știință își petrec 60% din timp curățând datele. Din păcate, 57% dintre ei consideră că este cel mai puțin plăcut aspect al muncii lor.
Datele de curățare pot consuma mult timp, dar au apărut multe instrumente pentru a face această datorie crucială puțin mai suportabilă. Comunitatea Python oferă o serie de biblioteci pentru a face datele ordonate și lizibile - de la stilizarea DataFrames la seturi de date anonimizate.
Spuneți-ne ce biblioteci vi se par utile - căutăm întotdeauna să acordăm prioritate bibliotecilor pe care să le adăugați în notebook-urile Mode Python.
Păcat că curățarea nu este la fel de distractivă pentru oamenii de știință de date ca și pentru acest tip mic.
Dora este concepută pentru analize exploratorii; în mod specific, automatizarea celor mai dureroase părți ale acesteia, cum ar fi selectarea și extragerea caracteristicilor, vizualizarea și - ați ghicit - curățarea datelor. Funcțiile de curățare includ:
- Citirea datelor cu valori lipsă și slab scalate
- Imputarea valorilor lipsă
- Scalarea valorilor variabilelor de intrare
datacleaner
Surpriză, surpriză, curățarea de date vă curăță datele - dar numai odată ce se află într-un DataFrame pandă. De la creatorul Randy Olson: „Datacleaner nu este o magie și nu va lua un blob neorganizat de text și nu-l va analiza în mod automat.”
Cu toate acestea, va renunța la rânduri cu valori lipsă, va înlocui valorile lipsă cu modul sau mediana pe bază de coloană cu coloană și va codifica variabile nenumerice cu echivalenți numerici. Această bibliotecă este destul de nouă, dar din moment ce DataFrames este fundamental pentru analiza în Python, merită verificat.
Creat de: Randy Olson
Unde să aflați mai multe: https://github.com/rhiever/datacleaner
PrettyPandas
DataFramele sunt puternice, dar nu produc genul de tabele pe care ai vrea să le arăți șefului tău. PrettyPandas folosește pandas Style API pentru a transforma DataFrames în tabele demne de prezentare. Creați rezumate, adăugați stil și formatați numere, coloane și rânduri. Bonus adăugat: documentație robustă, ușor de citit.
cataloga
tabulează vă permite să imprimați tabele mici, frumoase, cu un singur apel funcțional. Este la îndemână pentru ca tabelele să fie mai ușor de citit cu alinierea coloanelor după zecimale, formatarea numerelor, anteturi și multe altele.
Una dintre cele mai interesante caracteristici este capacitatea de a transmite date într-o varietate de formate, cum ar fi HTML, PHP sau Markdown Extra, astfel încât să puteți continua să lucrați cu datele tabulare într-un alt instrument sau limbă.
Creat de: Serghei Astanin
Unde să aflați mai multe: https://pypi.python.org/pypi/tabulate
scrubadub
Oamenii de știință de date din domenii precum sănătatea și finanțele trebuie să anonimizeze în mod regulat seturile de date. scrubadub elimină informațiile de identificare personală (PII) din textul liber, cum ar fi:
- Nume (substantive proprii)
- Adrese de email
- URL-uri
- Numere de telefon
- combinații de nume de utilizator/parolă
- Numele de utilizator Skype
- Numere de securitate socială
Documentația face o treabă bună de a arăta modalități prin care ați putea dori să personalizați comportamentul scrubadub, cum ar fi definirea de noi tipuri de PII sau excluderea anumitor tipuri de PII de la spălare.
Săgeată
Să fim sinceri: lucrul cu datele și orele în Python este o durere. Fusurile orare locale nu sunt recunoscute automat. Este nevoie de mai multe linii de cod neplăcut pentru a converti fusurile orare și marcajele de timp.
Arrow își propune să remedieze aceste probleme și să conecteze lacunele de funcționalitate pentru a vă ajuta să gestionați datele și orele cu mai puțin cod și mai puține importuri. Spre deosebire de biblioteca standard Python, Arrow este conștientă de fusul orar și UTC în mod implicit. Puteți converti fusuri orare sau analiza șiruri folosind o linie de cod.
Creat de: Chris Smith
Unde să aflați mai multe: http://arrow.readthedocs.io/en/latest/
Înfrumusețator
Misiunea Beautifier este simplă: curățați și precizați adresele URL și adresele de e-mail. Puteți analiza e-mailurile după domeniu și nume de utilizator; Adrese URL după domeniu și parametri (de exemplu, UTM-uri sau jetoane).
ftfy (remediază textul pentru dvs.) acceptă ieșiri Unicode rele Unicode bune. Practic, remediază toate personajele nedorite. „citatele” \ x9d devin „ghilimele”; ü devine ü; devine. Dacă lucrați zilnic cu text, această bibliotecă este, așa cum spune un utilizator, „o piesă de magie la îndemână”.
Alte resurse pentru date de luptă
Iată câteva dintre citirile noastre preferate despre datele munging/wrangling/cleansing.
- Îngrijirea și curățarea pungilor pentru picioare - My Shepherd Connection
- Cum să normalizați și să standardizați datele dvs. de învățare automată în Weka
- Supape cu bilă de curățat Homebrew; Simplybeer
- Zest de lămâie despre, date nutriționale, fotografii, unde au fost găsite și 1635 de rețete
- Curățare standard ridicată pentru oțel inoxidabil de service cu oxigen