Ultima actualizare la 11 decembrie 2019

Algoritmii de învățare automată fac presupuneri despre setul de date pe care îl modelați.

Adesea, datele brute sunt compuse din atribute cu scări diferite. De exemplu, un atribut poate fi în kilograme și altul poate fi un număr. Deși nu este necesar, puteți obține adesea o creștere a performanței prin alegerea cu atenție a metodelor de reechilibrare a datelor.

În această postare veți descoperi cum puteți redimensiona datele, astfel încât toate datele să aibă aceeași scară.

După ce citiți această postare, veți ști:

  • Cum să vă normalizați atributele numerice între intervalul 0 și 1.
  • Cum să vă standardizați atributele numerice pentru a avea o medie și o varianță a unității.
  • Când să alegeți normalizarea sau standardizarea.

Lansați proiectul cu noua mea carte Machine Learning Mastery With Weka, inclusiv tutoriale pas cu pas și clare capturi de ecran pentru toate exemplele.

Să începem.

  • Actualizare martie/2018: A fost adăugat un link alternativ pentru a descărca setul de date, deoarece originalul pare să fi fost eliminat.

Preziceți apariția diabetului

Setul de date utilizat pentru acest exemplu este setul de date pentru debutul diabetului indienilor Pima.

Este o problemă de clasificare în care fiecare caz reprezintă detalii medicale pentru un pacient și sarcina este de a prezice dacă pacientul va avea un debut al diabetului în următorii cinci ani.

Acesta este un set de date bun pentru a practica scalarea, deoarece cele 8 variabile de intrare au toate scale variabile, cum ar fi numărul de câte ori pacientul a fost însărcinată (preg) și calculul indicelui de masă corporală al pacientului (masa).

Descărcați setul de date și plasați-l în directorul curent de lucru.

De asemenea, puteți accesa acest set de date din instalarea Weka, în directorul data/din fișierul numit diabetes.arff.

datele

Weka Load Diabetes Dataset

Despre filtrele de date din Weka

Weka oferă filtre pentru transformarea setului de date. Cel mai bun mod de a vedea ce filtre sunt acceptate și de a vă juca cu ele în setul dvs. de date este să folosiți Weka Explorer.

Panoul „Filtru” vă permite să alegeți un filtru.

Panoul de filtrare Weka pentru alegerea filtrelor de date

Filtrele sunt împărțite în două tipuri:

  • Filtre supravegheate: Acest lucru poate fi aplicat, dar necesită controlul utilizatorului într-un fel. Cum ar fi reechilibrarea instanțelor pentru o clasă.
  • Filtre nesupravegheate: Acest lucru poate fi aplicat într-o manieră nedorită. De exemplu, redimensionați toate valorile în intervalul 0-1.

Personal, cred că distincția dintre aceste două tipuri de filtre este puțin arbitrară și confuză. Cu toate acestea, așa sunt așezate.

În cadrul acestor două grupuri, filtrele sunt împărțite în continuare în filtre pentru atribute și instanțe:

  • Filtre de atribute: Aplicați o operație pe atribute sau un atribut la un moment dat.
  • Filtre de instanță: Aplicați o operație pe instanță sau câte o instanță la un moment dat.

Această distincție are mult mai mult sens.

După ce ați selectat un filtru, numele acestuia va apărea în caseta de lângă butonul „Alegeți”.

Puteți configura un filtru făcând clic pe numele acestuia, care va deschide fereastra de configurare. Puteți modifica parametrii filtrului și chiar puteți salva sau încărca configurația filtrului în sine. Acest lucru este excelent pentru reproductibilitate.

Configurare filtru de date Weka

Puteți afla mai multe despre fiecare opțiune de configurare trecând deasupra acesteia și citind sfatul.

Puteți, de asemenea, să citiți toate detaliile despre filtru, inclusiv configurația, lucrările și cărțile pentru lectură ulterioară și mai multe informații despre funcționarea filtrului, făcând clic pe butonul „Mai multe”.

Filtrul de date Weka Mai multe informații

Puteți închide ajutorul și aplicați configurația făcând clic pe butonul „OK”.

Puteți aplica un filtru setului de date încărcat făcând clic pe butonul „Aplicați” de lângă numele filtrului.

Aveți nevoie de mai mult ajutor cu Weka pentru învățarea automată?

Luați cursul meu gratuit de e-mail de 14 zile și descoperiți cum să utilizați platforma pas cu pas.

Faceți clic pentru a vă înscrie și pentru a obține, de asemenea, o versiune PDF Ebook gratuită a cursului.

Normalizează-ți atributele numerice

Normalizarea datelor este procesul de redimensionare a unuia sau mai multor atribute în intervalul 0 la 1. Aceasta înseamnă că cea mai mare valoare pentru fiecare atribut este 1 și cea mai mică valoare este 0.

Normalizarea este o tehnică bună de utilizat atunci când nu cunoașteți distribuția datelor dvs. sau când știți că distribuția nu este gaussiană (o curbă de clopot).

Puteți normaliza toate atributele din setul de date cu Weka alegând filtrul Normalize și aplicându-l setului de date.

Puteți utiliza următoarea rețetă pentru a vă normaliza setul de date:

1. Deschideți Weka Explorer.

2. Încărcați setul de date.

Weka Explorer Loaded Diabetes Dataset

3. Faceți clic pe butonul „Alegeți” pentru a selecta un filtru și selectați unsupervised.attribute.Normalize.

Weka Selectați Normalizare filtru date

4. Faceți clic pe butonul „Aplicați” pentru a vă normaliza setul de date.

5. Faceți clic pe butonul „Salvați” și tastați un nume de fișier pentru a salva copia normalizată a setului de date.

Revizuirea detaliilor fiecărui atribut în fereastra „Atribut selectat” vă va oferi încredere că filtrul a avut succes și că fiecare atribut a fost redefinit în intervalul 0-1.

Distribuția normalizată a datelor Weka

Puteți utiliza alte scale, cum ar fi de la -1 la 1, care este util atunci când utilizați mașini vectoriale de suport și adaboost.

Normalizarea este utilă atunci când datele dvs. au scări variate și algoritmul pe care îl utilizați nu face presupuneri cu privire la distribuția datelor dvs., cum ar fi vecinii cu cele mai apropiate k și rețelele neuronale artificiale.

Standardizați-vă atributele numerice

Standardizarea datelor este procesul de redimensionare a unuia sau mai multor atribute astfel încât acestea să aibă o valoare medie de 0 și o abatere standard de 1.

Standardizarea presupune că datele dvs. au o distribuție gaussiană (curbă clopot). Acest lucru nu trebuie să fie adevărat, dar tehnica este mai eficientă dacă distribuția atributelor dvs. este gaussiană.

Puteți standardiza toate atributele din setul de date cu Weka alegând filtrul Standardize și aplicându-l setului de date.

Puteți utiliza următoarea rețetă pentru a standardiza setul de date:

1. Deschideți Weka Explorer

2. Încărcați setul de date.

3. Faceți clic pe butonul „Alegeți” pentru a selecta un filtru și selectați unsupervised.attribute.Standardize.

Weka Selectați Standardizați filtrul de date

4. Faceți clic pe butonul „Aplicați” pentru a vă normaliza setul de date.

5. Faceți clic pe butonul „Salvați” și tastați un nume de fișier pentru a salva copia standardizată a setului de date.

Revizuirea detaliilor fiecărui atribut în fereastra „Atribut selectat” vă va oferi încredere că filtrul a avut succes și că fiecare atribut are o medie de 0 și o abatere standard de 1.

Distribuția standardizată a datelor Weka

Standardizarea este utilă atunci când datele dvs. au scări variate și algoritmul pe care îl utilizați face presupuneri cu privire la datele dvs. având o distribuție gaussiană, cum ar fi regresia liniară, regresia logistică și analiza discriminantă liniară.

rezumat

În această postare ați descoperit cum să redimensionați setul de date în Weka.

Mai exact, ați învățat:

  • Cum să vă normalizați setul de date în intervalul 0-1.
  • Cum să vă standardizați datele pentru a avea o medie de 0 și o abatere standard de 1.
  • Când se utilizează normalizarea și standardizarea.

Aveți întrebări despre scalarea datelor dvs. sau despre această postare? Puneți întrebările dvs. în comentarii și voi face tot posibilul pentru a răspunde.

Descoperiți învățarea automată fără cod!

Dezvoltați-vă propriile modele în câteva minute

. cu doar câteva clicuri

Huse tutoriale de auto-studiu și proiecte end-to-end ca:
Încărcarea datelor, vizualizarea, construirea de modele, reglarea și multe altele.