Vreau să-mi separ datele în tren și set de teste, ar trebui să aplic normalizarea peste date înainte sau după împărțire? Are vreo diferență în timp ce construiește un model predictiv?
3 Răspunsuri 3
Mai întâi trebuie să împărțiți datele în set de antrenament și test (setul de validare ar putea fi de asemenea util).
Nu uitați că testarea punctelor de date reprezintă date din lumea reală. Normalizarea caracteristicilor (sau standardizarea datelor) a variabilelor explicative (sau predictive) este o tehnică utilizată pentru centrarea și normalizarea datelor prin scăderea mediei și împărțirea la varianță. Dacă luați media și varianța întregului set de date, veți introduce informații viitoare în variabilele explicative ale antrenamentului (adică media și varianța).
Prin urmare, ar trebui să efectuați normalizarea caracteristicilor peste datele de antrenament. Apoi, efectuați normalizarea și la instanțele de testare, dar de data aceasta folosind media și varianța variabilelor explicative ale antrenamentului. În acest fel, putem testa și evalua dacă modelul nostru poate generaliza bine la puncte de date noi, nevăzute.
Pentru o citire mai cuprinzătoare, puteți citi articolul meu Scalare și normalizare a caracteristicilor pe scurt
De exemplu, presupunând că avem următoarele date:
unde X reprezintă caracteristicile noastre:
iar Y conține eticheta corespunzătoare
Pasul 1: Creați seturi de antrenament/testare
Pasul 2: Normalizați datele de antrenament
Pasul 3: Normalizați datele de testare
- Cum să normalizați și să standardizați datele dvs. de învățare automată în Weka
- Învățare automată - Cel mai bun mod de a curăța și normaliza o cantitate mare de date bazându-se pe potrivirea șirurilor
- Html - Formular Javascript pentru calculatorul de calorii - Debordarea stivei
- Este necesar să separați cablurile de alimentare de curent continuu și cablurile de date Schimb de stive de inginerie electrică
- Drumeții - Cum ar trebui să elimin o lipitoare The Great Outdoors Stack Exchange