Vreau să-mi separ datele în tren și set de teste, ar trebui să aplic normalizarea peste date înainte sau după împărțire? Are vreo diferență în timp ce construiește un model predictiv?

automată

3 Răspunsuri 3

Mai întâi trebuie să împărțiți datele în set de antrenament și test (setul de validare ar putea fi de asemenea util).

Nu uitați că testarea punctelor de date reprezintă date din lumea reală. Normalizarea caracteristicilor (sau standardizarea datelor) a variabilelor explicative (sau predictive) este o tehnică utilizată pentru centrarea și normalizarea datelor prin scăderea mediei și împărțirea la varianță. Dacă luați media și varianța întregului set de date, veți introduce informații viitoare în variabilele explicative ale antrenamentului (adică media și varianța).

Prin urmare, ar trebui să efectuați normalizarea caracteristicilor peste datele de antrenament. Apoi, efectuați normalizarea și la instanțele de testare, dar de data aceasta folosind media și varianța variabilelor explicative ale antrenamentului. În acest fel, putem testa și evalua dacă modelul nostru poate generaliza bine la puncte de date noi, nevăzute.

Pentru o citire mai cuprinzătoare, puteți citi articolul meu Scalare și normalizare a caracteristicilor pe scurt

De exemplu, presupunând că avem următoarele date:

unde X reprezintă caracteristicile noastre:

iar Y conține eticheta corespunzătoare

Pasul 1: Creați seturi de antrenament/testare

Pasul 2: Normalizați datele de antrenament

Pasul 3: Normalizați datele de testare