Jae Duk Seo
9 februarie 2019 · 4 min de citire
Vă rugăm să rețineți că această postare are scopul meu educațional.
Acum → normalizăm greutatea rețelei → accelerează convergența → nu are dependență de dimensiunea lotului → poate fi aplicat în RNN sau GAN. (Metodă simplă, dar puternică de accelerare a convergenței). → aplicat și în RL.
NN → se poate antrena mai repede atunci când este implicat factorul de normalizare → metodele de optimizare a gradientului de prim ordin → depinde de curbura peisajului de pierdere → punctele de șa sunt problema. (pe curbura patologică → progresul greu în acele peisaje). → există o metodă mai ușoară de optimizare. (găsirea unor modalități bune de optimizare este un domeniu cheie de cercetare).
Arhitectura rețelei diferă de la sarcină la sarcină → Îmbunătățirea proprietății de optimizare este un alt domeniu cheie de cercetare → îmbunătățirea metodelor de optimizare ar fi foarte utilă. (folosind metode de gradient natural, ar putea fi pe cale.). → se referă la matricea Fisher și operația de scriere. Sau schimbați face gradientul să arate ca un gradient natural → albirea gradientului → ghiciți că decorelația îmbunătățește optimizarea. (normalizarea lotului este o altă metodă). → reduceți schimbul de covarianță. (inspirat de normalizarea lotului) → dar nu există zgomot la gradient.
NN standard → multiplicarea matricii și neliniaritatea → abordare generică. (reparameterizați greutatea prin normalizare → introducând V și G.).
Ideea → ideea autorului este o diferență, deoarece ea reparameterizează greutățile. Decuplarea direcției și amploarea greutății. (există, de asemenea, o metodă de utilizare a reparametrizării jurnalelor, dar nu arată rezultate bune în practică).
SGD este utilizat → dar cu privire la v și g → și acest gradient poate fi rescris diferit așa cum se vede mai sus. (foarte interesant). M este o matrice de proiecție → scalează gradientul ponderat → proiectează și gradientul din vectorul de greutate curent → covarianța gradientului se apropie de identitate.
Actualizarea este ortogonală → și norma este crescută prin teorema lui Pitagora. → gradient scalat → auto stabilizează norma sa. Acest lucru face ca optimizarea să fie robustă la rata de învățare → super cool → rata de învățare să se stabilizeze și → norma lotului are, de asemenea, acest tip de proprietate. (proiectarea gradientului departe de vectorul de greutate → zgomotul este eliminat).
Cum se raportează la BN → când intrarea este albă, normalizarea pre-activării este aceeași cu normalizarea greutății. (normalizarea greutăților este o operațiune de calcul mai ieftină). (de asemenea, actualizare mai puțin zgomotoasă).
BN → poate fixa scara datelor → robustă la inițializarea parametrilor → norma de greutate nu face acest lucru → deci înainte de antrenament → inițializați v dintr-un mini-lot. (numai în timpul inițializării, prima iterație). → caracteristicile au acum zero medie și 1 varianță. (inițializarea bazei de date pare a fi un domeniu de studiu cu totul diferit). (nu se aplică RNN sau LSTM).
Nu scalează datele → pentru a avea o abatere standard de una → doar centrează datele. (centrarea gradientului → funcționare ieftină → mai puțin zgomot în timpul antrenamentului).
- 9 moduri de a vă întoarce pe drumul liber după dieta pentru suplimente de slăbit; Planuri de instruire SHREDZ
- Cel mai bun cardio pentru pierderea în greutate (Aflați cum să ardeți mai multe grăsimi corporale) - Antrenament personal pentru corp optim
- 4 hackuri simple de bucătărie pentru a vă catapulta succesul în scăderea în greutate
- Cele mai bune trackere de fitness pentru antrenamentul cu greutăți în 2020 iMore
- Construiți un antrenament de formare a circuitului pentru pierderea în greutate Xercise4Less gym