Un lucru care face sportul atât de distractiv de urmat este pletora de statistici asociate fiecărui jucător, fiecare joc, fiecare echipă și fiecare sezon. În afară de agențiile guvernamentale, nu veți găsi surse mai bune de date pe care să le practicați. Este o chestiune simplă să accesați site-ul web al unui sport profesionist și să găsiți câteva date brute care trebuie analizate.

fotbalului

În fotbal (genul american) se spune adesea că o ofensă bună oferă emoție, dar o bună apărare câștigă jocuri. Fanii colturilor Indianapolis din 2006 probabil nu ar fi de acord. Clasat pe locul 3 în ofensivă, dar pe locul 21 din 32 de echipe în apărare, Colts au înregistrat un sezon regulat de 12 victorii și 4 pierderi și au câștigat Super Bowl. Poate că erau o anomalie. Deci întrebarea este: sunt echipe care fac playoff-urile post-sezon mai bune defensiv decât restul ligii, așa cum susține înțelepciunea convențională?

Datele pentru această analiză au constat din 26 de variabile (de exemplu, statistici privind performanța echipei, cum ar fi numărul de jocuri, penalizări, bătăi de cap, conversiile 3 și 4 jos și timpul de posesie) pentru cele 32 de echipe NFL (mulțumesc nfl.com) . Având atâtea variabile de performanță cu comparativ câteva echipe este un semn că analiza factorilor ar putea fi o modalitate utilă de a continua (https://statswithcats.wordpress.com/2010/08/27/the-right-tool-for-the-job /). Analiza factorială (FA) se bazează pe conceptul că variația unui set de variabile poate fi rearanjată și atribuită unor variabile noi, numite factori. Utilizarea factorilor în locul variabilelor brute este uneori de preferat, deoarece factorii sunt mai eficienți (adică, sunt necesari mai puțini factori pentru a evalua aproape aceeași proporție de variabilitate ca variabilele originale).

FA necesită o anumită intuiție pentru a interpreta. FA produce ecuații care definesc fiecare factor în termeni de variabile originale:

F1 prin Fm sunt m factori care înlocuiesc originalul n variabile

x1 prin xn sunt variabilele originale

a1prin un sunt ponderi de analiză factorială.

m este întotdeauna mai mic sau egal cu n, dar este mult mai puțin dacă ai noroc.

Ce trebuie să faceți este să vă uitați la corelațiile dintre variabilele originale și factori și să ghiciți ce ar putea însemna fiecare factor. Este ca și cum ți s-ar oferi o cutie mare de piese - angrenaje, tranzistoare, anvelope, țesături, motoare, țevi, fire și cherestea - și încercând să-ți dai seama ce ar trebui să facă. Unele părți vor fi integrale, iar altele vor rămâne.

FA a derivat doi factori din cele 26 de statistici NFL - un factor de ofensă și un factor de apărare. Nici o mare surpriză acolo, de fapt, asta sperăm. Fiecare factor reprezintă aproximativ 20% din variația totală a variabilelor originale. Așadar, am pierdut 60% din informațiile conținute în cele 26 de variabile originale în schimbul simplității de a avea doar două variabile. Acesta este un bun exemplu pentru care FA este adesea denumită tehnică de reducere a datelor.

Doi factori care rezumă 26 de statistici privind performanța echipei.

FA și tehnicile asociate de reducere a datelor de analiză a corespondenței și scalare multidimensională sunt ca fotografiile. O fotografie transmite doar două din cele trei dimensiuni spațiale și, de obicei, nu include informații despre timp, mirosuri, sunete, temperatură sau alte circumstanțe, totuși prezintă încă suficiente informații, astfel încât observatorii să poată discerne ceea ce se întâmplă. Deci reducerea datelor nu ar trebui luată ca un descriptor peiorativ. Uneori simplificarea unei probleme este cel mai bun mod de a o rezolva; cel puțin așa credea William de Ockham. Și la urma urmei, nu este vorba despre modelare?

Odată ce numărul de variabile a fost redus la câțiva factori gestionabili, puteți analiza modele de relații mult mai eficient. Luați în considerare diagrama dispersă a modului în care cele 32 de echipe au marcat pe cei doi factori și cât de departe au ajuns în post-sezon. Cele două linii gri reprezintă media factorilor de ofensă și de apărare. Seattle Seahawks ar putea fi considerată echipa medie a sezonului 2006, deoarece sunt situate cel mai aproape de intersecția acestor două linii. Trageți o linie imaginară prin originea complotului și prin intersecția liniilor (adică un unghi de 45 °) și veți identifica cele mai echilibrate echipe, echipele cu aproximativ aceleași scoruri pentru factorii de atac și de apărare. Cele mai echilibrate echipe de la cel mai bun la cel mai rău ar fi Pittsburgh Steelers, New York Giants, Seattle Seahawks, Tennessee Titans, Cleveland Browns și Houston Texans. Dintre acestea, doar Giganții și Seahawk-urile au făcut playoff-urile. Atât de mult pentru importanța echilibrului.

Analiza factorială a echipelor Ligii Naționale de Fotbal.

[Notă: există un motiv pentru care nu există valori pe axe. Unii cititori care au văzut acest grafic au fost total nedumeriți de numere, așa că i-am scos (https://statswithcats.wordpress.com/2011/01/16/ockham%E2%80%99s-spatula/). Unitățile analizei au fost normalizate și sunt semnificative numai în termeni relativi. Cu toate acestea, ambele axe au aceleași incremente de scară. O diferență de 1 pe scara infracțiunii este analogă cu o diferență de 1 pe scara de apărare.]

Colts, campionul Super Bowl din 2006, Colts a avut cel mai mare scor pe factorul de ofensă, dar cel mai mic scor pe factorul de apărare al oricăreia dintre echipele de playoff. De fapt, 63% dintre echipele cu un scor de factor de ofensă peste medie au făcut playoff-urile, comparativ cu 44% dintre echipele cu un scor de factor de apărare peste medie. Așadar, este greșită noțiunea că o bună apărare bate o infracțiune bună? Nu neaparat; dar sigur nu s-a aplicat în 2006.

Așadar, amintiți-vă, dacă nu există fotbal NFL în 2011 din cauza unor probleme contractuale, vă puteți întoarce întotdeauna la statistici pentru a umple golul. Apoi, din nou, există întotdeauna sabermetrie ...