NBA analytics: Going data pro

  • Oct 18, 2023

NBA, kaip ir kiekvienai kitai sporto lygai, apdovanojimai yra svarbūs. Jie gali pritraukti dėmesį, paskatinti diskusijas, užsidirbti pinigų ir įtraukti gerbėjus, žaidėjus ir ekspertus, be kita ko. Ar už jų slypi duomenų mokslas ir analizė – ar gali būti, ar turėtų būti? Mes pasirinkome NBA tobuliausio žaidėjo apdovanojimą kaip pavyzdį, kad galėtume analizuoti kai kuriuos duomenimis pagrįstos kultūros aspektus.

6a27ba60-94d6-419a-a142-4d6fff9b78b2-nba11280x720.jpg

Pamiršk Moneyball. O kaip apibrėžti NBA apdovanojimų metriką? Kaip sunku tai gali būti? (Nuotrauka: NBA)

ypatinga savybė

IoT: saugumo iššūkis

Daiktų internetas kelia rimtų naujų saugumo pavojų. Nagrinėjame galimybes ir pavojus.

Skaitykite dabar

Šiandien NBA skelbia savo metinius apdovanojimus. Tai labai lauktas įvykis, apie kurį buvo daug kalbama ir analizuojama sporto žiniasklaidoje ir ne tik. Prognozės ir ginčai, kas turėtų būti nominuotas ir kas turėtų laimėti kiekvieną apdovanojimą, tęsiasi beveik nuo pat sezono pradžios.

Gerai, kad gerbėjai įsitrauktų, tačiau tokie apdovanojimai turi ir daugiau aspektų: jie gali suteikti žiniasklaidai apie ką kalbėti, pagerinti žaidėjo ir komandos statusą ir bet kas gali lažintis dėl rezultatų.

Būti popkultūros dalimi ir turėti potencialą padaryti ar sulaužyti karjerą bei turtus reiškia, kad NBA apdovanojimuose galima pamatyti daugiau. Pabandykime žvilgtelėti už stiklo ir panaudoti duomenų mokslą bei analizę, kad atsakytume į daugeliui NBA gerbėjų kylantį klausimą: kas šį sezoną buvo labiausiai patobulėjęs NBA žaidėjas (MIP)?

Apibrėžkite „patobulintą“

Pirmiausia, kas gali apibrėžti patobulinimus ir kaip? Kaip kartą pasakė vienas NBA rašytojas:Yra keletas dalykų, kurie labiau vargina nei bandymas nustatyti, ką reiškia būti MIP". Kita vertus, tai daro jį įdomiu ir atviru interpretacijoms. Kadangi NBA apie savo kriterijus ir vertinimo metodą daug nekalba, kiti bandė sugalvoti savo.

Tradicinis NBA rašytojų būdas tai daro sudaryti ekspertų grupę ir priversti juos pasverti. Ekspertų nuomonių vidurkis gali būti labiau objektyvus, o ne tik vienos nuomonės gavimas, tačiau daugumoje duomenų analitikų knygų tai vis tiek nėra laikoma duomenimis pagrįstu tyrimu.

Adomas Fromalis iš Bleacherio ataskaita ginčijosi kad MIP „kelerius metus suteikiamas žaidėjui, kuris išlaikė savo žaidimo lygį (ar net šiek tiek regresavo), atlikdamas daug didesnį vaidmenį. Kitais atvejais lyga apdovanoja dalyvį, kuris padarė pastebimą žingsnį abiejuose grindų galuose ir teisėtai tobulėjo pagal minutę. Žvaigždės gali laimėti pasiekusios naują lygį, nors apdovanojimas dažnai atitenka žemo ar vidutinio lygio rotacijos nariui, kuris padarė šuolį į teisėtumą. Čia mes atsiskaitome už viską, likdami visiškai objektyvūs.

Tai tvirtas teiginys. Štai ką Fromalas padarė ir ko galime iš to pasimokyti.

Fromalo metodika buvo pagrįsta žaidėjų, kurie tobulėjo be jokios kitos priežasties, pašalinimu naujai atrasta galimybė ir žaidėjų įvertinimas pagal tai, kiek jie pagerėjo dviejose skirtingose ​​srityse statistika. Fromalas norėjo apdovanoti tiek žaidėjus, kurie tobulėja pagal minutę, tiek tuos, kurie sustabarėja eidami didesnius vaidmenis.

Fromalas pateikė savo analizę taip, kaip jis pavadino „atgalinį skaičiavimą, kuris sąmoningai vengia subjektyvumo“. Tai ne visada buvo gerai priimta visų. Fromalas sulaukė visko – nuo ​​nešvankybių iki kaltinimų šališkumu, ir jis taip pat buvo linksmai plagijuotas, nes kopijuoklis neteisingai interpretavo savo rezultatus. Bet kaip gerai Fromal sekėsi?

Fromalo trejetuke yra du iš trijų NBA nominuotų MIP žaidėjų – Giannis Antetokounmpo užėmė 2-ą vietą ir Rudy Gobertas už 3-ią. Jo numeris 1 buvo Mylesas Turneris, žaidėjas, kurio beveik niekas kitas nepastebėjo. Fromalas pasigedo Denverio Nicola Jokic, kuris daugumai analitikų ir gerbėjų buvo akivaizdus varžovas.

Tai gali suteikti Fromalui objektyvumo, nes jis yra Denverio gyventojas, tačiau kyla klausimas, kur išsiskyrė NBA ir duomenimis pagrįstos analizės keliai. Atsakymas galbūt slypi tame, ką pažymi pats Fromalas: paprastai tikimasi, kad antrakursiai (kaip Turneris) pagerės. Kitose analizėse antrakursiai neįtraukiami į MIP diskusiją.

Vis dėlto, kaip Jokičius gali nebūti tame sąraše? Ar Fromalui trūksta kažko akivaizdaus, ar NBA turi savo mąstymo būdą? Galbūt, dar svarbiau, turėtų? Ar NBA įžvelgia kažką, ko nemato Fromalo analizė, ar ten žmonės pasirenka ne visiškai remdamiesi duomenimis pagrįstais kriterijais ir metodais?

Duomenys, žvilgsniai

Fromalas yra profesionalus NBA rašytojas ir, nors ir neturi oficialių duomenų analizės žinių, atrodo, kad jis daug to daro dėl savo darbo. Kita vertus, Jay'us Spanbaueris jokiu būdu nėra profesionalas – tiesiog „Bucks“ gerbėjas, kuris pradėjo žiūrėti į žaidimą kitaip, nes NBA užplūdo matematikos ir duomenų antplūdis. Bet Spanbauerio duomenimis pagrįsta analizė pavyko ten, kur Fromal nepavyko.

Abi analizės buvo atliktos prieš NBA paskelbiant MIP nominantus, tačiau Spanbaueris mėnesiu aplenkė Fromalą ir susiaurino MIP kovą tarp Jokičiaus ir Antetokounmpo. Ne tik tai, bet ir jis atkreipė dėmesį į skirtumą tarp jų, dėl kurių NBA taip pat gali suteikti Antetokounmpo MIP apdovanojimą lenktynėse, kurios atrodo daugiausia tarp tų dviejų: gynyba.

Spanbaueris naudojo metriką, pavadintą „Defensive Win Shares“, kad parodytų didžiausią skirtumą tarp šių dviejų. Jis atkreipė dėmesį, kad nepaisant to, kad gynybos pajėgumus sunku tiksliai apskaičiuoti, galima pastebėti, kad Jokičius yra žemiau lygos vidurkio, o Antetokounmpo yra daugiau nei du su puse karto didesnis. Galbūt dabar tai akivaizdu, bet atrodo, kad niekas kitas nesinaudojo duomenimis, kad tai įrodytų, kai tai padarė Spanbaueris.

Dabar tai gali atrodyti akivaizdu, tačiau nedaugelis žmonių susimąstė apie MIP kandidatų palyginimą pagal jų duomenis ir vizualizavimą, kad kiti galėtų pamatyti. (Nuotrauka: Jay Spanbauer)

Tai aiškiai apibrėžta metrika ir skirtumas, bet kam tada pirmiausia sutelkti dėmesį į šiuos du žaidėjus? Skirtingai nuo Fromalo, Spanbaueris derino instinktą ir duomenis:

„Manau, kad galiausiai duomenys turėtų būti naudojami „patikrinti“, ką mato mūsų akys. Kiekvienas, kuris šiais metais stebėjo NBA, matė nuostabų Giannis Antetokounmpo šuolį. Atidžiau pažvelgus į jo skaičius tai patvirtina.

Su nuolatine informacija, tinklaraščiais, „Twitter“ ir tt yra pakankamai informacijos ir pakankamai diskurso, kad nominantų grupė galėtų teisingai nuspręsti. Vis dar pasitikiu tradiciniu kandidatų atrankos būdu, ypač norint gauti „atviro“ ar „skysčio“ apdovanojimą kaip MIP. Pavyzdys: Aiškūs kandidatai į MIP 2017 m. yra Antetokounmpo ir Jokic. Žvelgiant į skaičius ir susmulkintus duomenis greičiausiai pasieksite tą patį rezultatą.

Išskyrus atvejus, kai to nepadarė – bent jau nenaudojant Fromalo metrikos ir duomenų. Tai atveda mus prie pagrindinio dalyko: net jei kažkas yra pagrįsta duomenimis ir turi aiškius apibrėžimus, tai nereiškia, kad tai yra Dievo duota tiesa. Duomenys leidžia pagrįsti požiūrį labiau patikimai, be to, jie gali leisti atrasti modelius, kuriuos kitaip gali būti sunku pastebėti. Tačiau duomenų valdymas nebūtinai yra neginčijamas.

Antetokounmpo istorija verta Holivudo be galo ambicinga ir vis dėlto laikosi kojos ant žemės (kai neskrenda aukščiau ratlankio), yra gerbėjas ir žiniasklaidos numylėtinis, smarkiai tobulėja ir tapo superžvaigždės statusu. Galima sakyti, kad tai buvo bene akivaizdžiausias įmanomas pasirinkimas, bet remiantis vien skaičiais, MIP būtų buvęs Mylesas Turneris.

Duomenimis pagrįstų sprendimų priėmimo problema

Jau minėjome kai kurių NBA analitikų naudojamą taisyklę „MIP nėra antrakursių“. Jei NBA to būtų pasirinkusi, Turneris pagrįstai nebūtų buvęs MIP nominantas, bet ir Jokičius. Taigi, jei Turnerio numeriai yra geresni nei Jokičiaus, ką čia svarsto NBA?

Tai arba ėjimas su Mylesu Turneriu dėl MIP yra toks dalykas, kuris gali įkaitinti diskusijas. Tai taip pat gali padėti nurodyti keletą faktų apie duomenimis pagrįstą sprendimų priėmimą.

Sugalvoti „teisingus“ kriterijus yra sunku ir ad hoc. Taigi galbūt MIP kriterijai turėtų būti susiję su Fromal naudojimu. Ir galbūt antrakursiai turėtų būti neįtraukti, išskyrus kai kuriuos atvejus. Bet kokie tada būtų tie atvejai? Ką apie žaidėjus, kurie sugrįžta po prastų metų? Ar linkteliu žaidėjui, kuris galėtų pasinaudoti paskatinimu, arba rinka, kurią lyga nori plėsti?

Ar bet kuris iš aukščiau išvardytų kriterijų yra teisėti, ar ir kaip juos vertina NBA, galima interpretuoti. Kartais tokie bendri organizaciniai tikslai ir varikliai yra aiškūs, kartais ne. Tačiau nepamirškime: organizacijų vadovai turi jiems didžiulę įtaką, nepaisant to, ar duomenys naudojami jiems fiksuoti ir įvertinti.

Pereiti nuo kriterijų prie metrikos yra sunku ir ad hoc. Tarkime, kažkas kažkaip susiaurino MIP kriterijus ir surašė juos akmeniu. Kokia metrika geriausiai išreiškia kiekvieną? Ir kaip juos derinti tarpusavyje, kad būtų gautas bendras balas?

Netgi plačiausiai naudojama metrika tam tikru momentu buvo sukurta kas nors ir sukelia jų kūrėjo šališkumą ir trūkumus – suvokiamus ar kitokius. Krepšinio atveju turbūt plačiausiai žinomas rodiklis yra PER. Diskutuojama, ar tai yra geriausia bendra metrika, leidžianti užfiksuoti žaidėjo gebėjimus ir įtaką žaidime.

Yra daugiau metrikų, kurios nuolat tobulėja, ir daugumai jų reikia tam tikros srities (krepšinio) ir technikų (duomenų mokslo) patirties, kad būtų galima visapusiškai suprasti ir įvertinti.

„DataOps“ yra duomenų ir analizės naudojimo kultūra ir praktika, skatinanti sprendimų priėmimą organizacijose. Bet tai nėra neklystama. (Nuotrauka: Qubole)

Turėti reikiamus duomenis darbui sunku ir nėra savaime suprantama. Kai kurie duomenys, šiandien naudojami norint gauti informaciją apie NBA žaidėjų gynybos sugebėjimus, pvz., pavogimus ir blokus, buvo įrašyti tik 70-aisiais. Tai atspindi ne tik didėjančią duomenų svarbą visur, bet ir pačios srities raidą.

Kai gynybos svarba krepšinio žaidime sulaukė daugiau pripažinimo, šie duomenys rado savo vietą. Palaipsniui į NBA arsenalą įtraukiama vis daugiau duomenų, įskaitant vizualinius ir erdvės bei laiko duomenis, šurmulio statistikair socialinės žiniasklaidos turinį.

Procesas ten yra dvipusis. Kartais kas nors sugalvos idėja kiekybiškai įvertinti tai, apie ką nėra duomenų, o kartais ir galimybė turėti tam tikrų duomenų gali būti panaudotas nenumatytais būdais.

Darbas su penkerių metų vaikais yra sunkus, taškas. Galbūt nenuostabu, kad ne visi, kuriems rūpi NBA, gauna arba rūpinasi duomenimis ir analize. MIP nominantai nepareiškė jokių nuotaikų tokioms analizėms, ir atrodo, kad nedaug gerbėjų daro tai, ką padarė Spanbaueris.

Kai kas gali sakyti, kad gerbėjai ir žaidėjai vis tiek yra panašūs į penkerių metų vaikus, tačiau tiesa ta, kad jei viskas nėra pakankamai paprasta, kad galėtų pasidaryti penkerių metų, NBA analitika bus visos kitos analizės būklė yra dabar: kažkas, ką gali naudoti keli ekspertai ir kai kurie entuziastai, kai kurie kiti yra girdėję ir galbūt gali sekti, ir dauguma išlieka mėšlas.

Kaip ir visos analitinės programos, norint taikyti NBA analizę, teisingus duomenų šaltinius Reikia surasti, apdoroti ir integruoti duomenis, pritaikyti srities žinias, atlikti analizę, vizualizuoti ir paaiškinti rezultatus.

Taigi, ar NBA turėtų būti skaidresnė dėl apdovanojimų kriterijų? Ir koks būtų rezultatas tai padarius? Ar dėl to viskas gali būti deterministiška, atimant linksmybes ir pinigus?

Going Data Pro

Spanbaueris nėra pirmasis profesionalas, užsiimantis NBA duomenų analize. Yra daugybė NBA analitikos entuziastų ir daugybė žmonių, kurie profesionaliai dirba šioje srityje. Ir ribos tarp šių dviejų ne visada yra aiškios, kaip Setho Partnow istorija rodo. Partnow yra buvęs tinklaraštininkas, tapęs analitiku, dabar dirbantis su „Bucks“. Džonas Hollingeris, asmuo, kuris pristatė PER, dabar dirba „Grizzlies“.

Bet kam žmonės naudoja NBA duomenis ir analizę? Tai priklauso nuo to, kas jie yra, ko jie siekia ir kokias priemones jie turi. Tai, ką galite padaryti atlikdami miegamojo analizę, nuves jus tik toli. Kai kuriems dalykams tiks vidurinės mokyklos matematika + skaičiuoklė / internetas + atsitiktinės gerbėjų žinios + kelios valandos. Kitiems tai tikriausiai labiau panašu į daktaro laipsnį + IBM Watson + krepšinio guru statusas + keli mėnesiai.

Visi žinome filmą Moneyball, ir daugelis krepšinio gerbėjų yra susipažinę su Kawhi Leonard pažanga per analizę. Mes taip pat žinome, kaip visų sporto šakų geriausios komandos palaipsniui tampa valdomos duomenimis, ir mes matėme IBM Watson reklamuojamas kaip įrankis, padedantis NBA komandoms. Kai kurie iš mūsų girdėjo apie „Karštos rankos“ klaidingumas.

Komandoms pirmiausia reikia išanalizuoti savo žaidėjų ir varžovų žaidimą, siekiant atitinkamai jį pagerinti ir atremti. Taip pat svarbu ieškoti naujų darbuotojų, o galiausiai viskas priklauso nuo to, kad reikia laimėti daugiau žaidimų, o tai taip pat yra tinkama gauti daugiau pelno.

Panašu, kad NBA komandos naudoja įvairias analizės programas: nuo supratimo, kas atsitiko ir kodėl, nuspėti, kas atsitiks, ir padaryti, kad tai įvyktų – aprašomąjį, diagnostinį, nuspėjamąjį ir įpareigojantį analitika.

Visur naudojami visų formų ir dydžių duomenys, ir NBA negali būti išimtis.

Lažybų entuziastams svarbiausia ne pats žaidimas, o bandymas padaryti teisingas prognozes, kurios pavers juos laimėtojais. Tokiems gerbėjams kaip „Spanbauer“ daugiausia dėmesio skiriama žaidimo įžvalgoms. Jo, kaip duomenimis pagrįstos kultūros atstovo, požiūriai yra įdomūs:

„Sunku nepaisyti vaidmens ir paveikti pažangius rodiklius bei statistiką krepšinyje – taip pat ir kitose sporto šakose. Nors analitika nėra vienintelis būdas analizuoti žaidimą, man patinka galvoti apie tai kaip apie dar vieną objektyvą, pro kurį galima žiūrėti.

Nepasakyčiau, kad analitika yra tik prognozės. Ar net rezultatus, jei atvirai. Kalbama apie tradicinės organizacijų mąstysenos pakeitimą ir biuro evoliuciją. Matote, kad moksliniams tyrimams išleidžiama daugiau pinigų ir atsiranda daugiau darbo vietų analitikos srityje.

Dienos pabaigoje skaičiai yra tik skaičiai. Jiems skiriama daug dėmesio – kartais daugiau nei reikia. Žmogiškasis žaidimo elementas negali ir neturėtų būti ignoruojamas. Vis dar yra neapčiuopiamų dalykų, kurių mes negalėjome išmatuoti, o galbūt ir negalėsime išmatuoti.

Vis dėlto turėtume ir toliau ieškoti atsakymų naudodami kuo daugiau duomenų. Kuo daugiau skaičių ir informacijos bus įtraukta į bet kurį modelį, rezultatai bus tikslesni.

Nebūtinai manau, kad apdovanojimai turi turėti kažkokius kriterijus. Apdovanojimai skirti gerbėjams, o dalis apdovanojimų linksmybių yra diskutuoti tarp kitų gerbėjų jūsų nuomonės, kas turėtų laimėti, o kas neturėtų laimėti. Tačiau, kai apdovanojimų atranka diktuoja atlyginimus ir išmokas, pavyzdžiui, paskirtojo žaidėjo išimtis, tikrai reikėtų atsižvelgti į kriterijus.

Yra pakankamai informacijos, kad būtų galima pateisinti pinigų išleidimą ir analizės naudojimą įvairioms sritims įvertinti. Savininkai ir generaliniai direktoriai patys sprendžia, ar jie nori pasitikėti savimi, ar skaičiais.

Kitos istorijos:

  • Automatizavimas: gilaus mokymosi modelių kūrimo ir rinkodaros sistema
  • Spark gauna automatizavimą: analizuoja kodą ir derina grupes gamyboje
  • Pepperdata kodo analizatorius, skirtas Apache Spark