Arvokisoissa erityisesti pikamatkoilla yleistaso tuppaa nousemaan verrattuna kauden aikaisempiin kansainvälisiin GP- ja Timanttiliigaosakilpailuihin. Tämän jutun tarkoituksena on analysoida, onko yksittäisen kisakauden yleistulostasolla yhteyttä arvokisafinaalien tulostasoon? Onko mahdollista jollain tapaa ennustaa tai mallintaa kuluvan kauden yleistasoon pohjautuen arvokisafinaalien tulostasoa? Kysymystä tarkastellaan sekä empiirisesti että mallinnusnäkökulmasta.
Mallinnuksen lajiksi valitaan kenties eniten kilpailluin laji eli miesten 100 metrin juoksu. Analyysin aineisto sisältää arvokilpailuja edeltäneiden Timanttiliigaosakilpailujen 100 metrin finaalien tulokset. Tarkasteluvuodet ovat 2015, 2017 ja 2019 – näinä vuosina käytiin kesän lopussa maailmanlaajuiset yleisurheilun arvokilpailut.
Tilastollisesta näkökulmasta mallinnuksen pohjana on Bayesilainen ajattelu*, joka perustuu Bayesin kaavan soveltamiseen. Bayesilaisuudessa ajatellaan, että havainnot ovat kiinteitä ja parametrit (esimerkiksi keskiarvo ja keskihajonta) ovat tuntemattomia suureita, joiden todennäköisyysjakaumaa (posterioria) voidaan estimoida havaintoaineiston ja mahdollisen ennakkotiedon (priorijakauma) pohjalta.
Bayesilainen mallintamisessa on tyypillistä tiedon kumuloituminen. Analyysin ennakkotietona eli "prioritietona" on jokaisen tarkasteluvuoden ensimmäinen Timanttiliigaosakilpailu – tästä lasketaan 100 metrin finaalin keskiarvo ja varianssi**. Tämän jälkeen huomioidaan osakilpailu 2, josta Bayesin kaavaa soveltamalla saadaan prioritiedon (osakilpailu 1) ja havaintoaineiston (osakilpailu 2) avulla laskettua nk. posteriorijakauma, joka on eräänlainen uuden havaintoaineiston ja jo aiemmin kumuloituneen prioritiedon kompromissi. Tämä havaitaan graafisesti myöhemmin analyysissa.
Mallinnuksessa oletetaan, että sekä varianssi (vaihtelu) että odotusarvo (keskiarvo) ovat tuntemattomia, joten ne estimoidaan jokaisella kierroksella uudelleen, pohjautuen aikaisempaan kumuloituneeseen (priori)tietoon ja uuteen havaintoaineistoon. Mallina käytetään tällöin odotusarvon mallintamisessa normaalijakaumaa ja varianssin estimoimisessa käänteistä kiin neliö-jakaumaa***.
Arvokisojen "ennustejakaumana" käytetään arvokisoja edeltävien osakilpailujen jälkeen saavutettua kauden posteriorijakaumaa – tämä jakauma on siis kaikkien arvokisoja edeltäneiden Timanttiliigaosakilpailujen pohjalta kumuloitunut tieto yksittäisen juoksun odotusarvosta (keskiarvosta) ja varianssista. Koska osakilpailuja on useita, yksittäisen osakilpailun poikkeavilla olosuhteilla (esim. myötätuuli, sade) on suhteellisen vähän vaikutusta viimeiseen posteriorijakaumaan.
Posteriorijakaumat:
Seuraavissa grafiikoissa musta kuvaaja tarkoittaa kulloisenkin kisan tulosten empiiristä tiheysjakaumaa – mitä korkeammalla musta käppyrä kulkee, sen enempi tuloksia on painottunut kyseiselle tulostasolle. Musta pystyviiva on 10 sekunnin tulos. Sininen alue on puolestaan teoreettinen (posteriori)jakauma kulloisessakin mallinnuksen vaiheessa.
Ensimmäisenä kesän 2015 jakaumat – kilpailut ovat aikajärjestyksessä vasemmasta yläkulmasta lähtien. Yleisesti uuden posteriorijakauman siirtyminen on visuaalisesti katsottuna suhteellisen maltillista, koska miesten 100 metrin tulosten varianssi on pieni. Posteriorin siirtyminen nähdään selkeästi esim. Dohan ja Eugenen osakilpailujen välillä – Dohassa oli 2015 kesällä suhteellisen tiivis ja hieman matalampi tulostaso verrattuna Eugenen osakilpailuun, mistä johtuen Eugenen kohdalla posteriorijakauma on hiukan laakeampi ja odotusarvo kovemmissa tuloksissa. Selkeimmät muutokset posteriorijakaumassa näkyvät yleensä ensimmäisissä osakilpailuissa, mikä johtunee vähäisestä prioritiedosta.
Pekingin MM-kilpailuissa juostiin selkeästi kauden kovin 100 metrin kilpailu ja mallinnusjakauma ei kykene kovinkaan tarkasti ennustamaan arvokisojen tasoa. Tarkastellaan johtopäätöksissä tarkemmin numeerisesti jakaumien eroja.
Kesän 2017 MM-kilpailut pidettiin elokuun alussa Lontoossa ja tätä ennen kilpailtiin 10 miesten 100 metrin Timanttiliigastarttia. Grafiikassa nähdään jälleen osakilpailujen vaikutus posteriorijakaumaan – Eugenen (myötätuuli)osakilpailussa oli todella kova taso suhteessa aiempiin osakilpailuihin, mikä näkyy uuden posteriorijakauman "laakeutena".
Lontoon MM-kilpailut eivät 100 metrin tasoltaan erottuneet niin selkeästi 2015 vuoteen verrattuna muista osakilpailuista – esimerkiksi Monacon osakilpailun 100 metriä oli korkeatasoinen. Toisaalta tämänkin tarkasteluvuoden kohdalla yleistason mukaisesti muodostunut posteriorijakauma "aliarvioi" / "aliennustaa" MM-kilpailuiden realisoitunutta tasoa.
Kesällä 2019 kilpailtiin tarkasteluvuosista vähiten (8 kpl) Timanttiliigan 100 metrin kilpailuja ennen Dohan MM-kilpailuja – mikä on sinällään erikoista, sillä Dohan MM-kilpailut kilpailtiin myöhään syys-lokakuun vaiheessa. Osakilpailujen yleistaso oli huomattavasti aiempia kausia leveämpi, mikä näkyy erityisesti ensimmäisten osakilpailujen laakeana posteriorijakaumana (sininen). Viimeisten osakilpailujen taso oli tiivimpää, jolloin posteriorikin tasoittuu tiiviimmäksi.
MM-kilpailuiden kohdalla toteutuu sama ilmiö, kuin aikaisempina vuosina – yleistaso on korkeampi verrattuna ennusteposteriorin jakaumaan.
Johtopäätöksiä:
Tarkasteluvuosista kausien 2015 ja 2019 kovin keskiarvo osui MM-finaaliin. Pekingin MM-kilpailuiden miesten finaalin keskiarvo oli 9.92s ja Dohan MM-kilpailuiden 9.95s – vuonna 2019 yhdenkään arvokisoja edeltäneen Timanttiliigaosakilpailun 100 metrin keskiarvo ei ollut alle 10 sekuntia. 2017 Lontoon MM-kilpailuiden 100 metrin finaalin keskiarvo oli 10.04s, jonka edelle meni Eugenen timanttiliigan osakilpailu (9.96s) – toisaalta tämä kilpailu juostiin liian kovassa myötätuulessa. Lisäksi arvokilpailuissa oli kulloisenakin tarkasteluvuonna osakilpailuihin nähden keskimääräistä pienempi varianssi (tulosten vaihtelu).
Oletusarvoisesti arvokilpailuissa tulostaso tuppaa nousemaan, joten posteriorijakauman ja arvokisojen empiirisen jakauman yhtäläisyys olisi ollut lievä yllätys. Kaudella 2015 posteriorijakauman odotusarvo ennen arvokilpailua oli 10.05 sekuntia ja varianssi 0.019s – Pekingissä juostiin reilu 10 sadasosaa keskiarvoltaan kovempi kilpailu (9.92). Pekingin MM-kilpailuiden varianssi oli vain 0.007 s, eli MM-finaali oli hyvin tasainen.
Kaudella 2017 posteriorijakauman odotusarvo ennen arvokisoja oli 10.14s ja Lontoon MM-finaalissa raapaistiin keskiarvollisesti 10 sadasosaa kovempi satku (ka 10.04s). Variansseissa oli myös eroja (posteriori pre-arvokisat 0.025s, Lontoo MM 0.015s) Kaudella 2019 posteriorijakauman odotusarvo oli osakilpailujen kumuloituneen tiedon perusteella 10.08 ja varianssi 0.02s - Dohassa juostiin keskiarvollisesti yli 10 sadasosaa kovempi satanen (ka 9.95s), eli arvokisoissa nähtiin Timanttiliigaosakilpailuihin nähden selkeä tasollinen nosto. Lisäksi varianssi MM-kisoissa oli kauden yleistason varianssia pienempää (0.0115s).
Vertailtaessa arvokisojen finaaleja ja päivittyneitä kausikohtaisia posteriorijakaumia, huomataan kuitenkin selkeitä trendejä. Ensinnäkin tarkasteluvuosina posteriorijakauman keskiarvon tarkentuessa kovempiin aikoihin, arvokisojen finaalitkin olivat kovempitasoisia. Kauden yleistasolla näyttää tähän analyysiin pohjautuen olevan jonkinlaista vaikutusta arvokisojen finaalien tulostasoon. Toiseksi arvokisojen finaalien keskiarvot olivat 0.10-0.13 sekuntia viimeisen posteriorijakauman odotusarvoa kovempia – järjestäen miesten 100 metrillä arvokisoissa tapahtuu selkeä tasonnousu, mutta nousu oli kulloisellakin kaudella suhteellisen systemaattinen. Kolmanneksi arvokisojen finaalien varianssi oli perus Timanttiliigakisaa keskimääräistä pienempää, mikä johtunee pitkälti siitä, että arvokisoissa ns. parhaat ovat viivalla samaan aikaan (kenties ensimmäistä kertaa kyseisellä kaudella). Mallinnuksella ei saatu aikaiseksi tarkkaa finaalitason ennustamista, mutta se antoi systemaattisia viitteitä siitä, miten kauden yleistaso voi antaa lisätietoa ennustettaessa arvokisafinaalin tulostasoa.
** keskihajonta korotettuna toiseen potenssiin
*** ks. esim. https://en.wikipedia.org/wiki/Conjugate_prior
Ei kommentteja:
Lähetä kommentti