Pauliina Ilmonen: Tilasto voi kertoa totuuden tai johtaa harhaan – näin luet niitä oikein
Kasvaako bruttokansantuote ja miksi se kasvaa? Miten työttömyysaste on muuttunut? Entä mihin suuntaan koronapandemia on kehittymässä?
Jotta näihin kysymyksiin voidaan vastata, tarvitaan tilastoja ja mallintamista.
Uskottava tietopohjainen päätöksenteko nojaa tilastoihin. Dataa tuotetaan massiivisia määriä, mutta toisaalta tilastojen tarkoitushakuisella käytöllä on helppo johtaa ihmisiä harhaan.
Tilastoja tarkasteltaessa huomio täytyy kiinnittää lukuisiin seikkoihin aina kuvaajien skaaloista menetelmiin sekä tulosten tulkintaan.
Mitkä ovat ne kolme olennaisinta pointtia, joihin päättäjien täytyy ennen kaikkea kiinnittää huomiota, jotta tietopohjainen päätöksenteko olisi mahdollisimman totuudenmukaista?
Keskity tarkoituksenmukaisiin mittareihin
Tyypillisyyttä ja määrää voidaan mitata esimerkiksi keskiarvolla, mediaanilla, moodilla tai painotetulla keskiarvolla. Kaikki nämä kertovat eri tarinan ja niiden käytettävyys riippuu aina tilanteesta.
Jos tarkastellaan esimerkiksi uusien koronatartuntojen määrän kehitystä ja verrataan päiväkohtaisten tartuntojen peräkkäisten viikkojen mediaaneja – eli suuruusjärjestykseen aseteltujen havaintojen keskimmäisiä arvoja – ei saada totuudenmukaista kuvaa tartuntamäärien kehityksestä. Tartuntojen kirjaukset kun kasaantuvat usein tietyille päiville.
Sen sijaan päiväkohtaisten tartuntojen peräkkäisten viikkojen keskiarvojen vertaaminen antaa tilanteesta totuudenmukaisemman kuvan. Seitsemän tai neljäntoista päivän liikkuvan keskiarvon muutokset mahdollistavat luotettavan tiedon tartuntojen kehityksestä.
Ymmärrä syy-seuraussuhteet
Kun selvitetään miksi jokin asia tapahtuu, kyse on kausaliteetin eli syy-seuraussuhteiden selvittämisestä.
Kahden tekijän välinen yhteys ei automaattisesti takaa kausaalisuhdetta. Jos havaitsemme, että henkilöt A ja B kulkevat samaan suuntaan, on syytä tarkastella seuraako A juuri B:tä, vai B kenties A:ta.
A ja B voivat kulkea samaan suuntaan ihan sattumalta eli kausaliteettia ei ole. Toisaalta jossakin voi olla henkilö C, jota sekä A ja B jostain syystä seuraavat.
Asioilla saattaa siis olla yhteys, muttei keskinäistä riippuvuutta. Riippuvuuden voikin aiheuttaa jokin kolmas tekijä, kuten esimerkissä henkilön C toiminta.
Päätöksentekijöillä, kuten ihmisillä ylipäätään, on kiusaus tehdä kahden tekijän välisestä yhteyksistä kausaalipäätelmiä. Toisaalta meidän on myös välillä vaikea hyväksyä epämiellyttäviä kausaalisuuteen perustuvia totuuksia.
Esimerkiksi koronan osalta ihmisten kanssakäymisen rajoitukset johtivat kontaktien vähenemiseen ja tämä taas vaikutti tartuntatautitilanteen kohenemiseen. Syy-seuraussuhde on selkeä, vaikka olisikin mukavaa ajatella, että rajoitukset ovat olleet turhia ja hankaloittavat arkeamme.
Kiinnitä huomiota aineiston edustavuuteen
Toimiva yhteiskunta tarvitsee tieteentekijöiden tuottamia ja analysoimia edustavia tilastoja. Tilastojen puute voi johtaa nopeasti siihen, että resurssien tehokas kohdentaminen ja tilanteiden ennakointi käy mahdottomaksi.
Esimerkiksi kuluneen kahden vuoden aikana olisi ollut usein houkuttelevaa unohtaa tilastolliseen edustavuuteen pyrkivä koronatilastointi ja keskittää voimavarat hoitotyöhön. Jos koronatartuntamäärät eivät olisi kuitenkaan tiedossa, olisi hyvin hankala ennustaa sairaalahoitoa tarvitsevien potilaiden määrää.
Pauliina Ilmonen toimii tilastotieteen professorina Aalto-yliopiston perustieteiden korkeakoulussa, Matematiikan ja systeemianalyysin laitoksella. Hän johtaa poikkitieteellistä tutkimusryhmäänsä, joka tekee puhtaan matematiikan, matemaattisen tilastotieteen ja epidemiologian tutkimusta. Professori Ilmonen on toiminut Suomen tilastoseuran esimiehenä vuodesta 2018 ja hän on FENStatS COVID-19 työryhmän jäsen ja Inter Academy Partnership COVID-19 asiantuntijaryhmän jäsen.
Kirjoitus on julkaistu MustRead Akatemiassa.
- Julkaistu:
- Päivitetty: