tiistai 2. syyskuuta 2014

Tilastomatematiikkaa toimittajille

"Keskusta ohitti kokoomuksen", uutisoi Yle tilaamaansa puoluegallupia. Kun on tilattu tutkimus, siitä pitää saada kiinnostava otsikko, vaikka numeroista ei suoranaista uutista löytyisikään.

Jos jaksaa lukea uutisen loppuun huomaa, että virhemarginaali on 1,4 prosenttiyksikköä puoleen tai toiseen. Kuten jokainen tilastomatematiikkaa vähänkin lukenut tietää, otantatutkimus (tässä 2912 henkilöä mutta vain 1867 vastaajaa -- laskettu 64,1 prosentin perusteella) sisältää aina epävarmuuden, joka on sitä pienempi, mitä paremmin otos kuvastaa koko populaatiota.

Puolueiden kannatusmittauksissa pienetkin erot uutisoidaan näyttävästi, vaikka ne mahtuvat täysin virhemarginaalin (joka sekin on totuus vain tietyllä todennäköisyydellä) sisään. Tällä kertaa ilmiö on kuitenkin poikkeuksellisen räikeä: puolueiden ero on 0,1 prosenttiyksikköä, vaikka virhemarginaali on plus-miinus 1,4 prosenttiyksikköä eli siis 28-kertainen eroon nähden.

Näiden lukujen valossa Suomen suosituimmasta puolueesta voidaan tehdä pelkkiä viihteellisiä arvauksia. Mutta tähän on jo totuttu. Gallup-demokratia on viihdettä.

Se, mikä tällä kertaa pisti erityisesti silmään, oli toinen luvuista johdettu uutinen. Siinä arvuuteltiin, mikä mahtoi olla Räty-kohun vaikutus kokoomuksen alentuneeseen kannatukseen yhdessä tuloryhmässä.

Erikoiseksi asian teki se, että Räty-kohun ensimmäinen uutinen julkaisiin 22.8. ja puoluekannatuksen haastattelut tehtiin ajalla 5-28.8. Tasaisen vauhdin taulukolla Räty-kohu saattoi vaikuttaa tuloksiin kuuden päivän ajan, kun mittausaika kokonaisuudessaan oli 23 päivää (tai +1 molempiin, jos aivan tarkkoja ollaan). Haastatteluista siis 74 prosenttia tehtiin ennen Räty-kohun alkamista.

Pyörittelen nopeasti muutamia numeroita: 22.8. jälkeen vastauksia tuli noin 26 % 1867:sta eli 485. Näistä kokoomuksen kannattajia oli 21,2 % eli 103 henkilöä. Uutisen mainitsemaan tuloluokkaan kuuluu ehkä 20 prosenttia suomalaisista. Siispä kokoomusta äänestäviä, 22.8. jälkeen vastanneita henkilöitä tässä tuloluokassa oli noin 21 kappaletta.

Näin pienen otoksen perusteella on mahdoton tehdä mitään uskottavia johtopäätöksiä.

9 kommenttia:

Anonyymi kirjoitti...

Minusta ihan yhdentekeviä nämä gallupit ja tilastot.

Poppatohtori Räty tietty antaa jonkinlaista negatiivista kuvaa, mutta...

Kokoomuksella on kuitenkin "tosi hyvä tyyppi" alias A. Stubb pitämässä julkisivua kunnossa :)

Jari kirjoitti...

"Minusta ihan yhdentekeviä nämä gallupit ja tilastot."

Mutta niillä on tärkeä tehtävä pitää yllä illuusio kansanvallasta. Politiikka on samanlaista pseudotiedettä kuin astrologia: Saman merkit vuodesta toiseen. Nousut ja laskut. Kausivaihtelut. Kuitenkin kauempaa katsottuna Kokoomuksen ideologia on hallinnut suomea 1980-luvun lopulta asti. Muita ideologioita ei edes ole. Adam Smith on politiikan ainoa oppisuunta.

Anonyymi kirjoitti...

Ei taida puolueiden ero olla kuitenkaan 0,1 prosenttia vaam 0,1 prosenttiyksikköä.

Petteri Järvinen kirjoitti...

Totta - ensimmäisessä kohdassa lisämääre "yksikkö" oli mukana, kahdesta jälkimmäisestä se oli pudonnut pois. Nyt korjattu.

Unknown kirjoitti...

Mitä tuo kertoo toimittajien koulutustasosta.
Eikö koulutus pitäisi olla yliopistotasoista?
Ei kai sentään yliopistosta pääse ulos jos ei ymmärrä virhemarginaaleja ja muita tilastotieteen perusasioita?

Anonyymi kirjoitti...

"... Kokoomuksen ideologia on hallinnut suomea..."

Valitettavasti näyttää vielä kasvavankin. Tämä nykyinen Pepsodent-mannekiini saa hyvin nuorison hurmattua.

Vaan mikäpä siinä, sillä hymyilevät poliitikot ovat minunkin mieleeni :)

Ja toisaalta eduskunnassa voisi olla hyvinkin tarpeen olla kokeneita IT-osaajia kuten P. Järvinen ja J. Kasvi.

Petteri Järvinen kirjoitti...

Kyllä toimittajat tilastomatematiikan osaavat, mutta jos sitä kunnioitettaisiin, kalliisti maksetut gallupit menisivät hukkaan -- ei niistä saisi mitään uutista.

Ymmärrän, että muutaman promillen eroista tehdään uutisotsikoita, mutta tässä tapauksessa 74 % tutkimusdatan vähättely oli poikkeuksellista.

Anonyymi kirjoitti...

Luottamusväliä ei mainita, mutta taitaa olla se 95 %.

Eli tuo tahtoo sanoa, että 95 % varmuudella oikea tulos on 1,4 prosenttiyksikön sisällä suuntaan tai toiseen.

Jos tulos on vaikkapa 20,0 %, niin edellä mainittu ei kuitenkaan tarkoita, että 21,4 %:n tulos olisi yhtä todennäköinen kuin se 20,0 %.

Mainitsemasi virhemarginaalin 28-kertainen skaala on siis väitteenä harhaanjohtava ja ansaitsee (lähes) samanlaiset moitteet tilastomatematiikan hallinnasta ;)

Todennäköisyyksistä voi kuvitella symmetrisen kellokäyrän, jossa saatu tulos on keskellä ja virhemarginaaliin mahtuvien vaihtoehtojen todennäköisyys laskee käyrää myöten kohti nollaa (sitä periaatteessa saavuttamatta).

20,0 % on todennäköisempi kuin 20,1%, joka todennäköisempi kuin 20,2 %, jne.

Tuo Kokoomuksen ja Keskustan ero on niin pieni, että todennäköisyydet sille, että järjestys on toisinpäin on lähes yhtä suuri, mutta ilmoitettu järjestys on tilastollisesti todennäköisempi.

Yhdyn kritiikkiisi, että otsikoiden repiminen tuosta on aika turhaa…

Mutta jos ero kasvaa vähänkin, niin otsikoinnin perusta kasvaa huimasti vaikka virhemarginaalin sisällä pysyttäisiinkin.

Petteri Järvinen kirjoitti...

Kiitos näistä täsmennyksistä. Virhemarginaali on totta vain ilmoitetulla (jota tosin uutisessa ei ilmoitettu, mutta 95 % on yleinen arvo) luottamusvälillä. Joka tapauksessa se on hyvä muistutus gallup-tulosten ja uutisoinnin epävarmuustekijöistä.