Internettutkijat valjastivat algoritmin etsimään vihapuhetta

13.10.2017

Tarkoituksena oli tunnistaa kevään 2017 kuntavaalien aikana vähemmistöihin ja heikossa asemissa oleviin kohdistettua vihapuhetta.

Joukko tietojenkäsittelyn, median ja viestinnän tutkijoita ja soveltajia toteutti kevään 2017 kuntavaalien aikana vihapuheen tunnistamiskampanjan, jossa käytettiin apuna koneoppimiseen perustuvaa algoritmia.

Kampanjan aluksi algoritmia opetettiin tunnistamaan vihapuhetta mahdollisimman monipuolisesti muun muassa avoimista keskusteluryhmistä saatujen isojen aineistojen perusteella. Algoritmi oppi laskennallisesti vertailemaan, mikä erottaa vihapuhetta sisältävän tekstin ei-vihapuheesta, ja kehittämään luokittelujärjestelmän vihapuheelle. Tämän jälkeen luokittelujärjestelmän avulla seulottiin päivittäin kaikki kunnallisvaaliehdokkaiden tuottama avoin sisältö Facebookissa ja Twitterissä noin kuukautta ennen vaaleja. Ehdokkaiden tilit saatiin kerättyä Ylen vaalikoneaineiston avulla.

Seurannassa tuli esiin muutamia haasteita. Jos ehdokas käytti kampanjoinnissa henkilökohtaista Facebook-profiilia kampanjointia varten luodun ja ilmoitetun sivun sijaan, se jäi seurannan ulkopuolelle. Luokittelujärjestelmällä oli vaikeuksia myös suomen kielen sanamuotojen kanssa. Algoritmilla on lisäksi ihmistä rajoittuneempi kyky tulkita keskustelun tai kommentoinnin kontekstia. Samoista ongelmista kontekstin ja kirjoitusvirheiden tunnistamisessa on kärsinyt myös Googlen kehittämä, vihapuheen tunnistamiseen keskittynyt Perspective-luokitin.

Vihapuheen tunnistamisen lisäksi keskeinen kysymys on se, mitä jatkotoimenpiteitä tunnistetuista viesteistä seuraa. Algoritmi kykenee toimimaan valtavien aineistojen seulojana, joka tuo esiin epäilyttäviä viestejä, mutta vain ihminen voi tehdä lopulliset päätelmät vaadittavista toimenpiteistä.

”Viranomaisnäkökulmasta toimenpiteitä aiheutti korkeintaan 20 viestiä. Sanojen listaus ei sinänsä ole riittävää, koska merkitys tulee niiden yhdistelystä. Toisaalta meillä ei taas olisi resursseja näin mittavaan seurantaan ilman vihapuhekoneen ja tutkijoiden apua”, kertoo yhdenvertaisuusvaltuutettu Kirsi Pimiä.

Tunteet ja uskomukset korostuvat vihapuheessa

Algoritmin opettamista varten tutkijat valmistelivat tuhansien viestien aineiston, jota he analysoivat ristiin luodakseen siitä tieteellisesti pätevän.

”Viestejä luokitellessa tutkija joutuu ottamaan kantaa kieleen ja kontekstiin, minkä vuoksi algoritmin ’opettamiseen’ käytettävää aineistoa on tärkeää käsitellä useamman tulkitsijan voimin”, sanoo Salla-Maaria Laaksonen Helsingin yliopistosta.

Kampanjassa oli tärkeää löytää kaiken tyyppinen vihapuhe. Maahanmuutto ja turvapaikanhakijat ovat usein näkyvimpiä teemoja, mutta yhtä tärkeää on tunnistaa esimerkiksi naisiin, etnisiin vähemmistöihin tai tiettyihin poliittisiin kantoihin kohdistuva vihapuhe.

”Vihapuhetta on aina ollut olemassa. Sitä on aina tuotettu pönkittämään oman ryhmän asemaa ja syrjimään toisia, mutta sosiaalinen media on tehnyt siitä aikaisempaa näkyvämpää. Tunteisiin perustuva ilmaisu ja uskomukset korostuvat, ja niitä myös kierrätetään verkossa. Jos ehdokas esimerkiksi kampanjan aikana poisti kirjoituksensa nopeasti julkaisemisen jälkeen, se saattoi silti jäädä elämään kuvakaappauksena”, kuvailee Reeta Pöyhtäri Tampereen yliopistosta.

Kuntavaaleissa kaikki puolueet sitoutuivat siihen, että eivät hyväksy vihapuhetta vaalikampanjoissaan. Monessa Euroopan maassa vihapuheella on lakiin perustuvat määritelmät, kun taas kansan suussa vihapuhe on terminä hyvin laajassa käytössä. Kaikki vihainen puhe ei ole lain näkökulmasta rangaistavaa vihapuhetta, vaan sen tulee esimerkiksi kohdistua heikommassa asemassa oleviin ryhmiin, olla syrjivää tai sisältää uhkauksen väkivallasta. Hankkeessa käytettiin Euroopan neuvoston sekä Ethical Journalism Networkin rakentamaa vihapuhemääritelmää.

Vihapuhe myös konferenssin aiheena

Salla-Maaria Laaksosen mukaan sosiaalisen median palvelut ja alustat, kuten Facebook ja Twitter, voisivat halutessaan hyödyntää vihapuheen tunnistamista ja vaikuttaa sillä tavoin verkon käyttäjien toimintaan. 

”Muulla tavoin automaattista tunnistamista ei voida ulottaa yksittäisten kansalaisten tasolle.”

Muukalaisvastaisuutta lisäävinä tekijöinä pidetään paitsi yhteiskunnan ja kulttuurin muutosta myös taloudellista tilannetta. Vihapuheen taustoja pitäisi kuitenkin analysoida perusteellisemmin, sanoo Kirsi Pimiä.

”Kiinnostavaa olisi tietää, keitä on siellä vihaviestien takana, mikä on heidän motivaationsa, ja kuinka moni heistä on trolleja. Löytyykö yhteisiä nimittäjiä lähtökohdissa, esimerkiksi syrjäytymisessä, ja miksi vihaa pitää osoittaa hyljeksimällä ja muiden ihmisarvoa kyseenalaistamalla”, Pimiä pohtii.

Kampanjan aikana tehty työ jatkuu konferenssissa, jonka internettutkijoiden järjestö järjestää 18.–21. lokakuuta Tartossa. Yhdessä konferenssin workshopissa käsitellään vihapuheen tilaa internetissä, mahdollisuuksia ja haasteita tunnistaa vihapuhetta sekä tapoja vastata vihapuheen haasteisiin verkossa. Workshopin järjestävät kampanjassa mukana olleet Aalto-yliopiston, Helsingin ja Tampereen yliopiston tutkijat sekä Open Knowledge Finland.

”Meille oli tärkeää pohtia, miten yliopistot voisivat olla mukana näin tärkeän yhteiskunnallisen ongelman ratkaisussa. Vastakkainasettelua tapahtuu yhteiskunnassa tällä hetkellä monilla tasoilla ja haluamme workshopissa haastaa kansainvälistä tiedeyhteisöä pohtimaan yhdessä tätä ilmiötä”, kertoo Aalto-yliopiston ja HIITin tutkija Matti Nelimarkka.

Kolmen yliopiston lisäksi kuntavaalien aikana toteutetussa kampanjassa olivat mukana yhdenvertaisuusvaltuutetun toimisto ja Ihmisoikeusliitto yhteistyössä Etnisten suhteiden neuvottelukunnan, Open Knowledge Finlandin, Futuricen ja Rajapinta ry:n tutkijoiden kanssa. Projekti kytkeytyy neljään Suomen Akatemian ja Koneen Säätiön rahoittamaan tutkimushankkeeseen.

Lisätietoa:

Matti Nelimarkka
Tutkija
Aalto-yliopisto
p. 050 52 75 920
matti.nelimarkka@aalto.fi

Salla-Maaria Laaksonen
Tutkijatohtori
Helsingin yliopisto
p. 050 415 6576
salla.laaksonen@helsinki.fi

Reeta Pöyhtäri
YTT, tutkijatohtori
Tampereen yliopisto
p. 050 509 9111
reeta.poyhtari@uta.fi

Internettutkijoiden järjestö

Workshop

Rajapinta-blogi