Tekoälyn muodostamat sukupuut vahvistavat: Suomi oli jäykkä luokkayhteiskunta 1700–1800-luvuilla

03.05.2018

AncestryAI-sukupuualgoritmi yhdistää valtavia syntymätietoaineistoja tehokkaasti.

Pieni osa algoritmin päättelemästä sukupuusta, joka kattaa 13 sukupolvea. Värit vastaavat henkilön sosioekonomista asemaa. Kuva: Eric Malmi.

Vaikka sukututkija pystyisi käsin etsimään yhden vanhemman minuutissa, kuluisi viiden miljoonan henkilön vanhempien etsimiseen aikaa yhteensä noin 100 henkilötyövuotta. AncestryAI-algoritmi tekee saman työn tunnissa 50 rinnakkaisella tietokoneella – ja päättelee 65 prosenttia sukuyhteyksistä oikein. Algoritmi mittaa myös yhteyksien epävarmuutta, jolloin epäluotettavat tulokset voidaan jättää huomiotta. Sukututkijat ja väestötieteilijät voivat sen avulla valaista Suomen historian ja yhteiskunnan mustia aukkoja.

”Algoritmi ei korvaa sukututkijoita, vaan se on työkalu helpottamaan heidän työtään. Sukupuualgoritmi voi antaa todennäköisesti oikeita yhteyksiä, mutta yksin se ei ole yhtä tarkka kuin huolellinen sukututkija. Lisäksi algoritmi pystyy etsimään vanhempia koko Suomen aineistosta, kun taas sukututkija saattaa joutua rajoittamaan hakunsa yhden seurakunnan alueelle”, sanoo Aalto-yliopistossa kesäkuussa väittelevä Eric Malmi, joka työskentelee nyt Googlella Zürichissä.

Sukututkijat ovat vuonna 2017 avatun AncestryAI:n avulla löytäneet uusia sukuyhteyksiä, esimerkiksi toiselta paikkakunnalta muuttaneita henkilöitä, joita ei ole voinut löytyä yhden seurakunnan alueelle keskittyvässä tutkimuksessa. Parhaillaan algoritmia sovelletaan sisällissodassa kuolleiden ihmisten sukulaisuussuhteiden päättelyyn ja esimerkiksi sotaorpojen tarkan lukumäärän selvittämiseen.

Suomen luokkajako ei juuri muuttunut 150 vuoteen

AncestryAI:n avulla voi tutkia valtavien aineistojen pohjalta pitkän aikavälin yhteiskunnallisia muutoksia. Malmin tutkimuksessa vahvistui muun muassa se, että luokkajaon vaikutus puolisonvalintaan Suomessa oli miltei muuttumaton vuosina 1735–1885.

”Vertailimme aineiston pohjalta sosioekonomisen aseman vaikutusta puolison valintaan. Asema pääteltiin puolisoiden isän ammatin perusteella. Rengit sekä muut tilattomat edustavat aineistossa alinta luokkaa, minkä lisäksi jaoimme ammatit torppareihin, talonpoikiin sekä keski- ja yläluokkaan. Sosioekonominen asema määritti hyvin selvästi puolison valintaa. Vastoin ennakko-odotuksiamme yhteyden voimakkuus ei vähentynyt ajan saatossa vaan pysyi jotakuinkin samana”, kuvailee Malmi.

AncestryAI hyödyntää tilastollisen päättelyn ja koneoppimisen menetelmiä, jotka on kehitetty sukupuuta varten. Perusalgoritmi pyrkii päättelemään jokaisen henkilön äidin ja isän erikseen käyttäen nimi- ja paikkakuntatietoja sekä syntymäaikoja. Täydentävä algoritmi taas parantaa perusalgoritmin tarkkuutta: se huomioi esimerkiksi sen, että lapset saadaan useimmiten yhden ja saman ihmisen kanssa.

AncestryAI hyödyntää yhteensä 5 miljoonaa syntymätietoa ja 3,3 miljoonaa kuolintietoa, jotka ovat peräisin Suomen sukututkimusseuran HisKi-aineistosta vuosilta 1648–1918. Algoritmi on löytänyt yhteensä 7,3 miljoonaa yhteyttä lasten ja vanhempien välille.

Tutkimus julkaistiin WWW2018-konferenssissa (International Web Conference) Lyonissa. Tutkimus on myös voittanut parhaan paperin palkinnon Young Demographers 2018 -konferenssissa Prahassa.

Lisätietoa:

Eric Malmi, tohtoriopiskelija, Aalto-yliopisto
eric.malmi@aalto.fi
puh. +358 44 047 8010

Arno Solin, tutkijatohtori, Aalto-yliopisto
arno.solin@aalto.fi
puh. +358 40 5776226

Artikkeli

Sukupuualgoritmi