Uutiset

Eero Hyvönen tuo datamassat humanistien – ja kaikkien muidenkin – ulottuville

Hyvösen ja hänen kollegoidensa kehittämien ”sampojen” data on kaikille avointa. Sammot helpottavat esimerkiksi historioitsijoiden työtä, sillä he voivat hyödyntää ja analysoida niissä olevaa dataa ilman ohjelmointitaitoja.
Kuvakaappaus Biografiasammosta
Biografiasammon avulla voi tutkia ja vertailla paitsi yksittäisiä henkilöitä, myös henkilöryhmiä. Kuvankaappauksessa käyttäjä on suodattanut esiin fasettihaulla Suomen suuriruhtinaskunnan kenraalit ja amiraalit (vas) ja saman aikakauden papiston (oik).

Etsitkö uusia kirjavinkkejä tai tietoa talvisodassa kuolleesta sukulaisestasi? Haluatko selvittää jonkun tunnetun suomalaisen elämäntarinaa? Vai oletko kenties historioitsija, joka kiinnostaa keskiaikaisten kirjoitusten liikkuvuus maailmalla?

Aalto-yliopiston professori ja Helsingin yliopiston digitaalisten ihmistieteiden keskuksen HELDIG:n johtaja Eero Hyvönen Semanttisen laskennan tutkimusryhmineen (SeCo) on merkittävällä tavalla helpottanut tällaisen tiedon etsintää. Hyvönen tunnetaan nimittäin sammoistaan.

Sampojen avulla kuka tahansa voi helposti hakea tietoa eri aiheista – esimerkiksi suomalaisesta kaunokirjallisuudesta, toisen maailmansodan aikana kuolleista sotilaista tai tunnettujen suomalaisten elämästä ja lähipiiristä.

Sammot tuovat yhteen paikkaan eri tietokannoista yhdistettyä dataa. Niiden avulla sitä voi helposti myös visualisoida ja analysoida. ”Tajusimme jossain vaiheessa, että sampo on aika hyvä brändi. Meillä taitaa nyt olla kaksitoista eri sampoa ja lisää on tulossa”, Hyvönen kertoo.

Suosituimpia ovat Kirjasampo ja Sotasampo

Sammot helpottavat humanistien työtä, sillä niiden avulla he voivat hyödyntää data-analyyttisia välineitä opettelematta syvällisiä tietoteknisiä taitoja. Sammot ovat Hyvösen mukaan saaneet monet humanistit myös kiinnostumaan tekniikasta.

Hyvönen painottaa kaikkien sampojen datan avoimuutta: sekä dataa että niihin perustuvia sovelluksia voi käyttää kuka tahansa, juuri siten kuin haluaa. Monet sammot ovatkin kiinnostaneet muitakin ihmisiä kuin tutkijoita, mikä käy ilmi niiden käyttäjämääristä.

Eero Hyvösen potrettikuva

Tajusimme jossain vaiheessa, että sampo on aika hyvä brändi. Meillä taitaa nyt olla kaksitoista eri sampoa ja lisää on tulossa.

Eero Hyvönen

Kirjasampoa, joka kokoaa yhteen kaikkien Suomen yleisten kirjastojen kaunokirjalliset teokset, käytti viime vuonna kaksi miljoonaa ihmistä. Sitä ylläpitävät nykyään yleiset kirjastot, jotka päivittävät tietokantaa aina saadessaan kokoelmiinsa uusia kaunokirjallisia teoksia.

Sammoista toiseksi suosituin on kansainvälisesti palkittu Sotasampo, jolla on ollut vuodesta 2015 alkaen yli 630 000 käyttäjää. Se yhdistää talvi- ja jatkosotiin liittyviä tietoja erilaisista sotahistoriallisista lähteistä. ”Tunnemme Kansallisarkiston materiaaleihin perustuen kaikki noin 95 000 suomalaista, jotka ovat menehtyneet toisessa maailmansodassa ja tuhansia muita tunnettuja sotilaita. Mukana linkitetyssä datassa on myös muun muassa tuhansia joukko-osastoja, kymmeniä tuhansia sotapäiväkirjoja, 160 000 Puolustusvoimien autenttista valokuvaa, historiallisia karttoja ja paikkoja ja paljon muuta”, Hyvönen kertoo.

Käyttäjä voi esimerkiksi hakea tietoa toisen maailmansodan taisteluissa kuolleesta sukulaisestaan. Se lieneekin yleisin syy sille, miksi ihmiset ovat innostuneet tutustumaan Sotasampoon. ”Tämä systeemi rekonstruoi automaattisesti sotilaiden sotapolun tai sotatarinan.”

Biografiasampo paljastaa yllättäviäkin yhteyksiä tunnettujen suomalaisten välillä

Sammoista kenties monipuolisin on Biografiasampo. Siinä on mukana yli 13 000 Suomalaisen Kirjallisuuden Seuran suomalaisista kuuluisuuksista kertoavaa elämäkertaa rikastettuna kuudentoista muun lähteen, kuten Kirja- ja Sotasampojen, avulla. Biografiasammolla on ollut jo yli 29 000 käyttäjää.

Biografiasampoa kehittäessään tutkijat loivat elämäkertojen teksteistä tekoälyn avulla jättimäisen semanttisen verkoston, jossa on 120 miljoonaa tietojen välistä yhteyttä. Sen avulla voidaan tutkia eri henkilöiden elämäkertojen tapahtumia kartoilla ja ajassa, liikkumista, verkostoja ja yhteyksiä. Biografiasammosta näkee helposti esimerkiksi tunnetun henkilön sukulaiset ja sen, missä päin maailmaa hän on vaikuttanut ja miten.

Biografiasammosta näkee, että naiskansanedustajista kertovissa elämäkerroissa käytetään hyvin paljon sanoja "lapsi" tai "perhe".

Eero Hyvönen

Portaalissa voi myös tehdä esimerkiksi kielianalyysia ja tutkia, miten paljon tiettyjä sanoja liitetään erilaisiin ihmisiin. ”Sieltä näkee esimerkiksi sen, että naiskansanedustajista kertovissa elämäkerroissa käytetään hyvin paljon sanoja ’lapsi’ tai ’perhe’, mutta jos mennään katsomaan ihan vastaavia mieskansanedustajia, niissä puhutaan hyvin harvoin perheasioista.”

Jotkut yhteydet eri ihmisten välillä ovat hämmentäviäkin. ”Jos katsoo vaikkapa Tapio Rautavaaran egosentristä verkostoa, huomaa, että hänellä on suora yhteys akateemikko ja runoilija Aale Tynniin – mikä tuntuu vähän oudolta. Biografiasammosta kuitenkin selviää, että he voittivat molemmat Lontoon olympialaisissa kultamitalin. Aale Tynni sai mitalin lyriikasta – se oli silloin olympialaji.”

Uusin sampo paljastaa, miten keskiaikaiset kirjoitukset ovat vuosisatojen aikana liikkuneet maailmalla

Sampo-sarjan uusin tulokas on Mapping Manuscript Migrations (MMM). Se julkaistiin tammikuun 2020 lopussa Washington DC:ssä, ja siitä on hyötyä etenkin historioitsijoille.

MMM tuo yhteen tietoa yli 200 000 käsin keskiajalla ja renessanssin ajalla kirjoitetusta dokumentista ja 900 000 niihin liittyvästä tapahtumasta. Dokumentit on koottu kolmesta valtavasta lähteestä: Oxfordin yliopiston kuuluisasta Bodleian-kirjastosta, yhdysvaltalaisesta Schoenberg-instituutista ja ranskalaisesta IRHT-tutkimusinstituutista.

”Keräsimme yhteen tiedot näistä eri organisaatioista, jotta käsikirjoituksia olisi helpompi tutkia. Nämä ovat kansainvälisesti liikkuvia käsikirjoituksia ja samoja käsikirjoituksia mainitaan eri tietokannoissa. Tässä projektissa tiedot eri tietokannoista yhdistettiin, jotta pystyttäisiin luomaan asiasta globaali näkemys”, Hyvönen kertoo.

Palvelusta voi esimerkiksi katsoa, milloin tietty käsikirjoitus on laadittu ja kuka sen on tehnyt. Mukana on muun muassa yli 2 000 keskiajalla tehtyä kopiota antiikin kreikkalaisen filosofin Aristoteleen kirjoittamista dokumenteista. Koska monet tekstit ovat kopioita, niiden sisältö on voinut muuttua alkuperäisestä.

”Esimerkiksi Marco Polon seikkailuista on olemassa monenlaisia versioita. Uusi kopioija tai kustantaja, joka on halunnut tehdä bisnestä, on voinut lisätä sinne muutaman hauskan stoorin lisää”, Hyvönen sanoo nauraen.

Uuden sammon yhtenä ideana oli, että portaalin karttanäkymistä näkisi, miten dokumentit ovat maailmanlaajuisesti liikkuneet. Myös siihen on integroitu helppokäyttöisiä data-analyysityökaluja, joita voi alkaa käyttää ilman erillistä opettelua. ”Jos tutkija ei ole tyytyväinen meidän visualisointeihimme vaan haluaa käyttää vaikkapa jotain muuta karttaohjelmaa, hän voi valita itseään kiinnostavan datajoukon ja ladata sen taulukkolaskentamuodossa.”

Kun MMM:n julkistuksesta oli kulunut reilu kuukausi, sillä oli ollut noin 1 500 käyttäjää. Ottaen huomioon, että se on suunnattu nimenomaan muinaisten käsikirjoitusten tutkijoille, määrä on melko korkea.

Onko sinulla jotain historiataustaa, kun olet näin omistautunut näille aiheille? ”No kyllähän historia tietysti kiinnostaa, ja olen aina ihaillut renessanssin ihmisten monialaista työtä, mutta ihan täältä Teknillisen korkeakoulun tietotekniikka- ja sähköosastoilta olen valmistunut”, Hyvönen sanoo.

Hänen mielestään aihe sopii hyvin semanttiseen tutkimukseen. ”Vaikka emme ole ammattihistorioitsijoita, pystymme kuitenkin ymmärtämään yleisellä tasolla näitä asioita, mikä tekee tästä meille ja opiskelijoille ymmärrettävän tutkimusaiheen. Syvällisempää asiantuntemusta hankkeisiin saamme niissä aina mukana olevilta humanististen alojen tutkijoilta. Yhteistyö Helsingin yliopiston humanistisen tiedekunnan Digitaalisten ihmistieteiden keskuksen HELDIG:n kautta on tärkeä osa työtämme.”

Opiskelija istuu kannettavan tietokoneen ääressä
Kuva: Unto Rautio / Aalto-yliopisto

Nämä sammot ovat jo taottavana

  • Akatemiasammossa on tarkat tiedot Suomessa vuosina 1640–1899 akateemisen koulutuksen saaneesta 28 000 henkilöstä
  • Löytösampoa kehitetään Museoviraston ja Kansallismuseon arkeologisista löytöaineistoista
  • Lakisampo, jota tutkijat tekevät yhteistyössä oikeusministeriön ja kustannusyhtiö Editan kanssa, julkaisee Suomen lainsäädännön ja keskeisiä oikeustapauksia älykkäänä semanttisena portaalina
  • Parlamenttisampo perustuu eduskunnan aineistoihin ja sitä kehitetään poliittisen kulttuurin tutkimukseen Suomen Akatemian DIGIHUM-ohjelmassa
  • Historiasampo käsittelee Suomen historiaa ja se hyödyntää muun muassa historian tutkijoiden Suomen humanistiverkko Agricolan aikajanadataa
  • Eero Hyvönen kertoo, että syntymässä on toisiinsa linkkityvien sampojen avoin infrastruktuuri. ”Sitä voisi ehkä kutsua Samposammoksi.”
  • Julkaistu:
  • Päivitetty:

Lue lisää uutisia

Ursula von der Leyen pitämässä avajaispuhetta
Yhteistyö, Tutkimus ja taide Julkaistu:

New European Bauhaus -festivaali toi yhteen Euroopan päättäjiä ja monialaisen kestävän kehityksen asiantuntijoita

Aalto-yliopisto oli mukana New European Bauhaus -festivaalilla kestävää rakentamista käsittelevällä näyttelyllään Time out! Rethinking construction.
Olli Ikkana in Otaniemi, photo by Lasse Lecklin.
Tutkimus ja taide Julkaistu:

Bioinspiroituja värejä ja olosuhteisiin sopeutuvia materiaaleja – Professori Olli Ikkalan kolmas EU-hanke pohjaa eläviin systeemeihin

Teknillisen fysiikan professori Olli Ikkala on saanut kolmannen kerran Euroopan tutkimusneuvoston Advanced Grant -rahoituksen. Rahoituksen suuruus on 2,5 miljoonaa euroa, ja hanke kestää viisi vuotta.
Professori Antti Oulasvirta. Kuva: Aalto-yliopisto / Jaakko Kahilaniemi
Mediatiedotteet, Tutkimus ja taide Julkaistu:

Tutkijat selvittävät, miten tekoäly saadaan ymmärtämään ihmistä paremmin

Antti Oulasvirta on saanut 2,5 miljoonan euron Euroopan tutkimusneuvoston Advanced Grant -rahoituksen käyttäjämallien tutkimiseen.
Biomateriaaleja
Yhteistyö Julkaistu:

Metsien tuottamaa arvonlisää on mahdollista nostaa merkittävästi

Metsäbiotalouden tiedepaneelin ensimmäisen selvityshankkeen tulokset on julkaistu. Laskelmien mukaan metsien tuottamaa arvonlisää on mahdollista nostaa merkittävästi ilman lisähakkuita: selvityksen mukaan vuonna 2035 Suomen metsistä voitaisiin saavuttaa jopa 15,6 miljardin euron arvonlisä, mikä tarkoittaa 80 % kasvua verrattuna vuoden 2019 tasoon.