Sotasampo jauhaa avointa dataa

26.04.2017
Timo Hämäläinen

Verkkopalvelu tarjoaa kaikille mahdollisuuden syventyä Suomen sotahistoriaan.

SA-kuva: Ilmavalvontalotta Ellen Kiuru Lahdenpohjan ilmavalvontatornissa.

Kun Sotasampo.fi-portaali vuoden 2015 lopulla julkaistiin, se keräsi muutaman päivän aikana kaksikymmenentätuhatta vierailijaa.

”Alun rynnistyksen jälkeen kävijöiden määrä on tasaantunut, mutta Sotasampo on edelleen ahkerassa käytössä”, kertoo hankkeen vetäjä, semanttisen mediateknologian professori Eero Hyvönen.

Sotasampoon on kerätty valtava määrä aineistoa, joka on julkaistu avoimesti kaikkien saataville. Tietojen luovutukseen ja palvelun luomiseen on osallistunut laaja joukko yhteistyökumppaneita. Esimerkiksi Puolustusvoimien SA-kuva-arkisto on luovuttanut portaalin käyttöön tiedot 160 000:sta sota-ajan valokuvasta ja videosta. Kansallisarkistosta on saatu muun muassa tiedot 95 000:stä rintamalla menehtyneestä ja 26 000 sotapäiväkirjasta. Palveluun on linkitetty myös 3 300 Kansa taisteli -lehden artikkelia vuosilta 1957–1986, joiden julkaisijat ovat Suomen Sotahistoriallinen Seura ja Bonnier.

Maanmittauslaitoksesta saadusta paikkatiedosta luotiin uusi historiallinen paikkarekisteri (ns. ontologia), jossa on tietoa 35 000 paikasta luovutetussa Karjalassa. Lisäksi luotiin noin 11 000 sota-ajan tapahtuman rekisteri eri tietolähteistä.

Kaikkiaan portaali sisältää yli miljoonaa tietokohdetta, kuten Viipuri ja Mannerheim. Nämä on linkitetty toisiinsa joukoksi semanttisia verkkoja, kuten paikat ja henkilöt, ja muodostavat yhdessä avoimen datan pilven. Tietojen välille on saatu syntymään jo yli seitsemän miljoonaa yhteyttä. Tämä Sota¬sammon oma ydintieto linkittyy myös muihin ulkoisiin tietolähteisiin, kuten Wikipediaan ja Kansallisbiografiaan.

Tietoa on niin paljon, että yksittäisen ihmisen tai tutkijaryhmän on vaikea sitä hallita. Sotasammon avulla tietomäärää voidaan käsitellä helpommin, tehdä päätelmiä ja tuottaa analyyseja.

”Tavoitteena on rakentaa suomalaista identiteettiä lisäämällä ymmärrystämme viime sodista ja edistää samalla rauhaa. Uskon, että sotia syttyy sitä vähemmän, mitä enemmän niistä tiedetään ja niitä ymmärretään”, Hyvönen sanoo.

Hyvösellä on myös omakohtainen kiinnostus aiheeseen. Hänen isänsä oli rintamalla, ja äidin puoleinen suku tulee menetetyn Karjalan puolelta Värtsilästä.

Älykästä tiedon yhdistelyä

Palvelu tarjoaa toiseen maailmansotaan liittyvää tietoa tutkijoille, historian harrastajille, sovellusten kehittäjille ja toisille verkkopalveluille. Käyttäjä voi syventyä aiheisiin ja yhdistellä tietohippusista isompia kokonaisuuksia. Aineistoa voi hakea lähtien liikkeelle sotatapahtumista, paikoista, joukko-osastoista, valokuvista, Kansa taisteli -artikkeleista, tunnetuista henkilöistä tai sodassa kuolleista vainajista.

Esimerkiksi henkilöiden tiedoista osa tulee suoraan Sotasammon tietokannoista. Sen lisäksi tietokone päättelee tekoälyn avulla, mitä muuta tietoa henkilöstä löytyy verkosta. Näin saadaan rikastettua henkilön elämäntarinaa eri tietolähteistä.

Sotasampo käyttää hyväksi semanttisen verkon tietoinfrastruktuuria, Linked Data Finland -julkaisualustaa ja sen työkaluja, jotka on luotu vuosina 2003–2013 Aalto-yliopiston ja Helsingin yliopiston vetämässä FinnONTO-hankesarjassa.

Kun tieto julkaistaan avoimesti, kuka tahansa voi rakentaa julkaisualustan päälle omia sovelluksiaan. Esimerkiksi Kinocompany Oy on kehittänyt Sotapolku.fi-verkkopalvelun, johon kerätään kansalaisten sota-ajan muistoja, kuvia ja tietoja. Sen ydinaineisto rintamilla menehtyneistä on saatu Sotasammosta.

”Sotasampo julkaisee kaiken tiedon linkitettynä avoimena datana ja palveluna kaikkien hyödynnettäväksi, myös kaupallisiin tarkoituksiin”, Hyvönen toteaa.

SAkuva_2_700x400.jpg

SA-kuva: Tienviittoja Kotikosken länsirannan tienhaarassa.

Yliopistot tekevät yhteistyötä

Eero Hyvönen työskentelee sekä professorina Aalto-yliopistossa että Helsingin yliopiston digitaalisten ihmistieteiden HELDIG-keskuksen johtajana.

Tällä hetkellä Hyvösen tutkimusryhmään kuuluu 12 henkeä, joista suurin osa työskentelee Aallossa. Helsingin yliopiston HELDIG-keskus on voimakkaasti lisäämässä alan tutkimusta ja täyttämässä kahdeksaa uutta digitaalisiin ihmistieteisiin liittyvää professuuria.

”Tässä on tehty pitkän aikaa yhteistyötä kahden yliopiston kesken. Kummastakin on saatu tutkijoita erilaisiin semanttisen webin hankkeisiin, mikä on ollut hyvin hedelmällistä.”

Hyvösen ja hänen kollegoidensa osaamiselle on kysyntää myös rajojemme ulkopuolelta. Hollannissa on käynnistymässä Sotasammon tapainen kansallinen hanke sekä 1600-luvun ”kultakauden” tietoa linkittävä jättihanke Golden Agents, jonka ohjausryhmään Hyvönen kutsuttiin.

Hyvönen on mukana myös EU:n rahoittamassa Reassembling the Republic of Letters -hankkeessa, johon osallistuu yli 30 Euroopan maata. Hankkeessa kerätään ja analysoidaan johtavien tieteentekijöiden kirjeenvaihtoa 1500-luvulta 1800-luvulle. Kirjeiden avulla selvitetään tieteellisen ajattelun leviämistä Euroopassa. Esimerkiksi Voltaire lähetti elämänsä aikana lähes 20 000 kirjettä. Aalto-yliopisto kehittää Oxfordin yliopiston kanssa kirjeenvaihtoon ja henkilöverkostoihin liittyviä linkitetyn tiedon malleja, portaaliratkaisua ja työkaluja.

”Me olemme hankkeessa linkitetyn tiedon asiantuntijoina ja rakennamme palvelua, jossa hyödynnetään samaa Linked Data Finland -julkaisualustaa kuin Sotasammossa. Stanfordin yliopiston kanssa tutkimme aiheeseen liittyvää tiedon visualisointia”, Hyvönen kertoo.

Alan pioneeri

Eero Hyvönen itse on alun perin tekoälytutkija. Omien sanojensa mukaan hän jäi alan koukkuun, kun oli mukana järjestämässä vuonna 1984 ensimmäisiä tekoälytutkimuksen päiviä, STeP. Niistä kehittyi maamme pitkäaikaisin tietojenkäsittelytieteen konferenssisarja.

Uuden suunnan tekoälytutkija otti vuonna 2001, kun kansainvälinen W3C-järjestö käynnisti Semantic Web Activity -ohjelman ja Hyvönen järjesti Suomessa kick off -tapahtuman. Sen jälkeen hän on keskittynyt semanttisen webin infrastruktuurin sekä sovellusten tutkimiseen ja kehittämiseen.

Hyvönen on julkaissut liki 400 artikkelia ja kirjaa, ja hänelle on myönnetty useita kansainvälisiä ja kansallisia palkintoja, kuten Tiedonjulkistamisen valtionpalkinto.

”Älykäs web-teknologia on tosi kiinnostava aihe. Mikään inhimillinen ei ole meille vierasta. Semanttista webiä voidaan käyttää hyväksi lähes minkä tahansa tieteen- ja elämänalan tutkimuksessa. Iso kiitos kuuluu innostuneelle tutkimusryhmällemme ja kymmenille tietoa tuottaville yhteistyökumppaneille”, Hyvönen iloitsee.

Sotasampo on yksi Aalto-yliopiston Suomi 100 -juhlavuoden hankkeista ja ehdolla kansainvälisen EU Prize of Cultural Heritage -palkinnon saajaksi.

SAkuva_2_700x400.jpg

SA-kuva: Neuvostoliittolaisvalmisteisen Tupolev SB-2 pommikoneen tähystäjä, kapteeni Veikko Härmälä sukellusveneiden etsintälennolla Suomenlahdella kesällä 1944.

Semanttisen verkon aineistoja kulttuurista juridiikkaan

”Semanttisessa webissä asiat esitetään tietokoneen ymmärtämässä muodossa yhdessä sovitulla tavalla siten, että tietokoneet pystyvät logiikan avulla löytämään haluttuja asioita ja päättelemään asioiden välillä olevia yhteyksiä”, kertoo professori Eero Hyvönen.

Kun kaikki tietojen tuottajat käyttävät samoja yhdessä sovittuja tietomalleja ja käsitteitä, niin tietoja voidaan yhdistää ilman, että ne menevät sekaisin.

Tätä ”merkitysten internetin” tietoinfrastruktuuria voidaan soveltaa mitä erilaisimpien tietosisältöjen käsittelyyn, hallitsemiseen ja julkaisuun. Sotasampo-palvelu on esimerkiksi jatkoa Aalto-yliopistossa kehitetyille Kulttuurisampo.fi-, Kirjasampo.fi-, Matkailusampo.fi -piloteille.

”Kirjasampo.fi on nykyisin yleisten kirjastojen ylläpitämä palvelu, jossa oli viime vuonna 1,6 miljoonaa käyntiä. Järjestelmästä löytyy koko suomalainen kaunokirjallisuus semanttisena verkkona, jonka linkityksen rikkaus hakee vertaistaan maailmassa”, sanoo Hyvönen.

Semanttinen Finlex (data.finlex.fi) puolestaan kokoaa linkitetyksi avoimeksi dataksi keskeisen osan oikeusministeriön Finlex-palvelussa julkaisemaa Suomen lainsäädäntöä sekä hovi- ja korkeimman oikeuden päätöksiä. Palvelun varaan kehitetään älykkäitä juridisia palveluita.Semanttinen Finlex tarjoaa tutkijoille ensimmäistä kertaa Finlex-aineistot käytettäväksi koneluettavana tietona sekä työkaluja lain ja oikeustapausten analysointiin laskennallisin menetelmin.

Artikkeli on alun perin julkaistu Aalto University Magazinen numerossa 19 (issuu.com) huhtikuussa 2017.