Tapahtumat

Väitös tietotekniikan alalta, DI Minna Tamper

Linkitetyn datan menetelmien hyödyntäminen tekstiaineistokokoelmien selailussa, tutkimisessa ja analysoinnissa
Black doctor's hat

Väitöskirjan nimi: From Text to Knowledge: Methods, Tools, and Applications for Digital Humanities Based on Linked Data

Vastaväittäjä: professori Veronika Laippala, Turun yliopisto, Suomi
Kustos: professori Eero Hyvönen, Aalto-yliopiston perustieteiden korkeakoulu, Tietotekniikan laitos

Väitöskirja on julkisesti nähtävillä 10 päivää ennen väitöstä Aalto-yliopiston julkaisuarkiston verkkoriiputussivulla.

Elektroninen väitöskirja

Väitöstiedote:

Väitöskirjassa esitettyjen ohjelmistojen avulla voidaan muuntaa digitoituja tekstiaineistokokoelmia linkitetyksi dataksi, jonka avulla voidaan parantaa aineiston hyödyntämistä. Kokoelman pohjalta luotu linkitetty data kuvailee kokoelmaa tai sen teoksien ominaisuuksia (tekijä, nimi) ja sisältöä (teemat, toimijat). Datan ominaisuuksien ja sisällön kuvailussa käytetään jaettuja sanastoja. Näin ollen käyttämällä kokoelman kuvailuun näitä sanastoja, sen tietoja voidaan yhdistää muihin kokoelmiin, jotka käyttävät samoja sanastoja datan kuvailussa. Tämän tuloksena syntyy linkitetyn datan verkosto, jota voidaan hyödyntää tiedon haussa, tutkimisessa ja analysoinnissa.

Tässä työssä tutkitaan luonnollisen kielen käsittelyn menetelmien ja linkitetyn datan hyödyntämistä tekstiaineistokokoelmien dataksi muuntamisessa ja rikastuksessa. Tutkimus on toteutettu suunnittelemalla, toteuttamalla, ja arvioimalla prototyyppisovelluksia, työkaluja ja data-aineistoja. Käytettyjä luonnollisen kielen menetelmiä ovat esimerkiksi automaattinen tekstissä esiintyvien toimijoiden poiminta sekä asiasanoitus, joiden tulokset on linkitetty erilaisiin ulkoisiin rajattuihin sanastoihin sekä sisäisesti tekstiaineistosta luotuun linkitetyn datan aineistoon.

Väitöskirjan tutkimustulosten perusteella luonnollisen kielen menetelmien sekä linkitetyn datan teknologiat tarjoavat infrastruktuurin tekstiaineistokokoelman tutkimista ja analysointia varten. Työn tuloksena on syntynyt uusia tietomalleja, työkaluja ja menetelmiä tekstiaineistojen muuntamiseksi linkitetyksi dataksi ja rikastamaan niitä. Datan avulla voidaan tarkastella aineistossa esiintyviä aiheita ja toimijoita uusista näkökulmista, mikä auttaa tekstien ja tekstikokoelmien hahmottamista kokonaisuutena. Tietomalli, joka kuvaa tekstiaineistokokoelman ominaisuuksia ja sisältöä, kuten asiasanoja ja henkilöviittauksia, luo pohjan linkitettyyn dataan perustuville älykkäille sovelluksille, kuten verkostoanalyyseille tai kielellisille analyyseille. Samalla se mahdollistaa analyysit, joiden pohjalta voidaan pohtia kriittisesti aineiston käyttökohteita. Lisäksi dataa voidaan hyödyntää hakukäyttöliittymien ja muiden sovellusten rakentamisessa helpottamaan aineistojen selailua ja parantamaan käyttökokemusta, jonka avulla esimerkiksi hakea asiasanaan liittyviä tekstejä suomalaisia biografioita kokoavassa Biografiasampo-portaalissa.

  • Julkaistu:
  • Päivitetty: