Tapahtumat

Väitös puhe- ja kieliteknologian alalta, DI Stig-Arne Grönroos

Konekäännöstä pienille kielille

Väitöskirjan nimi on: "Machine translation into morphologically rich low-resource languages"

Konekäännös on keskeisen tärkeä tehtävä nopeasti digitalisoituvassa monikielisessä maailmassa. Se hyödyttää sekä ihmisten välistä viestintää että pääsyä vieraskieliseen tietoon. Koska suurin osa verkossa olevasta tiedosta on englanniksi, suurin potentiaali hyötyä käännöksestä on muilla kuin englanninkielisillä. Pieniltä kieliltä kuitenkin puuttuvat ne suuret datamäärät joita nykyiset menetelmät vaativat. Vaadittavan datan määrää pienentävät tekniikat tekevät konekäännöksestä käyttökelpoista myös näille kielille, joille on saatavilla niukasti resursseja. Tässä väitöskirjassa tutkitaan miten muiden kielten rinnakkaisia aineistoja ja yksikielisiä aineistoja voi käyttää lisädatana konekäännösmallia opetettaessa.

Morfologisesti rikkaiden kielten, kuten suomen ja viron, käännöksessä erityishaasteena on sanojen taivutusmuotojen ja yhdyssanojen erittäin suuri määrä. Tämä johtaa harvinaisiin sananmuotoihin, joita on hankala mallintaa. Pilkkomalla sanat pienempiin rakenneosiin saadaan yleisempiä, helpommin mallinnettavia yksiköitä. Tässä väitöskirjassa esittelellään uusia menetelmiä sanojen pilkontaan.

Vastaväittäjä: professori Rico Sennrich, Zürichin yliopisto, Sveitsi

Kustos: professori Mikko Kurimo, Aalto-yliopiston sähkötekniikan korkeakoulu, signaalinkäsittelyn ja akustiikan laitos

Tohtorikoulutettavan yhteystiedot: Stig-Arne Grönroos, Signaalinkäsittelyn ja akustiikan laitos, [email protected], +358 40 7398282

Väitöstilaisuus järjestetään etäyhteydellä Zoomissa, jonne voi liittyä vapaasti: https://aalto.zoom.us/j/63509387845

Zoom pikaopas: https://www.aalto.fi/fi/palvelut/zoom-pikaopas

Väitöskirja on julkisesti esillä 10 päivää ennen väitöstilaisuutta osoitteessa: https://aaltodoc.aalto.fi/doc_public/eonly/riiputus/?lang=fi

Elektroninen väitöskirja

  • Julkaistu:
  • Päivitetty:
Jaa
URL kopioitu