Väitös puhe- ja kieliteknologian alalta, M.Sc. Ragheb Al-Ghezi
Milloin
Missä
Tapahtuman kieli
Väitöskirjan nimi: Use of Self-Supervised Learning in Automated Speaking Scoring for Low-Resource Languages
Tohtoriopiskelija: Ragheb Al-Ghezi
Vastaväittäjä: Prof. Helmer Strik, Radboud University, Alankomaat
Kustos: Prof. Mikko Kurimo, Aalto-yliopiston sähkötekniikan korkeakoulu, informaatio- ja tietoliikennetekniikan laitos
Tämä väitöskirja keskittyi kehittämään automaattisia järjestelmiä puhetaitojen arvioimiseksi vähemmän opiskeltaville kielille, kuten suomelle ja ruotsille. Tarkoituksena oli luoda työkaluja, jotka auttavat ihmisiä oppimaan näitä kieliä itsenäisesti ja tukevat kielikokeita ja opettajankoulutusohjelmia huolimatta opetusaineiston rajoitetusta saatavuudesta.
Tutkimus on hyvin olennaista muille kielenoppimisteknologian tutkimuksille, sillä se käsittelee haasteita liittyen tehokkaiden kielenoppimistyökalujen luomiseen kielille, joilla on saatavilla vain vähän dataa. Tutkimuksessa testattiin itseohjautuvaa oppimismenetelmää, käyttämällä mallia nimeltä Wav2vec2, automaattisen puheentunnistuksen (ASR) ja arviointijärjestelmien kehittämiseen nuorille oppijoille ja lapsille, joilla on puhehäiriöitä ruotsin ja suomen kielillä.
Tulokset osoittivat, että Wav2vec2-mallin hienosäätäminen ruotsille vähensi merkittävästi virheitä puhuttujen sanojen tunnistamisessa, saavuttaen 7% parannuksen vain muutaman tunnin opetusaineistolla. Malli sopeutui myös onnistuneesti tehtäviin, jotka arvioivat kokonaisvaltaista puhekykyä ja kykeni tarkasti ennustamaan osaamistasoja. Lisäksi havaittiin, että tekoälyn arviot ääntämisestä ja sujuvuudesta olivat yhtä luotettavia kuin ihmisten tekemät arvioinnit.
Tutkimuksen keskeinen tulos oli, että hienosäädetyt ASR-mallit pystyivät tehokkaasti luomaan automaattisia järjestelmiä ääneen lukemisen ja spontaanin puheen arvioimiseksi vähäresurssisille kielille, kuten suomelle ja ruotsille. Tämä tutkimus tuo uutta tietoa siitä, miten itseohjautuvaa oppimista voidaan käyttää kielenoppimistyökalujen kehittämiseen, vaikka dataa olisi rajoitetusti.
Löydöksiä voidaan soveltaa parempien kielenoppimissovellusten, opettajien työkalujen ja puheterapiamateriaalien luomiseen, erityisesti kielille, joilla on vähemmän oppijoita. Tutkimuksen johtopäätökset osoittavat, että edistyneet tekoälytekniikat kuten Wav2vec2 voivat ylittää datan saatavuuden rajoitukset ja merkittävästi parantaa automaattisten puhetaitoarviointijärjestelmien tarkkuutta ja luotettavuutta vähemmän opiskeltaville kielille.
Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä): https://aaltodoc.aalto.fi/doc_public/eonly/riiputus/
Yhteystiedot:
[email protected] |
Sähkötekniikan korkeakoulun väitöskirjat: https://aaltodoc.aalto.fi/handle/123456789/53