Tapahtumat

Väitös akustiikan ja puhetekniikan alalta, M.Sc. Eloi Moliner Juanpere

Väitös Aalto-yliopiston sähkötekniikan korkeakoulusta, informaatio- ja tietoliikennetekniikan laitokselta
Kuvitus puhujakorokkeesta ja sen yläpuolella olevasta tohtorinhatusta.

Väitöskirjan nimi: Unsupervised Audio Enhancement with Diffusion-Based Generative Models

Väittelijä: Eloi Moliner Juanpere
Vastaväittäjä: Prof. Bozena Kostek, Gdansk University of Technology, Puola
Kustos: Prof. Vesa Välimäki, Aalto-yliopiston sähkötekniikan korkeakoulu

Äänitteet kärsivät usein kohinasta, kaiunnasta ja muista vääristymistä, jotka heikentävät niiden selkeyttä ja laatua. Tätä tapahtuu esimerkiksi historiallisissa musiikkiäänitteissä, jotka ovat vaurioituneet analogisen median ikääntymisen myötä, sekä puheäänitteissä, joissa kaiku vaikeuttaa puheen ymmärtämistä. Tämä väitöskirja esittelee uusia menetelmiä tällaisten äänitteiden palauttamiseen hyödyntämällä ohjaamatonta äänitteiden parannusta diffuusiopohjaisilla generatiivisilla malleilla – tehokkailla tekoälyjärjestelmillä, jotka pystyvät tuottamaan puhdasta ja luonnollista ääntä ilman, että niitä on koulutettu tiettyihin restaurointitehtäviin. 

Väitöskirja kokoaa yhteen joukon tutkimuksia, joissa selvitetään, miten pelkästään virheettömällä äänellä koulutettua generatiivista mallia voidaan soveltaa monenlaisiin restaurointiongelmiin suoraan käytön yhteydessä. Ensimmäisessä osassa tätä lähestymistapaa sovelletaan musiikin taajuuskaistan laajennukseen, aukkojen paikkaamiseen ja särön poistoon. Toisessa osassa käsitellään sokeaa restaurointia, jossa vaurion tyyppi ei ole ennakkoon tiedossa, ja esitellään menetelmiä, joilla voidaan arvioida ja korjata historiallisten gramofoniäänitteiden spektrimuutoksia sekä palauttaa puuttuvaa sisältöä. Viimeinen osa keskittyy yksikanavaiseen sokeaan puheen kaiunpoistoon, jossa diffuusiomalli yhdistetään parametriseen huoneakustiikan malliin puhtaan puheen palauttamiseksi ja samalla tallennustilan akustisten ominaisuuksien arvioimiseksi. 

Tutkimustulokset osoittavat, että diffuusiopohjaiset generatiiviset mallit voivat yltää erikoistuneiden ohjatun oppimisen järjestelmien tasolle tai jopa ylittää ne, erityisesti tilanteissa, jotka poikkeavat harjoitusdatasta. Tulokset avaavat uusia mahdollisuuksia kulttuuriperintöäänitteiden restaurointiin, puheen selkeyden parantamiseen haastavissa olosuhteissa sekä monipuolisten, mukautuvien työkalujen kehittämiseen äänenkäsittelyyn media-alalla, yleisradiotoiminnassa ja forensiikassa.

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä): Aaltodoc 

Sähkötekniikan korkeakoulun väitöskirjat

Suuri valkoinen 'A!' veistos Otaniemen Kandidaattikeskuksen katolla. Taustalla puu ja muita rakennuksia.

Sähkötekniikan korkeakoulun väitöskirjat Aaltodoc-julkaisuarkistossa (ulkoinen linkki)

Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.

Zoom pikaopas
  • Päivitetty:
  • Julkaistu:
Jaa
URL kopioitu