Tapahtumat

Väitös akustiikan ja puheteknologian alalta, M.Sc. Etienne Thuillier

Väitös Aalto-yliopiston sähkötekniikan korkeakoulusta, informaatio- ja tietoliikennetekniikan laitokselta.
Kuvitus puhujakorokkeesta ja sen yläpuolella olevasta tohtorinhatusta.

Väitöskirjan nimi: Learning Deep Acoustic Feature Representations for HRTF Individualization

Väittelijä: Etienne Thuillier
Vastaväittäjä: Dr. Fabian Brinkmann, TU Berlin, Saksa
Kustos: Prof. Vesa Välimäki, Aalto-yliopiston sähkötekniikan korkeakoulu

Syvien akustisten ominaisuuksien representaatioiden oppiminen HRTF-yksilöintiä varten

Lisätyn ja virtuaalitodellisuuden teknologioiden kasvava käyttöönotto vaatii immersiivistä spatiaalista ääntä, joka voidaan skaalata kuluttajalaitteisiin. Keskeinen komponentti on päähän liittyvä siirtofunktio (HRTF), joka kuvaa, miten ääni on vuorovaikutuksessa kuuntelijan pään, korvien ja vartalon kanssa äänilähteen suunnasta riippuen. Koska HRTF-funktiot riippuvat yksilöllisestä morfologiasta, geneeristen approksimaatioiden käyttö heikentää spatiaalista havainnointia. Valitettavasti yksilöllisten HRTF-funktioiden mittaaminen vaatii erikoistuneita tiloja ja pitkiä menetelmiä, mikä tekee laajamittaisesta käyttöönotosta epäkäytännöllistä.

Syväoppiminen tarjoaa skaalautuvan, datapohjaisen vaihtoehdon HRTF-yksilöintiin. Tämä opinnäytetyö tunnistaa keskeiset haasteet yksilöllisen HRTF-funktion ennustamisessa datan perusteella ja ehdottaa kolmea täydentävää ratkaisua.

Ensinnäkin, jotta ennustavat mallit voidaan paremmin yhdenmukaistaa ihmisen havainnoinnin kanssa ja samalla vähentää riippuvuutta kalliista kuuntelutesteistä, selitettäviä tekoälymenetelmiä käytetään paljastamaan äänen lokalisoinnille merkityksellisiä keskeisiä spektrivihjeitä. Toiseksi, probabilistinen, geometriatietoinen neuromalli arvioi tarkasti HRTF-funktiot mittaamattomissa suunnissa luotettavalla epävarmuudella, mikä vähentää tarvittavien mittausten määrää jopa kaksinkertaiseksi ja mahdollistaa samalla adaptiiviset hankintastrategiat. Kolmanneksi generatiivinen diffuusiomalli rekonstruoi personoituja HRTF-arvoja kaikuisista binauraalisista tallenteista käyttämällä kuluttajakäyttöön tarkoitettuja mikrofoneja, mikä mahdollistaa arvioinnin arkipäivän ympäristöissä ilman erikoislaitteita.

Yhdessä nämä saavutukset edistävät tilaäänen skaalautuvaa personointia ja osoittavat, että yksilöllinen äänentoisto voidaan saavuttaa vähemmällä datamäärällä ja realistisissa olosuhteissa. Tämä tukee immersiivisempien äänikokemusten käyttöönottoa arkipäivän laitteissa, kuten kuulokkeissa ja lisätyn tai virtuaalitodellisuuden järjestelmissä.

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 7 päivää ennen väitöstä): Aalto-yliopiston riiputussivu

Yhteystiedot: etienne.thuillier@aalto.fi 

Sähkötekniikan korkeakoulun väitöskirjat

Suuri valkoinen 'A!' veistos Otaniemen Kandidaattikeskuksen katolla. Taustalla puu ja muita rakennuksia.

Sähkötekniikan korkeakoulun väitöskirjat Aaltodoc-julkaisuarkistossa (ulkoinen linkki)

Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.

Zoom pikaopas
  • Päivitetty:
  • Julkaistu:
Jaa
URL kopioitu