Sähkötekniikan korkeakoulun väitöskirjat Aaltodoc-julkaisuarkistossa (ulkoinen linkki)
Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.
Väitöskirjan nimi: Learning Deep Acoustic Feature Representations for HRTF Individualization
Väittelijä: Etienne Thuillier
Vastaväittäjä: Dr. Fabian Brinkmann, TU Berlin, Saksa
Kustos: Prof. Vesa Välimäki, Aalto-yliopiston sähkötekniikan korkeakoulu
Syvien akustisten ominaisuuksien representaatioiden oppiminen HRTF-yksilöintiä varten
Lisätyn ja virtuaalitodellisuuden teknologioiden kasvava käyttöönotto vaatii immersiivistä spatiaalista ääntä, joka voidaan skaalata kuluttajalaitteisiin. Keskeinen komponentti on päähän liittyvä siirtofunktio (HRTF), joka kuvaa, miten ääni on vuorovaikutuksessa kuuntelijan pään, korvien ja vartalon kanssa äänilähteen suunnasta riippuen. Koska HRTF-funktiot riippuvat yksilöllisestä morfologiasta, geneeristen approksimaatioiden käyttö heikentää spatiaalista havainnointia. Valitettavasti yksilöllisten HRTF-funktioiden mittaaminen vaatii erikoistuneita tiloja ja pitkiä menetelmiä, mikä tekee laajamittaisesta käyttöönotosta epäkäytännöllistä.
Syväoppiminen tarjoaa skaalautuvan, datapohjaisen vaihtoehdon HRTF-yksilöintiin. Tämä opinnäytetyö tunnistaa keskeiset haasteet yksilöllisen HRTF-funktion ennustamisessa datan perusteella ja ehdottaa kolmea täydentävää ratkaisua.
Ensinnäkin, jotta ennustavat mallit voidaan paremmin yhdenmukaistaa ihmisen havainnoinnin kanssa ja samalla vähentää riippuvuutta kalliista kuuntelutesteistä, selitettäviä tekoälymenetelmiä käytetään paljastamaan äänen lokalisoinnille merkityksellisiä keskeisiä spektrivihjeitä. Toiseksi, probabilistinen, geometriatietoinen neuromalli arvioi tarkasti HRTF-funktiot mittaamattomissa suunnissa luotettavalla epävarmuudella, mikä vähentää tarvittavien mittausten määrää jopa kaksinkertaiseksi ja mahdollistaa samalla adaptiiviset hankintastrategiat. Kolmanneksi generatiivinen diffuusiomalli rekonstruoi personoituja HRTF-arvoja kaikuisista binauraalisista tallenteista käyttämällä kuluttajakäyttöön tarkoitettuja mikrofoneja, mikä mahdollistaa arvioinnin arkipäivän ympäristöissä ilman erikoislaitteita.
Yhdessä nämä saavutukset edistävät tilaäänen skaalautuvaa personointia ja osoittavat, että yksilöllinen äänentoisto voidaan saavuttaa vähemmällä datamäärällä ja realistisissa olosuhteissa. Tämä tukee immersiivisempien äänikokemusten käyttöönottoa arkipäivän laitteissa, kuten kuulokkeissa ja lisätyn tai virtuaalitodellisuuden järjestelmissä.
Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 7 päivää ennen väitöstä): Aalto-yliopiston riiputussivu
Yhteystiedot: etienne.thuillier@aalto.fi
Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.