Tapahtumat

Väitös tietotekniikan alalta, M.Sc. Tzu-Jui Wang

Väitöstilaisuudet

Väitös Aalto-yliopiston perustieteiden korkeakoulusta, tietotekniikan laitokselta

Doctoral hat floating above a speaker's podium with a microphone

Milloin

12.4.2024 12:00 – 15:00

Missä

Tietotekniikan talo & Verkossa

C105 T2

Tapahtuman kieli

englanti

Väitöskirjan nimi: Deep Visual Understanding and Beyond: Saliency, Uncertainty and Bridges to Natural Language

Tohtoriopiskelija: Tzu-Jui Wang
Vastaväittäjä: tohtori Esa Rahtu, Tampereen yliopisto, Suomi
Kustos: professori Samuel Kaski, Aalto-yliopiston Perustieteiden korkeakoulu, tietotekniikan laitos

Syväoppimismenetelmiä yksi- ja monimodaalisen tiedon mallintamiseen

Vaikka ihmisten maailmaa hallitsevatkin visuaaliset aistimukset, myös muut modaliteetit, kuten luonnolliset kielet, tarjoavat ihmisille tapoja keskinäiseen viestintään. Jotta tietokoneen kaltainen agentti voisi saada kognitiivisia kykyjä, sen on tarvittaessa kyettävä ymmärtämään sekä yksi- että monimodaalisia signaaleja.

Väitöskirja tutkii aluksi visuaalisten ärsykkeiden ymmärtämistä kuvista ja videoista keskittyen kahteen aiheeseen: visuaaliseen merkittävyyteen ja epävarmuuden arviointiin. Työ etenee sitten kohti monimodaalisten signaalien yhdistämistä esittelemällä tavan havaita kuvissa visuaalisten elementtien välisiä suhteita. Tämän jälkeen siirrytään visuaalisiin kuvailutehtäviin, joiden tavoitteena on tuottaa informatiivisia tekstimuotoisia kuvailuja kuvista ja videoista. Viimeisenä väitöskirja käsittelee visuaalisten kielimallien esiopetusta, minkä tavoitteena on parantaa monimodaalisten koneoppimismallien yleistettävyyttä laajaan valikoimaan erilaisia sovelluskohteita.

Väitöskirjatyö liittyy käynnissä oleviin tutkimuksiin konenäössä ja luonnollisen kielen käsittelyssä. Se esittelee koneoppimisen eri paradigmoihin perustuvia menetelmiä, joita voidaan soveltaa sekä yksi- että monimodaalisiin tehtäviin ja koneoppimismallien vankkuuden parantamiseen. Väitöskirja myös esittelee uusia näkökulmia esimerkiksi siitä, kuinka heikosti ohjattua oppimista voidaan soveltaa monimodaalisissa tehtävissä.

Tutkimuksessa esitettyjä tuloksia voidaan soveltaa kehittämään entistä vankempia ja tehokkaampia kognitiivisia järjestelmiä, jotka kykenevät käsittelemään monimodaalisia syötteitä. Lisäksi tulokset antavat näyttöä erilaisten oppimisparadigmojen tehokkuudesta ja soveltuvuudesta, kun kognitiivisten järjestelmien kykyjä visuaaliseen ymmärrykseen ja monimodaaliseen päättelyyn kehitetään.

Avainsanat: merkittävyyden arviointi, visuaalinen kuvailu, näkymägraafi, visuaaliskielellisen esityksen oppiminen

Yhteystiedot:

Sähköposti	[email protected]
Puhelinnumero	+46705674020

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 10 päivää ennen väitöstä): https://aaltodoc.aalto.fi/doc_public/eonly/riiputus/

Perustieteiden korkeakoulun väitöskirjat: https://aaltodoc.aalto.fi/handle/123456789/52

Zoom pikaopas: https://www.aalto.fi/fi/palvelut/zoom-pikaopas

Julkaistu: 26.2.2024
Päivitetty: 9.4.2024