Tapahtumat

Väitös tietotekniikan alalta, M.Sc. Joonas Jälkö

Väitöskirjan nimi: Differentially private approximate Bayesian inference of probabilistic models
Doctor's hat

Vastaväittäjä: professori Emiliano De Cristofaro, University College London,Englanti
Kustos: professori Samuel Kaski, Aalto-yliopiston perustieteiden korkeakoulu, Tietotekniikan laitos

Väitöskirja on julkisesti nähtävillä 10 päivää ennen väitöstä Aalto-yliopiston julkaisuarkiston verkkoriiputussivulla.

Elektroninen väitöskirja

Väitöstiedote:

Viimeisenä vuosikymmenenä, koneoppimismenetelmät ovat tulleet yhä tärkeämmäksi osaksi ihmisten elämää. Näitä metodeja voidaan käyttää esimerkiksi kohdennettuun mainontaan, mutta myös tehtävissä joihin liittyy tärkeää päätöksentekoa kuten vaikkapa lääketieteessä tai terveydenhuollossa. Keskeisenä osana koneoppimismetodeja on niin sanottu opetusdata joista metodit "oppivat". Tämä data saattaa kuitenkin sisältää arkaluontoista informaatiota, joka herättää kysymyksen siitä, voiko tämä data vahingossa vuotaa ulos opituista koneoppimismalleista. Toinen oleellinen kysymys liittyy siihen, kuinka paljon opittuihin malleihin voidaan luottaa. Mikäli opittuja malleja käytetään esimerkiksi päätöksentekotehtävissä joihin liittyy korkea riski, olisi syytä pystyä sanomaan kuinka varma malli on esittämästään tuloksesta. Tämä väitöskirja tutkii differentiaalisen yksityisyyden ja Bayesiläisen päättelyn leikkausta. Differentiaalinen yksityisyys takaa etteivät mallit vuoda arkaluontoista informaatiota opetusdatasta, ja Bayesiläinen päättely puolestaan pyrkii mittaamaan opittujen mallien epävarmuutta. 

Tässä väitöskirjassa esitän useita uusia tekniikoita yksityisyyttä suojaavaan Bayesiläiseen oppimiseen. Lisäksi näytän, kuinka näitä tekniikoita voidaan soveltaa yksityisyyttä suojaavaan synteettisen datan generoimiseen. Ehdotettuja tekniikoita testataan useilla reaalimaailman esimerkeillä. Näistä saadut tulokset näyttävät, että on mahdollista oppia todennäköisyysmalleja yksityisyyttä turvaten, ja samalla kuitenkin säilyttää mallien hyödyllisyys ja kyky mitata epävarmuutta. Näytän myös, että synteettisestä data, joka on generoitu yksitysyyttä suojaten, säilyttää alkuperäisen arkaluontoisen datan pääpiirteet. Lisäksi, synteettisen datan laatu paranee mitä tarkemmin pystymme jäljittelemään datan generoivaa prosessia.

  • Julkaistu:
  • Päivitetty: