HIIT-tutkimuslaitokselta hakukone biolääketieteellisiin kokeisiin
05.07.2012
Monilla tieteenaloilla käy yhä mahdottomammaksi pysyä tietoisena vauhdilla kasaantuvista ja lomittuvista tutkimustuloksista. Avoimissa informaatiopankeissa ja tietokannoissa pullonkaula ei ole enää niinkään tiedon hankinta vaan sen analysointi.
Aalto-yliopiston ja Helsingin yliopiston yhteinen tietotekniikan tutkimuslaitos HIIT (Helsinki Institute for Information Technology) on tilastollisen koneoppimisen ja bioinformatiikan tutkimusryhmässään ottanut merkittävän askeleen kohti tieteellisen tiedon hakukonetta. HIITin johtajan, professori Samuel Kasken vetämä ryhmä on kehittänyt biolääketieteellistä hakukonetta, jolla alan tutkijat voivat etsiä aineistomassoista yhteisiä piirteitä – ja tehdä hakujen perusteella parempaa tiedettä.
– Tutkimusten yhdistäminen toisiinsa on vaikeaa, työlästä ja edelleenkin avainsanaperustaista. Mittaustulosten tasolle pääseminen olisi varsinkin bioinformatiikassa tärkeää, HIITin johtaja Samuel Kaski kertoo.
Hakukone elävien järjestelmien loputtomaan monimutkaisuuteen
Molekyylibiologia on ollut yksi avoimen informaation pioneereja: avoimia biopankkeja on ollut jo pitkään, ja mittausteknologioiden kehittymisen myötä yhdestä tutkimusnäytteestä voi saada tietoa tuhansista eri molekyyleistä. Avointa on toisaalta samalla myös se, miten parhaiten käyttää näitä valtavia tietopankkeja tutkimuksessa.
– Biologian kaltaisissa tieteissä tieto kumuloituu pääasiassa käsitteellisesti, toisin kuin esimerkiksi fysiikassa, jossa voidaan palata kaavoissa taaksepäin korjaamaan vääriä oletuksia. Hakukoneellamme biologi voi verrata mittausdataansa tuhansiin muiden tekemiin mittauksiin ja löytää biologisia prosesseja, joihin tulokset voisivat liittyä.
Elävät biologiset järjestelmät toimivat ja muuntuvat alati, joten kohinaa on vääjäämättä paljon. Ennen kuin yhtäläisyyksiä aineistojen välillä voi löytää, tulee tietää, millaisia samankaltaisuuksia ylipäänsä etsiä kohinan keskeltä. Loppu hoituu oppimalla aineistoista.
– Tuntemattomista tekijöistä tehdään oletuksia, joihin kuuluvaa epävarmuutta taas voi hallita eksaktisti tilastollisella mallintamisella. Näin saadaan määriteltyä tehtävä, joka sitten ratkaistaan laskennallisesti, Kaski kuvaa tietojenkäsittelytieteen antia biologiselle tutkimukselle.
Esimerkiksi geeniekspressiosta, eli geenien sisältämän informaation rakentumisesta eliön ilmiasuksi, voidaan tilastollisilla malleilla ja laskennallisilla menetelmillä löytää piilossa olevia selittäviä tekijöitä. Huhtikuussa 2012 professori Kasken HIITin tutkimusryhmästä tohtoriksi väitellyt José Caldas kehitti menetelmiä juuri perinnöllisen informaation tiedonhakuun – raa'an mittausdatan vertaamiseen tuhansiin muihin samantyyppisiin aineistoihin. Caldasin kehittämillä menetelmillä on esimerkiksi havaittu jo poikkeuksellisia geenien ilmentymiä harvinaisessa mesotelioomassa, usein asbestialtistukseen liittyvässä syöpätyypissä.
– Olennaisen tiedon tunnistaminen ei silti käy läheskään yhtä helposti kuin nettisivujen haku internet-hakukoneilla. Relevantin datajoukon tunnistaminen on huomattavasti avainsanahakua haastavampi tietojenkäsittelyllinen ongelma, Samuel Kaski muistuttaa.
"Innovaatiot syntyvät parhaiten tutkimusta tehdessä"
HIITin paras tutkimus on tunnustettu useissa arvioissa kansainvälisesti huipputasoiseksi. Data-analyysia ja laskennallista mallintamista Samuel Kaski pitää taas tutkimuskeskuksen vahvoina tutkimusalueina. Uutta luovat tulokset syntyvät Kasken mukaan monesti osana käytännön työtä, jolle on sekä asetettu tavoitteet että suotu tila teoreettiselle perustutkimukselle.
– Niin kauan kun meillä on hyviä ja omistautuneita tutkijoita, hyviä tuloksia tulee. Tutkimuksen strategisesta suunnittelusta riippuu, saavutammeko "vain" erinomaisen vai huipputason, hän arvioi.
Kaski edellyttää myös, että konkreettisten projektien ja perustutkimuksen välinen rajankäynti onnistuu sujuvasti. Bioinformatiikka on otollinen sovellusalue data-analyysille ja tilastolliselle mallintamiselle juuri siksi, että uusimmat tulokset mallien kehityksestä saadaan heti käyttöön ja testattaviksi.
– Meidän alallamme perustutkimus on usein uudenlaisten menetelmien luomista, ja niitä on luontevaa kehittää käytännön sovelluksissa. Samalla tietojenkäsittelytieteen perustyökalupakki laajenee, kun projektien välissä vetäydytään miettimään saatujen tulosten merkitystä.
– Matka perustutkimuksesta sovelluksiin ja paljon peräänkuulutettuihin innovaatioihin voi olla olemattoman lyhyt, kun innovaatiot syntyvät tutkimusta tehdessä.
Tutustu José Caldasin väitöskirjaan Aalto-yliopiston tietojenkäsittelytieteen laitokselle verkossa (lib.tkk.fi)
Lisätietoja:
Samuel Kaski
samuel.kaski [at] aalto [dot] fi
p. +358 50 3058694
Elisabeth Georgii
elisabeth.georgii [at] hiit [dot] fi
p. +358 9 470 24450
