Esimerkiksi voidaan tutkia, pystytäänkö aineiston perustella ennustamaan uusille henkilöille heidän riskinsä sairastua kyseiseen sairauteen.Edellä kuvattu menetelmä oppia tilastollisten mallien ja havaintoaineistojen perusteella on osoittautunut erittäin hyödylliseksi lukuisissa eri sovelluksissa. Viime vuosien tekoälykehityksen voidaankin sanoa johtuvan yhtäältä uusista innovaatioista sekä itse malleissa että niiden sovittamisalgoritmeissa, ja toisaalta yhä laajemmista, laadukkaammista ja helpommin saatavilla olevista havaintoaineistoista. Parempien ja kattavampien havaintoaineistojen saatavuus on myös osaltaan kiihdyttänyt metodologista kehitystä, joka avaa ovia uusille tieteellisille löydöksille.
Menetelmiä moniulotteisille aineistoille
Palkitussa väitöskirjassa kehitetään uusia tilastollisia menetelmiä aineistoille, joissa on mitattu suuri määrä erilaisia tekijöitä eli piirteitä, joiden perusteella halutaan tutkia jotakin mielenkiinnon kohteena olevaa ilmiötä. Tyypillinen esimerkki voisi olla vaikkapa lääketieteellinen aineisto, jossa sekä terveiltä että jotakin tautia sairastavilta ihmisiltä on mitattu erilaisia piirteitä kuten perintötekijöitä, ravinto- ja liikuntatottumuksia, veriarvoja ja niin edelleen. Tällaiset aineistot mahdollistavat monien tutkimuskysymysten tarkastelun. Esimerkiksi voidaan tutkia, pystytäänkö aineiston perustella ennustamaan uusille henkilöille heidän riskinsä sairastua kyseiseen sairauteen, kun nämä annetut piirteet on mitattu. Väitöskirjassa esitetään useita menetelmällisiä parannuksia, joilla saavutetaan entistä tarkempia ennusteita erityisesti tilanteissa, joissa mitattujen piirteiden määrä on suuri, mutta aineiston otoskoko on pieni. Tilanne on tyypillinen silloin, kun aineiston kerääminen on kallista, työlästä tai muutoin aikaa vievää. Tarkoilla ennusteilla on usein huomattavaa käytännön merkitystä: mikäli riskiryhmään kuuluvat henkilöt on helppo tunnistaa, heille voidaan kohdistaa hoitoa ajoissa. Silloin päästään sekä parempiin tuloksiin että saavutetaan kustannussäästöjä, kun hoitoja kohdennetaan tehokkaammin. Ennustetarkkuudella on käytännön merkitystä myös tilanteessa, jossa tavoitteena on esimerkiksi oppia tunnistamaan eli diagnosoimaan sairaus tiettyjen oireiden perusteella. Näin voidaan parantaa harvinaisten tai muuten vaikeasti tunnistettavien tautien diagnosointia, ja täten helpottaa lääkärien työtä. Varsinaisten ennusteiden lisäksi on usein hedelmällistä tarkastella eri piirteiden merkittävyyttä ennusteiden kannalta. Voidaan siis tarkastella esimerkiksi sitä, onko riski sairastua johonkin tautiin yhteydessä vaikkapa perinnöllisiin tekijöihin tai tiettyihin elämäntapoihin, vai molempiin. Tällaista tarkastelua kutsutaan piirrevalinnaksi. Väitöskirjassa tutkitaan yksityiskohtaisesti myös piirrevalintaa ja esitetään useita parannuksia olemassa oleviin tekniikoihin. Kun ymmärrys esimerkiksi perintötekijöiden ja elämäntapojen vaikutuksista taudin riskiryhmään paranee, tämä mahdollistaa myös uusien, tehokkaampien ja henkilökohtaisempien hoitojen kehittämisen. Viimeksi mainittua kutsutaan yksilöllistetyksi lääketieteeksi (engl. personalised medicine). Piirrevalinnalla voidaan myös auttaa rakentamaan ennustemalleja, joilla saadaan tarkkoja ennusteita käyttäen vain pientä määrää piirteitä. Tämä on hyödyllistä, mikäli suuren piirremäärän käyttöön liittyy ajallisia tai rahallisia kustannuksia. Vaikka edellä on esimerkkeinä käytetty sovelluksia vain lääketieteestä, väitöskirjassa esitettyjä menetelmiä voidaan soveltaa aineistojen käsittelyyn miltä tahansa sovellusalueelta. Tämän lisäksi väitöskirjan menetelmät on toteutettu vapaan lähdekoodin ohjelmistokirjastoihin, mikä asettaa ne vapaasti ja helposti tiedeyhteisön saataville.Juho Piirosen väitöskirjaan voi tutustua verkkoversiona Aalto-yliopiston sivustolla: https://bit.ly/juho-piironen-vaitos
Teksti: Juho Piironen Juho Piironen on tekniikan tohtori, tilastotieteen ja koneoppimisen asiantuntija, ja työskentelee vanhempana tutkijana Top Data Science -yrityksessä.