Events

Department of Computer Science: MSc Thesis Presentations

Jesse Paananen will present their MSc thesis on Wednesday 11 February at 14:00 in Zoom
MSc_thesis_CS

This event is in Finnish

Hyvinvointialueiden kustannusten  ennustaminen koneoppimisella

Author: Jesse Paananen
Supervisor: Juho Rousu

Abstract: Hyvinvointialueiden sosiaali- ja terveydenhuollon kustannukset muodostavat merkittävän osan Suomen julkisesta taloudesta, ja niiden luotettava ennustaminen on keskeistä sekä talouden kestävyyden että palvelujen yhdenvertaisen saatavuuden kannalta. Vuonna 2023 voimaan astunut sosiaali- ja terveydenhuollon uudistus on lisännyt tarvetta aluekohtaiselle ja palveluluokkakohtaiselle kustannusennustamiselle, sillä alueiden lähtökohdat, demografiat ja kustannusrakenteet poikkeavat toisistaan huomattavasti.

Tässä diplomityössä tarkastellaan, miten koneoppimismenetelmiä voidaan hyödyntää hyvinvointialueiden kustannusten ennustamisessa käyttäen julkisesti saatavilla olevaa avointa dataa, ja mitä rajoitteita käytetyt menetelmät sisältävät. Aineisto koottiin Terveyden ja hyvinvoinnin laitoksen ja Tilastokeskuksen tietokannoista. Kustannukset jäsennettiin väestön, palvelutarpeen ja yksikkökustannusten tulona, ja ennustaminen kohdistui aluekohtaisesti palvelutarpeeseen (käyttö per asukas) ja yksikkökustannuksiin kahdessa palveluluokassa, perusterveydenhuollossa ja iäkkäiden hoidossa. Menetelminä vertailtiin perinteistä ARIMA-aikasarjamallia sekä kahta hybridimallia (Lasso–Random Forest ja Lasso–XGBoost). Ennusteita tuotettiin sekä lyhyellä (t+1) että pidemmällä (t+4) ennustehorisontilla.

Tulokset osoittavat, että hybridimallit kykenevät parantamaan ennustetarkkuutta verrattuna perinteiseen aikasarjaennustamiseen mallintamalla epälineaarisia suhteita ja trendipohjaista kehitystä tehokkaasti. Kokonaisuudessa malleista suoriutui parhaiten Lasso–XGBoost, jota seurasi Lasso–Random Forest ja viimeisenä perinteinen ARIMA-malli. Tulokset osoittavat ennustehorisontin ja kohdemuuttujan vaikuttavan malleihin eri tavalla. Ennustehorisontin kasvattaminen heikensi odotetusti ennustetarkkuutta ja lyhyellä ennustehorisontilla (t+1) ARIMA suoriutui paikoin hybridimallien tasolla. Pidemmillä ennustehorisonteilla hybridimallien teho korostui ja Lasso–XGBoost -mallin eri muihin malleihin kasvoi. Asukaskohtaista käyttöä, joka mallinsi palvelutarvetta, pystyttiin ennustamaan tarkemmin kuin yksikkökustannuksia. Tuloksen näyttävät ennustevirheiden kumuloituivan, kun käyttöennusteet yhdistetään yksikkökustannusennusteiden kanssa nettokäyttökustannusennusteiksi.

Lupaavien tulosten lisäksi työ tuo kuitenkin esiin koneoppimisen hyödyntämiseen liittyviä rajoitteita julkisessa talousennustamisessa, kuten datan laadun, aikasarjojen lyhyyden ja mallien tulkittavuuden haasteet. Työ osoittaa, että koneoppimismenetelmät voivat täydentää perinteisiä ennustemalleja ja tarjota lisäarvoa hyvinvointialueiden talouden seurannan ja päätöksenteon tueksi. Mallien käyttöä ja tulkittavuutta tulee kuitenkin tarkastella kriittisesti. Mallit hyötyisivät yksityiskohtaisemmasta, monipuolisemmasta ja pidemmän aikaikkunan kattavasta datasta, jota ei tällä hetkellä ole julkisesti saatavilla. Tulokset tukevat koneoppimisen käyttöä täydentävänä työkaluna hyvinvointialueiden talousennustamisessa, erityisesti palvelutarpeen ennustamisessa, edellyttäen riittävää datan laatua ja mallien kriittistä tulkintaa.

Department of Computer Science

We are an internationally-oriented community and home to world-class research in modern computer science.

Read more
  • Updated:
  • Published:
Share
URL copied!