Työttömyyden ennustaminen bayesiläisellä VAR-mallilla ja Googlen hakudatalla*

Ennustamisen vaikeudesta huolimatta taloudelliset ennusteet tarjoavat tärkeää informaatiota niin yritystoiminnan kuin poliittisenkin päätöksenteon avuksi. Bruttokansantuotteen kehitystä tulevina vuosina kuvaavat ennusteet ovat yleensä merkittävimmän julkisen mielenkiinnon kohteena, mutta suurta mielenkiintoa ovat viime aikoina herättäneet myös Suomen työllisyystilanteen kehitystä käsittelevät ennusteet. Tulevien vuosien talousnäkymien lisäksi on alettu yhä enemmän kiinnittää huomiota niin sanottuun nykyhetken ennustamiseen (eng. nowcasting), sillä ensimmäiset viralliset arviot monien makrotaloudellisten muuttujien nykyisestä tasosta julkaistaan huomattavalla viiveellä. Esimerkiksi bruttokansantuotteen tapauksessa tämä viive on Suomessa puolitoista kuukautta arvion kohteena olevan vuosineljänneksen päättymisestä, kun taas kuukausittainen työvoimatutkimus julkaistaan noin kolme viikkoa sen tarkastelun kohteena olevan kuukauden päättymisen jälkeen. Yritystoiminnan ja poliittisen päätöksenteon kannalta on tärkeää pystyä luomaan luotettavia arvioita kansantalouden tilasta paitsi tulevaisuudessa, myös nykyhetkellä.

Esimerkkeinä nykyhetken ennustamisesta Suomessa mainittakoon Suomen Pankin vastikään julkaisema bruttokansantuotteen kasvua kuluvalla ja seuraavalla vuosineljänneksellä mittaava bayesiläinen VAR-malli (Itkonen ja Juvonen, 2017) sekä Etlan Etlanow-projekti1. Etlanow-projekti pyrkii hyödyntämään Googlen hakudataa ennusteissaan ja pitää sisällään nykyään työttömyyttä EU-maissa sekä asuntohintaindeksiä Suomessa ennustavat autoregressiomallit (Tuhkuri, 2016a; Widgrén, 2016). Kuluvan syksyn aikana Etlanow-projekti vahvistuu tässä artikkelissa kuvaillulla EU-maiden työttömyyttä ennustavalla bayesiläisellä VAR-mallilla. Etlassa nykyhetken ennustamista ja reaaliaikaisia talousindikaattoreita on tutkittu ja kehitetty myös Paolo Fornaron toimesta (ks. esim. Fornaro et al., 2017).

Datamassojen kasvaessa jatkuvasti myös ekonometriset menetelmät ovat kehittyneet vastaamaan uusiin tarpeisiin hyödyntäen alati kasvavaa laskentatehon kasvua ja ammentaen elementtejä ajoittain myös koneoppimisen puolelta. Esimerkkeinä tällaisista ekonometrisistä menetelmistä voidaankin mainita viime vuosina suosiotaan kasvattaneet, suurien datamassojen analysointiin hyvin soveltuvat ja usein huomattavaa laskentatehoa vaativat bayesiläiset VAR-mallit. Nykyhetken ennustaminen on pohjimmiltaan hyvin lyhyiden ennusteiden laatimista, ja bayesiläisiä VAR-malleja pidetäänkin laajalti tärkeimpinä ekonometrisinä työkaluina makrotalouden ennustamisessa, kun ennustehorisontti on kohtuullisen lyhyt. Bayesiläisten VAR-mallien on toistuvasti raportoitu tuottavan pienempiä ennustevirheitä kuin aiemmin suositut lyhyiden ennusteiden laatimiseen käytetyt menetelmät (ks. esim. Banbura et al., 2010; Koop, 2013).

Tässä artikkelissa esiteltävä työttömyyden ennustamiseen kehitetty bayesiläinen VAR-malli pyrkii tuomaan yhteen tämän päivän tehokkaimmat ekonometriset työkalut ja Etlanow-projektin tutkimustyön Google-hakudatan hyödyntämisestä makrotaloudellisessa ennustamisessa. Malli on myös pyritty rakentamaan sellaiseksi, että sen käyttöönotto myös muiden makrotaloudellisten muuttujien ennustamiseksi olisi mahdollisimman vaivatonta, jotta sitä voitaisiin tarvittaessa käyttää muun ennustetoiminnan apuna mahdollisimman monipuolisesti.

Malli on rakenteeltaan tyypillinen vektoriautoregressio-malli (lyh. VAR-malli), jossa kausivaihtelu huomioidaan estimoimalla mallin vakio erikseen kullekin kuukaudelle. Työttömyyttä selittäviä muuttujia ovat paitsi viimeisen kolmentoista kuukauden työttömyystaso, myös viimeisen kolmentoista kuukauden taloudellisen luottamusindikaattorin, kuluttajahintaindeksin ja Googlen hakudatasta rakennetun muuttujan tasot. Luottamusindikaattori on niin sanottu taloudellisen ilmapiirin positiivisuutta mittaava indikaattori (eng. Economic Sentiment Indicator, ESI) ja kuluttajahintaindeksi valittiin malliin puhtaasti sillä perusteella, että sen havaittiin parantavan mallin ennustetarkkuutta. Mallin ei ole kuitenkaan tarkoitus ottaa kantaa inflaation ja työttömyyden
rakenteelliseen vuorovaikutukseen.

Niin sanottu Google-muuttuja rakennetaan Googlen hakudatasta valitsemalla joukko työttömyyteen liittyviä hakusanoja. Tämän jälkeen muuttujalle muodostetaan kuukausittainen arvo summaamalla hakusanoja vastaavien hakuintensiteettien arvo kyseisen kuukauden aikana. Yksityiskohtaisemmin Google-hakutermien käyttämistä työttömyyden ennustamisessa käsitellee esimerkiksi Tuhkuri (2016b).

Koska kyseessä on bayesiläinen malli, täytyy mallilla myös olla jonkinlainen priori. Priorilla tarkoitetaan jonkinlaista ennakko-oletusta estimoitavien parametrien todennäköisyysjakaumasta. Mallin priori seuraa Normaali-Wishart -jakaumaa, ja se on rakennettu niin, että stationaariset muuttujat ovat niin sanottua valkoista kohinaa (eng. white noise) ja muut muuttujat seuraavat ensimmäisen asteen yksikköjuuriprosessia. Tällainen rakenne on kirjallisuudessa hyvin standardi ja se perustuu ekonomisti David Littermanin jo 1970-luvulla esittämiin ideoihin (Litterman, 1979).

Priorin varianssia mukauttamalla voidaan hallita niin sanotun ylisovittamisen (eng. overfitting) uhkaa. Ylisovittaessa mallin ennustevirheet mallin estimoimiseen käytetyssä aineistossa ovat hyvin pieniä, mutta estimointiaineiston ulkopuolisten havaintojen ennustaminen johtaa suuriin ennustevirheisiin. Ennustemallin tavoitteena tulisi aina olla estimointiaineiston ulkopuolisten ennusteiden ennustevirheiden (eng. out-of-sample errors) minimoiminen. Tässä artikkelissa ennustetarkkuudella viitataan aina juuri näiden ennustevirheiden suuruuteen.

Ennustevirheiden minimoimiseksi priorin varianssia mukauttamalla voidaan ennusteita ohjata kohti valittua prioria tai estimointiaineistosta johdettavaa suurimman uskottavuuden estimaattia (eng. maximum likelihood estimate). Priorin varianssi puolestaan määräytyy niin sanottujen hyperparametrien avulla, joiden huolellinen valinta on siis mallin ennustetarkkuuden kannalta ensiarvoisen tärkeää.

Mallin hyperparametrien valinta perustuu oman posteriorijakauman rakentamiseen hyperparametreille (ks. Giannone et al., 2015). Posteriorijakaumalla tarkoitetaan Bayesin lauseen avulla johdettua parametrien ehdollista todennäköisyysjakaumaa. Koska hyperparametrien valintaprosessi on täysin automatisoitavissa, tekee se mallin soveltamisen helpoksi eri maantieteellisille alueille tai eri muuttujien ennustamiseen.

Mallin parametrien posteriorijakaumalle ei voida johtaa suljettua muotoa, mutta jakaumasta voidaan kuitenkin numeerisin menetelmin vetää riittävän suuri otos, jotta pystytään muodostamaan hyvin tarkka approksimaatio ennusteen koko todennäköisyysjakaumalle. Tämä todennäköisyysjakauma ottaa huomioon myös parametrien estimointiin liittyvän epävarmuuden.

Mutta miten tarkkoja ennusteita edellä mainituin menetelmin voidaan tuottaa? Seuraavaksi tarkasteltavien ennustevirheiden suuruuden hahmottamiseksi, vertaillaan mallin kuluvan kuukauden ennusteiden ennustevirheitä aiemman Etlanow-mallin tuottamiin ennustevirheisiin. Tarkasteltaessa mallien tuottamia ennustevirheitä Suomessa vuoden 2014 tammikuusta kuluvan vuoden kesäkuuhun havaitaan uuden mallin keskivirheen olevan 0,35 prosenttiyksikköä aiemman mallin 0,53 prosenttiyksikköä vastaan. Mallin keskimääräinen ennustevirhe kutistuu siis yli kolmanneksella. Muiden EU-maiden keskimääräisen keskivirheen havaitaan olevan 0,21 prosenttiyksikköä aiemman mallin 0,30 prosenttiyksikköä vastaan. Keskineliövirheitä tarkastellessa ovat mallien väliset erot vielä suuremmat bayesiläisen VAR-mallin eduksi. Tämä selittyy sillä, että vaikka bayesiläisen VAR-mallin ennustevirheet ovat keskimäärin pienempiä, ovat mallin tuottamat maksimivirheet myös huomattavasti aiempaa Etlanow-mallia vaatimattomampia. Toisin sanoen bayesiläinen VAR-malli näyttää tuottavan keskimäärin melko tarkkoja ennusteita, eivätkä ennusteet heikoimpinakaan kuukausina mene pahasti metsään.


Suurimmat mallin tuottamat ennustevirheet näyttävät sijoittuvan aivan tarkastelujakson loppuun. Menneenä kesänä työttömyys laski Suomessa alemmas kuin koskaan aiemmin vuosituhannen vaihteen jälkeen. Mallit eivät kyenneet täysin ennakoimaan tätä yllättävän suurta työttömyysasteen laskua, ja tarkastelujakson suurimmat ennustevirheet syntyivät tämän vuoden kesäkuussa. Työttömyyden laskiessa 6,7 prosenttiin ennusti bayesiläinen VAR-malli 8,0 prosentin työttömyysastetta. Aiempi Etlanow-malli meni vielä pahemmin harhaan ja ennusti työttömyysasteen pysyvän 9,0 prosentissa.

Mennyttä kesää lukuun ottamatta on bayesiläinen VAR-malli kuitenkin tarjonnut poikkeuksetta hyvin tarkkoja ennusteita kuluvan kuukauden työttömyysasteelle ollen heikoimmillaankin vain 0,9 prosenttiyksikköä väärässä. Malli pystyy tuottamaan myös kohtuullisen tarkkoja ennusteita viisi kuukautta tulevaisuuteen. Ennustevirheitä tarkasteltaessa itse asiassa osoittautuu, että bayesiläisen VAR-mallin ennusteet viisi kuukautta ennen ennustettavan kuukauden loppua olivat Suomessa tarkempia kuin aiemman Etlanow-mallin ennusteet kuluvalle kuukaudelle. Kyseisten ennusteiden keskivirheet olivat 0,42 ja 0,53 prosenttiyksikköä.

Koska Google-hakudataa on saatavilla vasta vuodesta 2004 ja koska bayesiläisen VAR-mallin parametrien suuri määrä vaatii huomattavan määrän dataa estimaattien tarkkuuden takaamiseksi, jää ennustevirheiden tarkastelujaksomme valitettavan lyhyeksi. Mallin suorituskykyä tarkasteltaessa aineiston lyhyyttä kompensoi kuitenkin se, että voimme tarkastella mallin tuottamia ennustevirheitä Suomen lisäksi myös kaikissa muissa EU-maissa. Uusi bayesiläinen VAR-malli näyttääkin tuottavan lähes poikkeuksetta hyvin tarkkoja lyhyen aikavälin ennusteita työttömyysasteelle maassa kuin maassa.

Kuviossa 3 nähdään uuden mallin elokuussa 2018 tuottama ennuste loppuvuoden työttömyyskehitykselle Suomessa. Malli ennustaa työttömyyden hieman kasvavan vuodenvaihteen lähestyessä, mikä pääosin johtuu Suomessa työttömyydelle tyypillisestä vahvasta kausivaihtelusta. Vuoden 2018 keskimääräiseksi työttömyystasoksi malli ennustaa 7,5 prosentin lukemaa, mikä on hieman monia aiemmin esitettyjä arvioita vähemmän. Vertailun vuoksi Etlan virallinen ennuste vuoden 2018 työttömyysasteelle on 7,7 prosenttia.

Taloutta ei tulisi kuitenkaan koskaan tarkastella vain yhden mallin tai tilastosuureen valossa, ja tässä artikkelissa esitelty malli tarjoaakin vain yhden uuden näkökulman talouden nykyhetken tarkasteluun. Malli toimii esimerkkinä uusien tietolähteiden, tässä tapauksessa Google-hakudatan, ja uusien ekonometristen menetelmien onnistuneesta soveltamisesta kansantalouden tarkasteluun. Tietolähteiden monipuolistuessa ja teknologian kehittyessä syntyy taloustieteen käyttöön uusia menetelmiä ja malleja, joita tulisi pyrkiä käyttämään kokonaisvaltaisemman kuvan rakentamiseksi taloudesta ja informoidumpien päätöksien tekemiseksi niin politiikassa kuin
yritysmaailmassakin.

* Ks. tarkemmin Jetro Anttosen myöhemmin Etla Working Papers -sarjassa julkaistava artikkeli.
1 https://www.etla.fi/etlanow/

Kirjallisuus

Banbura, M., Giannone, D. ja Reichlin, L. (2010). Large Bayesian vector autoregressions. Journal of Applied Econometrics, 25, 71–92.
Fornaro, P., Luomaranta, H. ja Saarinen, L. (2017). Now-casting finnish turnover indexes using firm-level data. Etla Working Papers, No. 46.
Giannone, D., Lenza, M. ja Primiceri, G. E. (2015). Prior selection for vector autoregressions. The Review of
Economics and Statistics 97(2), 436-451.
Itkonen, J. Ja Juvonen, P. (2017). Nowcasting the finnish economy with a large Bayesian vector autoregressive model. BOF Economics Review.
Koop, G. M. (2013). Forecasting with medium and large Bayesian VARs. Journal of Applied Econometrics 28(2), 177–203.
Litterman, R. (1979). Techniques of forecasting using vector autoregressions. Working papers 115, Federal Reserve Bank of Minneapolis.
Tuhkuri, J. (2016a). ETLAnow: A model for forecasting with big data, forecasting unemployment with Google searches in Europe. Etla Raportit, No. 54.
Tuhkuri, J. (2016b). Forecasting unemployment with Google searches. Etla Working Papers, No. 35.
Widgrén, J. (2016). Google-haut Suomen asuntojen hintojen ennustajana. Etla Raportit, No. 63.

Jetro Anttonen

Jetro Anttonen

Tutkimusharjoittelija
Alue: makrotaloudellinen ennustaminen