Kuorma-autoliikennedatan käyttö talouden nykyhetken ennustamisessa

Viime vuosina ekonometrisessa kirjallisuudessa on keskusteltu paljon siitä, miten saada nopeammin tietoa talouden tilasta. Aihepiirin kirjallisuus on kasvanut jatkuvasti, ja sen ansiosta tällä hetkellä on jo enenevässä määrin käytettävissä menetelmiä, jotka mahdollistavat suurten aineistomassojen käytön ekonometrisissa malleissa. Tämän seurauksena reaaliaikaista taloudellisten muuttujien mittausta tehdään monissa julkisissa ja yksityisissä laitoksissa. Muutamia esimerkkejä tästä kehityksestä ovat Yhdysvaltojen talouden kehitystä mittaava Aruoba-Diebold-Scotti (ADS)-indeksi ja Suomen Pankin bkt:n nowcasting-malli. Etla tuottaa ennusteen työttömyysasteesta ja asuntohintaindeksistä päivittäin, käyttäen reaaliaikaisia tietoja työttömyyteen liittyvistä Googlehauista. ETLAnow-projektista löytyy lisää tietoa Etlan raportista ”ETLAnow: A Model for Forecasting with Big Data”.

Suurin osa nowcasting-malleista, joiden päätavoitteena on tuottaa bkt:n kasvuestimaatti, käyttää makrotaloudellisia aineistoja (kuten teollisuustuotanto), mutta viime aikoina on lisääntynyt kiinnostus myös epätavallisten tietojen käyttöön. Tilastokeskus ja Etla tekevät yhteistyötä tutkimushankkeessa, osana Eurostatin Big Data -konsortiota, jossa yhtenä tavoitteena on luoda uusia tapoja tuottaa nopeampia estimaatteja talousindikaattoreista. Tärkeimpänä tietolähteenä tässä on ollut Tilastokeskuksen myyntitiedustelusta saatava yritystason aineisto, mutta olemme myös tutkineet, miten kuorma-autoliikennetiedot voivat parantaa ennusteita. Muistio keskittyy tämän uuden tietolähteen tarkasteluun.

Kuorma-autoliikennedata

Kuorma-autoliikenteen aineisto on saatavilla liikenneviraston verkkosivulta, joka tarjoaa tarkkaa tietoa liikennevirroista. Liikennevirtojen mittaaminen tehdään automaattisesti kameroilla, jotka on sijoitettu eri puolille Suomea. Saatavilla olevat aikasarjat ovat lisäksi melko pitkiä (ne alkavat jo vuodesta 1997). Tästä on suurta etua, sillä käytetyt mallit hyötyvät suuresta havaintomäärästä. Hyödyllinen seikka aineiston käytössä on vielä se, että julkaisuviive on erittäin lyhyt (yksi päivä).

Aineiston käytössä on kuitenkin useita haasteita. Kuorma-autoliikennedata ei ole helpossa muodossa tutkijan kannalta. Data on järjestetty päivän ja mittauspisteen mukaan, mikä tarkoittaa, että kutakin vuotta kohden on 365 havaintoa per mittauspiste. Esimerkiksi tiedot Uudenmaan vuoden 2018 liikennevirroista on kerätty 43 744 havainnon perusteella. Kussakin havaintopisteessä on noin 20 000 riviä, jolloin data pitää järjestää niin, että voidaan muodostaa kuukausittainen aikasarja. Toinen ongelma on se, että aineistosta puuttuu havaintoja. Mittauspisteitä on lisätty tai otettu pois vuosien aikana, ja on tapauksia, joissa mittauspisteeltä löytyy tiettynä vuonna havaintoja vain muutamilta päiviltä. Onneksi tilastolliset menetelmät mahdollistavat arvojen laskemisen myös puuttuville havainnoille.

Kun puhutaan epätavallisista aineistolähteistä, on luontevaa kysyä, sisältääkö se olennaisia tietoja taloudesta. Esimerkiksi havainnot kuorma-autoliikenteestä voivat olla korreloituneita tavarakaupan kanssa mutta eivät välttämättä palvelukaupan kanssa (palvelut muodostavat merkittävimmän osuuden taloudesta). Alustavaa tietoa tästä ongelmasta voidaan saada faktorianalyysillä. Lasketaan ensimmäinen pääkomponentti kuorma-autoliikennedatan perusteella ja verrataan sitä tuotannon suhdannekuvaajaan (vuosina 2000–2018, molemmat sarjat on skaalattu). Nähdään voimakas yhteys liikennevirtojen ja taloudellisen toiminnan välillä, mikä näkyy korkeana korrelaatiokertoimena (noin 0,78).


Nowcastin kuorma-autoliikenne-datan avulla

Olemme tutkineet yhdessä Tilastokeskuksen kanssa, miten liikennetietojen käyttö auttaisi pienentämään viivettä tuotannon suhdannekuvaajan ja bruttokansantuotteen julkistamisissa. Tähän käytetään suurta joukkoa tilastollisia malleja ja koneoppimismenetelmiä, ja yhdistetään mallien ennusteet pika-estimaatin muodostamiseksi. Yritystietojen perusteella laskettu pikaestimaatti julkaistaan jo Tilastokeskuksen verkkosivulla kokeellisena tilastona.

Aloitetaan kuvamaalla tuotannon suhdannekuvaajan vuosikasvua kuukausittain, ja yhdistetään saatuun aikasarjaan kuorma-autoliikenteen pikaestimaatit. Ennusteet valmistuvat 16 päivää kuukauden lopun jälkeen, mikä tarkoittaa, että saamme lyhennettyä julkaisuviivettä 30 päivällä. Pikaestimaatteja voidaan muodostaa maaliskuulta 2012 lähtien joulukuuhun 2018 asti. Pikaestimaatit ovat saatavilla vain suhteellisen lyhyelle ajanjaksolle, sillä käytämme aineiston alkuperäisiä julkaisuja (vintages).

Liikennevirrat vaikuttavat lupaavalta tietolähteeltä. Pikaestimaatit seuraavat melko tarkasti tuotannon suhdannekuvaajan vaihteluita, ja ennustevirheet ovat melko pieniä. Alla olevassa kuviossa on tuotettu bkt:n kasvun pikaestimaatit esitellyn menetelmän perusteella. Kuviossa verrataan myös saatuja ennusteita Tilastokeskuksen ns. ”flash-estimaatteihin”, jotta saadaan tarkempi käsitys tuottamiemme estimaattien laadusta.

Tulokset antavat vaikutelman, että liikennevirtojen perusteella tehdyt ennusteet ovat suhteellisen laadukkaita, tai ainakin yhtä tarkkoja kuin Tilastokeskuksen pikaestimaatit. Tuottamiemme pikaestimaattien absoluuttinen keskivirhe on hyvin lähellä Tilastokeskuksen ennusteiden vastaavaa (molemmat noin 0,5 prosenttiyksikköä). Kaiken kaikkiaan harjoituksen tulokset osoittavat, että liikennetiedot ovat mielenkiintoinen tietolähde – myös siitä syystä, että ne ovat vapaasti saatavilla.

Paolo Fornaro

Paolo Fornaro

Tutkija, Ph.D. (Econ)
Alueet: reaaliaikaiset talousindikaattorit, big data, yritysaineistot, tuottavuusanalyysi