Taloudellisen epävarmuuden arvioiminen suomalaisesta uutisdatasta koneoppivalla mallilla

Talouden ennustaminen nojaa kansantalouden tilinpidon tilastoihin. Tällaisia tilastoja voidaan pitää ”kovina indekseinä”, sillä ne mittaavat objektiivisesti havaittuja talouden tulemia usein euromääräisinä arvoina. Talouteen vaikuttavat myös muunlaiset tekijät, kuten kuluttajien luottamus sekä taloudellinen epävarmuus. Näitä ”pehmeitä indeksejä” hyödynnetään myös ennusteiden laatimisessa, mutta niiden merkitys on pienempi. Tämä johtuu siitä, että ei-konkreettista – ja paikoin jopa subjektiivista – dataa on vaikeampi kerätä ja sen merkitystä on haastavaa arvioida.

Baker ym. (2016) ovat esittäneet yhdysvaltalaisia aineistoja käyttäen, että taloudellista epävarmuutta voitaisiin mitata uutisartikkeleissa esiintyvän sanaston avulla. Tämä tarkoittaa erilaisten avainsanayhdistelmien, kuten ”Economy” ja ”Uncertainty”, yleisyyden laskemista koko uutisvirrasta. Tällainen epävarmuusindeksi on toteutettu Yhdysvalloissa sekä myöhemmin muutamissa Euroopan maissa.1 Suomessa vastaavaa indeksiä ei ole tehty, mutta Keskuskauppakamari (2020) on tuottanut oman osin samankaltaisen epävarmuusindeksinsä.

Uutisdatalla toimiva epävarmuusindeksi perustuu NLP:hen

NLP (Natural Language Processing) on tekoälyn ja koneoppimisen ala, jossa tavoitteena on kehittää malleja, jotka pystyvät luokittelemaan, tuottamaan tai muuten käsittelemään luonnollista eli ihmisen puhumaa kieltä. NLP:n suosio on ollut jonkin aikaa uudestaan nousussa, sillä modernit tietokoneet mahdollistavat monimutkaisten mallien toteuttamisen valtavilla datamäärillä. Voidaan kuitenkin sanoa, että muihin koneoppimisen alalajeihin verrattuna NLP on vielä kehitysvaiheessa. Tämä näkyy varsinkin pienemmissä kielissä, kuten suomessa, sillä esimerkiksi englannin kieltä varten kehitetyt mallit eivät skaalaudu helposti suomen kielelle. Suomesta kielenä tekevät erityisen haastavan sen monimutkaiset sijamuodot, yhdyssanat sekä vaihtelevat sanajärjestykset.

Monet nykypäivän huippuluokan NLP-mallit perustuvat neuroverkkoihin (Joulin ym., 2016). Toteutimme kuitenkin epävarmuusmallimme parannellulla naiivilla bayesiläisellä mallilla, joka on huomattavasti neuroverkkoa kevyempi ja vähemmän harjoitusdataa vaativa lähestymistapa (Rennie ym., 2003). Alkuperäinen yhdysvaltalainen epävarmuusindeksi ei sen sijaan hyödynnä koneoppimista lainkaan, vaan se perustuu ihmisen valitsemien avainsanajoukkojen taajuuksien laskemiseen uutisvirrasta. Mallimme eroaa myös siten, ettemme käsittele kokonaisia uutisia, vaan pelkästään uutisotsikoita sekä niihin liitettyjä ”aihetunnisteita”. Otsikko sisältää usein riittävästi informaatiota, ja käsittelemällä pelkästään otsikoita mallista tulee helpompi rakentaa sekä käyttää.

Koneoppivan mallin rakentaminen luokittelua varten

Poiketen muista epävarmuusindekseistä, tämän mallin tavoite ei ole laskea epävarmuuteen liittyvien sanojen taajuutta uutisvirrasta vaan pyrkiä tunnistamaan kaikki negatiiviset talousuutiset. Idea on, että negatiivisten talousuutisten osuus kaikista uutisista tietyllä aikavälillä kuvaisi taloudellista epävarmuutta sillä hetkellä. Malli ei erittele sitä, kuinka negatiivinen uutinen on. Syy tähän on se, että uutisen negatiivisuuden määrittäminen on itsessään jo melko subjektiivista, emmekä halunneet tehdä mallista tarpeettoman monimutkaista. Niinpä uutinen siitä, että suomalainen yritys aikoo lomauttaa yhden työntekijän, ja uutinen, jossa kerrotaan Suomen ajautuvan lamaan, ovat mallin kannalta yhtä negatiivisia. Idea taustalla on se, että aina kun taloudessa tapahtuu suuria negatiivisia sokkeja (kuten lama), ne aiheuttavat myös useita pienempiä huonoja uutisia (kuten lomautuksia), jotka nostavat negatiivisten talousuutisten osuutta uutisvirrassa.

Bag-of-words on NLP:n tekniikka, jossa teksti esitetään joukkona sanoja riippumatta niiden järjestyksestä (mm. Joulin ym., 2016). Naiivi bayesiläinen malli käsittelee tekstin bag-of-words -esityksenä ja määrittää suurimman uskottavuuden estimoinnin avulla, mihin luokkaan teksti todennäköisimmin kuuluu. Eri sanojen todennäköisyydet kuulua eri luokkiin määritetään tilastollisesti harjoitusdatasta, johon ihminen on merkinnyt tekstin luokittelun. Tässä mallissa luokkia on kolme, ja jokainen luokka on binäärinen (teksti joko kuuluu siihen tai sitten ei). Luokat ovat ”Suomeen liittyvä uutinen”, ”Talousuutinen” ja ”Negatiivinen talousuutinen”. Naiivin mallista tekee se, että se olettaa tekstissä olevien sanojen olevan riippumattomia toisistaan, mikä ei luonnollisesti ole totta. Tätä sekä muita naiivin bayesiläisen mallin ongelmia korjataan datamuunnoksilla (Rennie ym., 2003; Forman, 2003; Timonen, 2012) sekä tekstin esikäsittelyllä.

Luokittelusta tekee haastavaa myös se, että positiivisten havaintojen (eli epävarmuutta lisäävien talousuutisten) määrä kaikista uutisista on huomattavan pieni, vain noin viisi prosenttia. Tämä luo haasteita paitsi mallin rakentamiselle – sillä harjoitusaineistossa positiivisia havaintoja on vähän – mutta myös sen testaamiselle. Jos aineistossa on viisi prosenttia positiivisia havaintoja, luokittelemalla kaikki havainnot negatiivisiksi malli saavuttaa 95 prosentin tarkkuuden. Tätä kutsutaan epätasaisen datan ongelmaksi (eng. imbalanced data). Tämän takia mallin päätöksenteko on jaettu peräkkäisiin vaiheisiin, ja datan käsittelyssä on sovellettu erilaisia mallin oppimiskykyä parantavia heuristiikkoja.

Mallin hyvyyttä mitataan tarkkuuden sijaan tasapainotetulla tarkkuudella, eli BA-arvolla (balanced accuracy). Tasapainotettu tarkkuus olisi vain 50 prosenttia, jos malli luokittelisi kaikki havainnot negatiivisiksi. Tasapainotettu tarkkuus on määritelty:

BA = (TP/P + TN/N) / 2

missä TP on oikeiden positiivisten ennusteiden määrä ja TN oikeiden negatiivisten ennusteiden määrä. P on positiivisten ja N negatiivisten havaintojen kokonaismäärä datassa.

Mallin tulokset ja lopullinen epävarmuusindeksi

Mallin ennustamat luokitukset aggregoidaan päivittäin tai kuukausittain. Tämä tarkoittaa sitä, että tutkimme, kuinka ison osan kaikista tietyn aikavälin (aikasarjan pituuden mukaan joko päivän tai kuukauden) otsikoista malli luokittelee negatiivisiksi talousuutisiksi, ja vertaamme tätä datassa havaittuun osuuteen. Mallin hyvyyttä voidaan tutkia myös näiden kahden aggregoidun aikasarjan korrelaation avulla. On kuitenkin hyvä huomata, että sarjojen välinen korrelaatio voi olla korkea, vaikka malli luokittelisikin yksittäisiä otsikoita väärin. Tämä kertoo, että mallin virheet eivät välttämättä ole systemaattisia, vaan niitä tapahtuu datan jakaumaa vastaavasti molempiin suuntiin.

Mallin sovite on varsin hyvä harjoitusdatan sisällä (eng. in-sample fit): Suomeen liittyvien uutisten luokittelun tasapainotettu tarkkuus on 95 %, talou-teen liittyvien 96 % ja negatiivisten talousuutisten 92 %. Päivätasolle aggregoitujen negatiivisten uutisten ennustetut määrät korreloivat harjoitusdatassa havaittujen päivittäisten määrien kanssa vahvasti: korrelaatiokerroin on 0,95. Testidatassa (eng. out-of-sample fit) – eli aineistossa, jota malli ei ole nähnyt harjoitusvaiheessa – sovite ei luonnollisesti ole näin hyvä, mutta tulokset ovat silti oikeansuuntaisia. Suomeen liittyvien uutisten tasapainotettu tarkkuus testidatassa on 84 %, talouteen liittyvien 83 % ja negatiivisten talousuutisten 77 %. Päiväaggregoitujen Suomeen liittyvien negatiivisten talousuutisten korrelaatio datan kanssa on 0,90.

Lopullinen epävarmuusindeksi on toteutettu siten, että mallin luokittelemien Suomeen liittyvien negatiivisten talousuutisten määrä on aggregoitu kuukausitasolle, ja negatiivisten uutisten määrä on jaettu kuukauden uutisten kokonaismäärällä. Nämä osuudet on vielä neliöity, sillä uskomme prosessin olevan epälineaarinen: epävarmuuden merkitys ei siis kasva tasaisesti suhteessa negatiivisten talousuutisten määrään. Aineistomme kattaa kokonaisuudessaan kaikki Ylen uutisotsikot vuoden 2018 alusta vuoden 2020 heinäkuuhun.

Vertailukohtana on käytetty Tilastokeskuksen keräämää ja julkaisemaa kuluttajaluottamusindeksiä, jolla vaikuttaisi olevan melko selkeä vastakkainen korrelaatio tuottamamme epävarmuusindeksin kanssa (ks. oheinen kuvio). Tarkemmin katsottuna korrelaatio vaikuttaisi olevan hieman viivästynyt: ensin taloudellinen epävarmuus kasvaa, ja sen jälkeen kuluttajien luottamus talouteen laskee. Kun aikasarjoja siirretään yhden havaintopisteen verran ajassa erilleen (siten, että epävarmuusindeksin tammikuu on kuluttajaluottamuksen helmikuun kohdalla jne.), sarjojen välinen korrelaatiokerroin on -0,78. Epävarmuusindeksillä saattaisi siis itsessään olla ennustevoimaa.

Epävarmuusindeksissä havaitaan kolme selkeää tason nousua. Syksyllä 2018 Suomessa oli lyhyen ajan sisällä paljon työtaisteluita sekä yt-neuvotteluita, jotka nostavat epävarmuuden hetkeksi korkeammalle tasolle. Samalla myös kuluttajaluottamus painuu nollan alapuolelle. Toinen selkeä epävarmuustason nousu tapahtuu 2019 loppuvuodesta, kun työtaistelut ja lakot johtivat lopulta hallituskriisiin. Viime keväänä alkanut globaali pandemiakriisi aiheuttaa suuren piikin epävarmuuteen. Epävarmuus kuitenkin laskee melko nopeasti kesää kohti. Tämä näkyy myös kuluttajien luottamuksen palautumisena.

Viitteet

1 Ks. sivusto www.policyuncertainty.com.

Kirjallisuus

Baker, S. R., Bloom, N. ja Davis, S. J. (2016). Measuring economic policy uncertainty. The quarterly journal of economics, 131(4), 1593–1636.
Forman, G. (2003). An extensive empirical study of feature selection metrics for text classification. Journal of machine learning research, 3(Mar), 1289–1305.
Joulin, A., Grave, E., Bojanowski, P. ja Mikolov, T. (2016). Bag of tricks for efficient text classification. arXiv preprint arXiv:1607.01759.
Keskuskauppakamari (2020). Talouskatsaus 3/2020.
Rennie, J. D., Shih, L., Teevan, J. ja Karger, D. R. (2003). Tackling the poor assumptions of naive bayes text classifiers. Proceedings of the 20th international conference on machine learning (ICML-03), 616–623.
Timonen, M. (2012). Categorization of Very Short Documents. KDIR, 5–16.