Google-haut asuntohintojen ennustajana

Johdanto

Nykyään noin 87 prosenttia suomalaisista käyttää internetiä säännöllisesti. Samalla kun ihmisten internetin käyttö on lisääntynyt, on myös yhä useampi palvelu siirtynyt sinne. Siinä missä aikaisemmin esimerkiksi työpaikkoja tai asuntoja etsittiin sanomalehtien ilmoituksista, etsitään niitä nykyään pääasiallisesti internetistä.

Tutkijan näkökulmasta internetin käytön kasvu on mahdollistanut valtavien, ihmisten käyttäytymisestä kertovien, aineistojen keräämisen. Esimerkiksi maailman suurimman hakukoneyhtiön, Googlen, keräämä aineisto sisältää tiedon jokaisesta Googlella tehdystä hausta vuodesta 2004 alkaen. Tämä aineisto on valtava, sillä Googlen mukaan sen kautta tehdään päivittäin yli 3,5 miljardia hakua.

Tätä valtavaa tietomäärää on alettu viime vuosina käyttää taloudellisten muuttujien ennustamisessa. Google-hakujen on havaittu parantavan ennustetta tämän hetkisestä työttömyysasteesta Yhdysvalloissa (Choi ja Varian, 2009) ja Isossa-Britanniassa (McLaren ja Shanbhogue, 2011). Suomessa Tuhkuri (2014) havaitsee Google-hakujen parantavan sekä nykyhetken että lähitulevaisuuden ennustetta työttömyysasteesta. Wu ja Brynjolffson (2013) huomaavat asuntohintojen sekä myyntimäärien ennusteiden parantuvan Google-hakujen huomioimisen myötä.

Internet-hakujen käyttö ennustetarkoituksessa perustuu aineiston reaaliaikaisuuteen. Google julkaisee Trends-palvelun kautta käytännössä reaaliajassa viikkotasoista aineistoa hakusanojen suosiosta muihin hakuihin verrattuna. Koska virallinen tieto asuntohintaindeksistä julkaistaan kuukauden viiveellä, on Google-aineistolla merkittävä julkaisuaikaan liittyvä etu. Tässä artikkelissa tarkastelen, onko Google-hauista apua asuntojen hintojen ennakoimisessa.

Tämän artikkelin menetelmät perustuvat Choin ja Varianin (2009) esittelemiin menetelmiin. Lisäksi Tuhkurin (2014) ja McLarenin ja Shanbhoguen (2011) käyttämät menetelmät ovat hyvin samankaltaisia tässä käytettävien menetelmien kanssa.

Aineisto

Asuntojen hintoja kuvaavana aineistona käytän Tilastokeskuksen neljännesvuosittain julkaisemaa reaalista asuntohintaindeksiä. Käytettävään asuntohintaindeksiin valitaan ainoastaan osakemuotoiset kerrostaloasunnot, jotta tarkasteltava asuntokanta olisi mahdollisimman homogeeninen (Oikarinen ja Engblom, 2014). Valittava asuntokanta on myös riittävän kattava otos asuntomarkkinoista, sillä kerrostaloasuntojen osuus kaikista asunnoista on noin 45 prosenttia.

Toinen käytettävä aineiston lähde on Google Trends -palvelu, josta kerään internet-hakuja kuvaavan aineiston. Vuonna 2006 avattu Google Trends tarjoaa aineistoa hakusanojen suosiosta vuoden 2004 tammikuusta alkaen. Viikoittain julkaistava aineisto hakusanan tai niiden yhdistelmän suosiosta on normalisoitu 0 ja 100 välille kaavan 1 mukaisesti (Tuhkuri, 2014).

(1) \(I(K_{t}) = (\frac{\frac{K_{t}}{G_{t}}}{max(\frac{K}{G})}) \cdot 100\)

jossa \(I\) on hakuintensiteetti hakusanalle k, jolla tehdään yhteensä \(K\) hakua. \(G\) on kaikilla hakusanoilla tehdyt haut yhteensä.

Menetelmät

Asunnon ostoon liittyvien internet-hakujen voi ajatella kertovan ihmisten mahdollisista asunnonostoaikeista tai kiinnostuksesta asunnon ostoa kohtaan. Todennäköisesti potentiaalinen asunnonostaja selvittää ostoon liittyviä asioita ennen varsinaista asuntokauppaa. Näitä asioita voivat olla esimerkiksi asuntonäyttöjen etsiminen tai asuntolainojen vertailu ja kilpailutus. Nykyään suuri osa tästä selvitystyöstä tehdään internetin välityksellä ja näin ollen asunnon ostoon liittyvä haku saattaa toimia signaalina esimerkiksi kiinnostuksesta ostaa asunto. Lisäksi koska internet-hakuihin ei liity strategista käyttäytymistä, voidaan hakujen olettaa olevan rehellinen signaali kiinnostuksesta tai kysynnästä jotain asiaa kohtaan (Wu ja Brynjolfsson, 2013).

Asunnon ostoprosessiin liittyy siis usein erilaisia aiheeseen liittyviä internet-hakuja. Aina ei kuitenkaan ole täysin selvää, minkä tyylisiä hakusanoja ihmiset käyttävät tietoa etsiessään. Toisaalta asuntomarkkinoilla hakuja voi tehdä niin asunnon ostoa suunnitteleva kuin asunnon myynnistä kiinnostunut henkilö. On kuitenkin todennäköistä, että asunnon ostamista suunnittelevat tekevät enemmän aiheeseen liittyviä hakuja (McLaren ja Shanbhogue, 2011). Tarkastellaan ensin, miten käytettävä Google-indeksi on muodostettu.

Aikaisemmassa kirjallisuudessa hakusanojen valitsemiseksi on esitelty muutamia menetelmiä. Esimerkiksi Wu ja Brynjolffson (2013) käyttävät Googlen valmiita kategorioita, jotka sisältävät suuren määrän tiettyyn aiheeseen liittyviä hakusanoja. Tuhkuri (2014) taas valitsee yksittäisiä hakusanoja omaan harkintaansa perustuen. Tässä artikkelissa käytän Tuhkurin käyttämää menetelmää. Käytännössä olen listannut mahdollisesti asunnon ostoon liittyviä hakusanoja ja valinnut niistä todellisiin hakumääriin perustuen suosituimmat hakusanat. Todelliset hakumäärät perustuvat viimeisen kahden vuoden keskimääräisiin kuukausittaisiin hakumääriin. Hakumäärät ovat saatavilla Google Adwords -palvelusta. Käytettävään Google-indeksiin valikoituivat lopulta hakusanat: myytävät asunnot, asunnot, asunto, asuntolaina, kiinteistönvälittäjä, asuntolainan korko, asunnon osto.

Varsinainen tilastollinen menetelmä perustuu Choin ja Varianin (2009) esittelemään menetelmään. Ensin valitsen yksinkertaisen perusmallin, johon Google-indeksillä laajennettua mallia verrataan. Perusmalliksi valitaan informaatiokriteerien sekä autokorrelaatiofunktioiden tarkastelun jälkeen toisen asteen autoregressiivinen malli, jossa tämän hetken asuntohintaindeksiä selitetään kahden edellisen neljänneksen asuntohintaindekseillä. Toinen malli saadaan lisäämällä tähän yksinkertaiseen malliin Google-hauista kertova muuttuja. Mallit on esitetty kaavoissa 2 ja 3, jossa \(y\) on reaalinen asuntohintaindeksi, \(x\) on Google-indeksi ja \(ε\) on virhetermi.

(2) Malli(0): \(log(y_{t}) = β_{0} + β_{1}log(y_{t-1}) + β_{2}log(y_{t-2}) + ε_{t} \)

(3) Malli(1): \(log(y_{t}) = β_{0} + β_{1}log(y_{t-1}) + β_{2}log(y_{t-2}) + β_{3}x_{t} + ε_{t} \)

Vertailen mallien selitysasteita, informaatiokriteereitä sekä sovitteita. Pääasiassa keskityn kuitenkin mallien ulkopuolisen ennustekyvyn vertailuun. Mallien ulkopuolinen ennuste tehdään ”rolling window” -menetelmällä siten, että harjoitan mallia ensimmäiset 20 periodia, minkä jälkeen ennustan 21. periodin hintaindeksiä. Seuraavaksi mallit estimoidaan uudestaan, siten että käytettävä ”ikkuna” on siirretty yhden periodin eteenpäin, eli käytännössä malli estimoidaan 2.-20. periodin havaintojen ja 21. periodin ennusteen perusteella. Uudelleen estimoidulla mallilla ennustetaan jälleen yksi periodi eteenpäin.

Mallien ulkopuolisten ennustetarkkuuksien erotuksia vertaillaan absoluuttisen keskivirheen avulla. Se kertoo, kuinka paljon tehty ennuste keskimäärin poikkeaa todellisesta arvosta. Lisäksi absoluuttisten keskivirheiden erotuksen tilastollista merkitsevyyttä tarkastellaan Dieboldin ja Marianon (1995) esittelemän testin (DB) avulla. DB testaa kahden ennusteen ennustevirheiden välisen erotuksen tilastollista merkitsevyyttä.

Tulokset

Mallien tulokset on esitelty alla olevassa taulukossa. Taulukosta havaitaan, että Google-indeksi on merkitsevä selittäjä 5 prosentin merkitsevyystasolla. Tarkemmin tulokset tarkoittavat, että yhden prosentin kasvu Google-indeksissä tarkoittaa noin 0,0036 prosentin kasvua reaalisessa asuntohintaindeksissä. Lisäksi mallin selitysaste paranee hieman perusmallin selittäessä asuntohintaindeksin variaatiosta noin 86,7 prosenttia. Google-indeksillä laajennettu malli selittää 88 prosenttia. Myös informaatiokriteerien (AIC ja BIC) arvot laskevat Google-indeksin lisäämisen myötä.

Nykyhetken ennuste (englanniksi nowcast) parantuu keskimäärin 7,5 prosentilla absoluuttisella keskivirheellä mitattuna. Tämä parannus on tilastollisesti merkitsevä 5 prosentin merkitsevyystasolla DB-testillä mitattuna. Perusmalliin verrattuna nykyhetken ennusteen voidaan todeta parantuvan Google-indeksin lisäämisen myötä. Parannukset ovat kuitenkin suhteellisen pieniä.


Mallien (0) ja (1) tulokset
Malli (0) (1)
Selittäjä
log (yt–1) 1,483*** 1,500***
(0,1846) (0,1826)
log (yt–2) -0,5046*** -0,521***
(0,1921) (0,1924)
xt 0,0003632**
(0,0001)
Vakio 4,866*** 4,845***
(0,0926) (0,0939)
Yhteenveto
R2 0,867 0,880
AIC -271,03 -275,20
BIC -263,47 -265,75
N 49 49
* p < 0,10 ** p < 0,05 *** p < 0,01
S16.2/f02tElinkeinoelämän tutkimuslaitos (ETLA)

Tarkastelen seuraavaksi, auttaako Google-indeksin lisääminen nykyhetken ennustamisen lisäksi myös lähitulevaisuuden ennustamista.

Lähitulevaisuuden ennustamiseen käytetään ainoastaan sitä aineistoa, joka ennustajalla on käytössään ennustetta tehdessä. Käytännössä tämä tarkoittaa, että seuraavaa periodia ennustetaan edellisen periodin asuntohintaindeksillä sekä tämän hetkisellä Google-indeksillä, joka vastaa aineistoa joka ennusteen tekijällä olisi todellisuudessa käytettävissään.

Seuraavan sivun taulukossa on esitetty ennustevirheiden erotukset lähitulevaisuuden ennusteista. Taulukon ensimmäisellä rivillä on nykyhetken ennusteen prosentuaaliset absoluuttiset keskivirheet ja niiden erotus. Seuraavilla riveillä on lähitulevaisuuden ennusteiden vastaavat luvut. Perusmalliin verrattuna myös lähitulevaisuuden ennuste näyttää tarkentuvan Google-indeksin lisäämisen myötä. Ennuste tarkentuu jopa enemmän kahden ja kolmen periodin päähän tehtävillä ennusteilla. Ennustetarkkuus kuitenkin heikkenee molemmilla malleilla ennustehorisontin kasvaessa.


Nykyhetken ja lähitulevaisuuden ennustetarkkuudet
Malli MAPE ∆ %
t (0) 1,17 -7,5 %**
(1) 1,09
t +1 (0) 1,96 -7,42 %
(1) 1,81
t +2 (0) 3,04 -24,5 %*
(1) 2,29
t +3 (0) 4,01 -34,7 %**
(1) 2,62
MAPE = Prosentuaalinen absoluuttinen keskivirhe.
∆ = absoluuttisten keskivirheiden (MAE) erotus.
*, **, *** tarkoittavat tilastollista merkitsevyyttä 10%, 5% ja 1% tasolla Diebold–Mariano -testillä mitattuna.
S16.2/f03tElinkeinoelämän tutkimuslaitos (ETLA)

Johtopäätökset

Google-hauista on hyötyä asuntojen hintojen ennakoimisessa. Google-hakujen lisääminen yksinkertaiseen AR(2)-malliin parantaa ennustetarkkuutta sekä nykyhetken että lähitulevaisuuden ennusteiden osalta. Mahdollisimman tarkka käsitys nykyhetken ja seuraavien periodien asuntojen hinnoista ovat tärkeitä monille toimijoille päätöksentekijöistä asuntosijoittajiin ja -välittäjiin. Näin ollen pienetkin parannukset ennusteissa ovat tärkeitä. Lisäksi entistä laajempien ja reaaliaikaisempien datalähteiden tutkiminen mahdollistaa niiden entistä tehokkaamman käytön tulevaisuudessa.

Tämän artikkelin menetelmät perustuvat Choin ja Varianin (2009), Tuhkurin (2016) sekä McLarenin ja Shanbhoguen (2011) esittelemiin menetelmiin.

Aikaisempaan kirjallisuuteen nähden tulokset ovat samansuuntaisia. Esimerkiksi Wu ja Brynjolffson (2013) havaitsevat Google-indeksin olevan tilastollisesti merkitsevä selittäjä sekä parantavan nykyhetken ja lähitulevaisuuden ennusteita. Tässä artikkelissa havaittava yhteys asuntohintojen ja Google-hakujen välillä ei kuitenkaan ole aivan yhtä voimakas.

Yhteenvetona voidaan todeta, että Google-hakujen lisääminen malliin parantaa ennustekykyä verrattuna samaan yksinkertaiseen malliin ilman Google-hakuja. Internet-hakujen signaali on kuitenkin asuntojen hintoja ennustettaessa heikompi kuin esimerkiksi työttömyyttä ennustettaessa. Tämä voi liittyä esimerkiksi siihen, että asuntoihin liittyvät haut saattavat liittyä kysynnän muutoksen lisäksi tarjonnan muutokseen.

Kirjallisuus

Choi, H. ja Varian, H. (2009). Predicting the Present with Google Trends. April.
Diebold, F. X. ja Mariano, R. S. (1995). Comparing predictive accuracy. Journal of Business & Economic Statistics, July 1995, Vol. 13, No. 3.
Kulkarni, R., Haynes, K. E., Stough, R. R. ja Paelinck, J. H. (2009). Forecasting housing prices with google econometrics. GMU School of Public Policy Research Paper (2009-10).
McLaren, N. ja Shanbhogue, R. (2011). Using internet search data as economic indicators. Bank of England Quarterly Bulletin (2011), Q2.
Oikarinen, E. ja Engblom, J. (2014). Regional differences in housing price dynamics: Panel data evidence. Aboa Centre for Economics, Discussion Paper No. 94, September 2014.
Tuhkuri, J. (2014). Big data: Google-haut ennustavat työttömyyttä suomessa. Etla Raportit – Reports 31.
Tuhkuri, J. (2016). Etlanow: A model for forecasting with big data – forecasting unemployment with google searches in europe. Etla Raportit – Reports 54.
Wu, L. ja Brynjolfsson, E. (2013). The Future of Prediction: How Google Searches Foreshadow Housing Prices and Sales (August 30, 2013).

Joona Widgrén

Joona Widgrén

Tutkimusharjoittelija
Alue: asuntomarkkinat