Analytiikan datarakenteet

Liiketoiminnan data-analytiikan datarakenteet

Yhtä tärkeitä asioita kuin data-analytiikassa käytettävät menetelmät ja niistä johdetut algoritmit, ovat datarakenteet. Vaikka käytännössä työtä niiden suhteen tekevät asiaan erikoistuneet asiantuntijat, niin myös organisaatiossa olisi hyvä olla ymmärrystä yleisellä tasolla millaiset ongelmat vaativat minkä tyyppistä datarakennetta.

Datarakenne mallintaa jonkun kiinnostavan liiketoiminnallisen ilmiön suhteessa eri havaintoyksiköihin, aikaan tai näiden kombinaatioon.

Alla olevassa kuvassa nähdään, että liiketoiminnallisen ongelman / tavoitteen sekä käytettävissä olevien datojen suhteen täytyy käydä iteratiivisesti määrittelyä sekä datan ensivaiheen analyysiä. Tässä vaiheessa ei välttämättä vielä sitouduta tiukasti johonkin tiettyyn metodologiseen kokonaisuuteen.

 

Kolme suurta kokonaisuutta datarakenteina ovat:

  • Poikkileikkaus
  • Aikasarja
  • Paneeli / kohortti / pitkittäisaineisto

Tässä esityksessä nuo datarakenteet pitää ajatella pikemminkin loogisina kokonaisuuksina, eikä vielä oteta kantaa siihen tarkoitetaanko rakenteella jotain tietokoneohjelman muistissa olevaa tietyn ohjelmointikielen alkeisobjektia vai tietokantataulua. Todellisuudessa tietokantataulukin on abstraktio, jossa data säilytetään tiedostoissa ja ohjelmisto huolehtii sen datan tuomisesta hyödyntävän ohjelmiston käyttöön.

 

Poikkileikkaus

Poikkileikkaus on datarakenne, jossa on P kappaletta erilaisten muuttujien yksittäistä havaintoa N kappaleelle eri havaintoyksiköitä. Havaintoyksikkö voi olla kotitalous, yritys, yrityspäättäjä, yksittäinen henkilö tai vaikkapa kone IoT – sovelluksissa.

Poikkileikkausrakenne ei suoraan sisällä havaintoyksiköiden osalta ajan suhteen minkään tyyppistä suhdetta, mutta epäsuorasti noiden P muuttujan aikaikkunoinnilla voidaan saavuttaa tilanne että ne kuvaavat havaintoyksiköiden havaintohetkeä edeltävää historiaa.

Joissain tilanteissa jotkut muuttujista voivat kuvata tulevaisuutta havaintohetkeen nähden eli nykyhetkeen verrattuna havaintohetki on menneisyydessä. Esimerkkinä vaikka lainahakemus, jonka kohdalla myönnettyyn luottoon liittyvät maksuerä saattaa jäädä maksamatta havaintohetkeä seuraavan 200 päivän aikana. Tällaisessa tilanteessa havaintohetki olisi 200 päivää menneisyydessä nykyhetkeen verrattuna.

Yksittäiset havaintoyksiköt tai niiden käytös ei välttämättä ole riippumatonta toisista havaintoyksiköistä, esimerkiksi kotitalouteen kuuluvat henkilöt voivat tehdä jonkun yrityksen suhteen asioita samalla tavalla. Esimerkiksi irtisanoa sopimuksensa yhtä aikaa.

Aikasarja

Aikasarjarakenne kuvaa yksittäisen aikasarjan havaintoa yhdestä muuttujasta T aikaperiodin yli. Jos K kappaletta eri aikasarjoja yhdistetään matriisiksi niin saadaan tilannee, jossa on KT havaintoa seurattuna T aikaperiodin yli.

 

Aikasarjat ovat perinteisiä ekonometriassa, tilastotieteen sovellusalueessa taloustieteessä, käytettyjä datarakenteita.

 

Aikasarjoissa esiintyy lähes aina peräkkäistä ja sarjojen välistä riippuvuutta  sekä toisaalta kausivaihtelua eli sarjan riippuvuutta kaudesta S, jona havainto mitataan.

  • autokorrelaatio kuvaa sarjan riippuvuutta sen omasta historiasta
  • ristikorrelaatio kuvaa sarjan riippuvuutta toisen sarjan historiasta tai nykyisestä tilasta
  • kausivaihtelu kuvaa sitä, että on mielekkäämpää verrata sarjan nykyistä tasoa M aikaperiodia sitten olleeseen tasoon eikä tasoon juuri välittömästi aiempina aikaperiodeina.

IoT – datan rakenne on luontevasti aikasarja, vaikka sen voisi mallintaa myös poikkileikkauksena tai paneelina.

Paneeli

Paneelissa yhdistää poikkileikkaus – ja aikasarjarakenteiden ominaisuuksia, koska tässä on jokaisesta N havaintoyksikön P muuttujasta dataa yli T aikaperiodin.

Paneelidatarakenteen käyttö edellyttää näistä eniten metodologista osaamista, koska ajalliset sekä havaintoyksiköiden väliset riippuvuudet ovat selkeästi hankalampia ottaa huomioon.

 

Lopuksi

Erilaiset ongelmat vaativat erilaisia datarakenteita ja asettavat tiukat ehdot lähtödatan luonteelle. Jokaisella organisaatiolla, aivan pienempiä yrityksiä lukuun ottamatta, tulisi olla yleisellä tasolla ymmärrystä siihen millaisia datarakenteita erilaisiin heidän liiketoimintansa ongelmiin / tavoitteisiin pitää käyttää.

Ready Solutions Oy on tiedonhallinnan asiantuntijayritys, joka pystyy auttamaan teitä tässä. Ota yhteyttä ja pohditaan yhdessä tiettyä tavoitetta vastaava ratkaisu.

Analytiikkaa, liiketoimintaa vai sovelluskehitystä?

Data Science on ohjelmistokehittäjien ja konsulttien hallitsemaa ilmatilaa

LinkedIniä seuraamalla voisi helposti ajatella että kotimaassa pääasiassa suuremmat konsulttiyritykset ja muut ohjelmistokehittäjät tekevät analytiikkaa, mutta todellisuudessa sitä tietysti tehdään eri organisaatioissa eri lähtökohdista.

Isommat ei-ohjelmistokehitysorientoituneet organisaatiot ovat saattaneet jo vuosia sitten hankkia
SAS tai SPSS Modeler – ohjelmistoja, joilla liiketoimintalähtöiset data-analyytikot ovat tehneet
analytiikkaprosessejaan. Pankit, vakuutusyhtiöt, julkaisijat sekä teleoperaattorit ovat tällaisia perinteisten analytiikka-alustojen käyttäjiä.

Ohjelmistokehittäjillä ja meillä konsulteilla on työkalupakki yleensä laajempi, mutta olemme kauempana liiketoiminnan käytännöistä. Oman kokemukseni mukaan taloudellisen mallin rakentaminen osaksi analytiikan tulosten arviointia saa paremman vastaanoton, kuin pelkkien
tulosten esittely ilman tuollaista sidosta.

 

Mitä on analytiikka?

Analytiikka on oikeastaan liiketoiminnan kehittämisen ja johtamisen apuväline, joka eroaa perinteisestä  operatiivisesta tai strategisesta raportoinnista siinä että erilaisia mitattujen ilmiöiden
vaikutussuhteita ja ennusteita pyritään tuottamaan algoritmien avulla. Datavisualisointi on taas luonteeltaan erilaisten ilmiöiden tarkastelua ihmisten oman havainto – ja jäsennyskyvyn asettamissa rajoissa.

Tilastotieteessä ja sen sovellusalueissa eri tieteissä oletetaan useimmiten taustalle joku satunnaisprosessi, jonka parametrit ovat tiedossa mutta jonka arvot pyritään datasta estimoimaan. Tai parametrit ovat satunnaismuuttujia, jos asiaa lähestystään bayesilaisen tradition näkökulmasta.

Liiketoiminnan data-analytiikka taas kokoaa yhteen työkaluja tietojenkäsittelytieteestä, tilastotieteestä ja sovelletusta matematiikasta. Tarkoitus ei ole tehdä tiedettä vaan tuottaa käyttäjäorganisaatiolle taloudellista hyötyä, joten metodologian kohdalla ei yleensä olla sitoutuneita johonkin yksittäiseen lähestymistapaan.

Datan ja liiketoiminnan vuoropuhelu

Organisaatioilla on dataa eri muodoissa, eri määriä ja syntyen eri liiketoimintaprosessien seurauksena. Joissain tilanteissa ulkoisten datalähteiden hyödyntäminen on tärkeässä roolissa, esimerkkinä nyt vaikkapa luotonanto jossa hyödynnetään luottotietorekisterien pitäjien datoja.

Ehkä tärkein asia analytiikan tekemisessä on se, että liiketoiminnallinen ongelma on ymmärretty ja tiedetään mitä lähdetään tavoittelemaan.

Asiantuntija, joko organisaation oma tai ulkopuolinen, pystyy arvioimaan miten käytettävissä oleva data kelpaa liiketoiminnallisen ongelman ratkaisemiseen.

Integraatiota ja perspiraatiota

Iso osa työstä on datan kanssa painimista, ekonomisteilla on vitsi että data tunnustaa kunhan sitä
kiduttaa riittävän pitkään ja se taitaa joskus pitää paikkansa.

Varaudu kehittäjänä siihen että inspiraation ja perspiraation suhteet voivat olla vääristyneet suhteessa omaan käsitykseesi työkuvasi sisällöstä.

 

 

Onko koskaan syytä käyttää peräkkäistiedostoja?

Vanhat järjestelmät ja mutkikas liiketoimintalogiikka

Ready Solutions Oy:n Johtava konsultti Jonne Poutiainen kirjoitti aiemmin kokemuksiaan dataintegraatioista. Jatkan hieman samalla teemalla ja käsittelen yhtä erikoispiirrettä, joita joidenkin pitkään toimineiden organisaatioiden liiketoimintaan liittyy.

Tiedostot integraatiotyyppinä

Tiedostoja on käytetty integraatiotyyppinä (integration pattern) todella pitkään. Kyse on asynkronisesta integraatiosta, sillä useimmissa tapauksissa ei voida olettaa lähettävän tai vastaanottavan prosessin pystyvän suoraan jatkumaan kun tällainen integraatio on toteutettu. Jos halutaan reaaliaikaisia vasteita kutsulle prosessista toiseen, niin tarvitaan muita tapoja toteuttaa integraatio.

Lisäksi täytyy ajatella taustalla olevan liiketoimintaprosessin luonnetta, esimerkiksi laskutus on usein eräpohjainen ja tietyyn ajankohtaan liittyvä prosessi jossa transaktioita tapahtuu paljon. Tuollaisessa tilanteessa yhdistelmä eräajoa ja tiedostoja on kovin luonteva, vaikka ei enää ainoa vaihtoehto.

 

Vanha liiketoimintalogiikka ja toteutus

Aiemman konsultin kokemukseni mukaan rahoitus- ja vakuutusalalla käytetään runsaasti teknologioita, joiden kypsyystaso saavutettiin jo vuosikymmeniä sitten. Näiden usein organisaatioille räätälöityjen järjestelmien korvaaminen on kallista.

Pelkästään organisaation tiedon hallinan tarpeita varten ei toteuteta kalliita muutoksia, vaan niiden muutosten ajurit ovat muita syitä.

Liiketoimintavastuut

Jossain tilanteissa perusjärjestelmien tuottaman datan tuottaa prosessi, jonka ominaisuuksista voi olla ulkpuolisen vaikea päästä perille kohtuullisessa ajassa. Jopa saman organisaation sisällä voi olla järkevämpää että dataa hyödyntävät tahot saavat sen käyttöönsä tiedoston kautta eikä välttämättä suorilla tietokantakyselyillä.

 

Kehittäjälle

Todennäköisesti erilaiset tiedostointegraatiot tulevat olemaan keskuudessamme vielä pitkään, varaudu siis siihen että niitä joudut toteuttamaan sekä käyttämään lähteinä.