Podjetja se v čedalje večjem številu preoblikujejo v podatkovno gnana podjetja, za katera je značilno, da vse več znanja in denarja vlagajo v podatkovno analitiko. Pri tem se velikokrat znajdejo pred dvema velikima težavama. Prva je pridobivanje ustreznih in pravih podatkov, druga pa izbor pravega modela za njihovo obdelavo. Pri tem lahko podjetjem priskočijo na pomoč podatkovni analitik, podatkovni inženir in podatkovni znanstvenik.
O tem, kakšna je vloga vsakega izmed njih, so na interni okrogli mizi, ki jo je podjetje Endava organiziralo za svoje zaposlene, razpravljali Olivera Hadžić Borisavljević, višja podatkovna analitičarka iz Srbije, Bojan Sapunov, višji podatkovni svetovalec iz Severne Makedonije, in Jure Bevc, višji podatkovni znanstvenik iz Slovenije – vsi trije zaposleni v Endavi.
Napačni podatki so najpogostejši razlog za težave
»Zbiranje nepomembnih in izpuščanje pomembnih podatkov sta najpogostejša razloga, da se stvari zapletejo,« je povedal Jure Bevc. »Če imate slabe podatke, lahko uporabljate najboljše modele na svetu, pa ne boste prišli do nobenih rezultatov.«
»Sam se večinoma ukvarjam s podatki v tabelah. Pričakovali bi, da bodo podatki tam dobro pripravljeni, vendar se to v praksi nikoli ne zgodi,« je povedal Bevc. Zato vsak projekt preobrazbe v podatkovno gnano podjetje na začetku vključuje čiščenje podatkov.
Različni podatkovni modeli
Ko imamo enkrat zbrane kakovostne podatke, je treba izbrati še dober model, od katerega bo odvisno, koliko se bomo iz podatkov naučili. In kaj je pri tem najbolj pomembno? Kot je povedal Bojan Sapunov, obstaja več metod za doseganje podobnih rezultatov, vendar so izkušnje pogosto tiste, ki povedo, katera praksa je najboljša. Poleg tega morajo vse tri vloge – podatkovni inženir, podatkovni znanstvenik in podatkovni analitik – poznati odgovore na vprašanja, zakaj se bo določen model uporabljal, kako pogosto, ali gre za transakcijske ali analitične namene in druga.
Tri vloge, tri odgovornosti
»Projekti, s katerimi se ukvarjajo podatkovni znanstveniki, imajo navadno neko komponento umetne inteligence. Pri večjih projektih dobimo podatke v obliki, ki je dovolj dobra za začetek modeliranja. Ponavadi izvedemo nekaj predikativnih modelov in jih ocenimo. Če so podatki nestrukturirani, bodisi slike bodisi videoposnetki, jih ponavadi tudi preoblikujemo. Čeprav včasih pri manjših projektih izvajamo tudi podatkovno inženirstvo, pri večjih sodelujemo s strokovnjaki s tega področja,« je pojasnil Bevc.
Medtem ko se podatkovni znanstveniki ukvarjajo s predikativnimi modeli, podatkovni inženirji gradijo logične in fizične podatkovne modele. »Odgovorni so za preoblikovanje podatkov, pisanje poizvedb o tem, migriranje podatkov v oblak ali druge sisteme,« je povedal Sapunov. Kot je dodal, pogosto zelo tesno sodelujejo s strankami, da lahko razumejo njihovo poslovanje. Imeti morajo dovolj informacij za oblikovanje ustreznih podatkovnih pretvorb in modelov, zato se njihovo delo večkrat prekriva z nalogami podatkovnih analitikov.
»Ko govorimo o podatkovnih analitikih, sta prvi stvari, ki nam padeta na pamet, poročanje in vizualizacija. Ob tem pa se ukvarjamo tudi s pridobivanjem, preoblikovanjem in nalaganjem podatkov (ETL) in razvojem modelov s strukturiranimi podatki,« je povedala Olivera Hadžić Borisavljević.
Za podatkovne analitike je po njenih besedah najbolj pomembna veščina razmišljanje, ki temelji na podatkih – kaj podatki sploh so, kam jih lahko shranimo, kako jih uporabimo … »Kot podatkovni analitik moraš imeti dobre komunikacijske veščine in biti s stranko na isti valovni dolžini«, je še dodala Hadžić Borisavljevićeva.
Vloge podatkovne discipline v prihodnosti
Po mnenju vseh treh strokovnjakov se vloga podatkovnega analitika razvija in širi v smer podatkovnega znanstvenika. Glavni razlog za ta premik je količina podatkov, orodij in tehnik, ki se uporabljajo za pospešeni proces analize. Po drugi strani se vloga podatkovnega znanstvenika razvija proti inženirju strojnega učenja. Največja razlika med obema pa je, da podatkovni znanstvenik analizira podatke in postavi nekaj modelov, inženir strojnega učenja pa nato poskrbi, da modeli dobro in hitro delujejo.
V prihodnje bo avtomatizacija pospešila nekatere korake pri iskanju pravega modela. Zlasti podatkovni inženirji pa se čedalje bolj zanašajo na oblak, saj bodo njegove zmožnosti lahko uporabili za hitrejše analiziranje velikih količin podatkov ali analiziranje pretočnih podatkov.