Big data ja tehnoloogiahiiud: kes lõpuks andmeid haldab?
TalTechi informaatika bakalaureuseõppekava programmijuhi Ago Lubergi sõnul on väga oluline tunda huvi selle vastu, kuidas tarkvarahiiud meie andmeid saavad ja neid andmeid ka kasutavad.
„Google – nagu ka Apple, Amazon, Facebook või Microsoft – tunneb meid täpselt nii hästi, kui hästi me tal ennast tunda võimaldame. Kui kasutame näiteks Gmaili teenust, mille eest me raha ei maksa, leiab Google alternatiivse viisi üsna kasutajasõbralikuks tehtud teenuse rahastamiseks – Google müüb kontekstist lähtuvalt sihitud reklaami.
Tundub, et paljudele on see vastuvõetav, sest kui paljusid te teate, kes Google’i meiliteenuse eest raha maksavad?” küsis Luberg.
Siin tasub mõelda sellele, milliseid väljakutseid ja võimalusi annab tegelikult selliste andmete omamine.
Näiteks on võimalik analüüsida, milliseid uudiseid inimene loeb, ja selle põhjal teha personaalseid pakkumisi, mida poes osta, kuhu reisida või näiteks millist eriala õppima minna. Kuidas kogutud andmeid veel paremini ära kasutada, milliseid mugavusteenuseid nende abil saab pakkuda – need on küsimused, mida esitavad andmeanalüütikud oma igapäevatöös.
Mida võiks suurandmete kohta rohkem teada?
Andmetest räägitakse palju ja seda lihtsal põhjusel – neid on hulgi ja tuleb aina juurde. Tõenäoliselt on nii mõnigi lugeja kokku puutunud olukorraga, kus telefoni juuresolekul mainitakse midagi ja mõne aja pärast võib nutiseadmest kuulduga seotud reklaami näha.
Sellised olukorrad on tekitanud küsimusi privaatsuse kohta juba varem ja tõenäoliselt esitatakse neid veelgi.
Lubergi sõnul päris niisama Google meid siiski pealt ei kuula. „Ikka peab olema aktiveeritud mõni teenus, näiteks Alexa Google’i puhul või Siri Apple’i puhul või Echo Amazoni puhul. On tõsi, et nende teenuste puhul on tõstatatud küsimusi privaatsuse kohta.
On hästi oluline, et selliseid küsimusi küsitakse ja küsitakse ka tulevikus ning mõjutatakse tarkvarahiide inimeste andmete eest paremini hoolitsema,” sõnas ta.
Suurandmetega annab ära teha väga palju, mistõttu on küberturvalisus ja suurte lekete ärahoidmine nii ettevõtete kui ka valitsuste jaoks üks prioriteete. Samas ei tasu eeldada, et pelgalt andmete olemasolu on eelduseks, et nendega midagi kasulikku saaks peale hakata.
Kindlasti on võimalik andmeid analüüsides noppida kergesti kättesaadavaid vilju, aga keerulisemad tulemused võivad vajada miljonitesse eurodesse küündivaid kulutusi näiteks kasvõi arvutamise peale.
„Näiteks võib tuua 2020. aastal loodud GPT-3 loomuliku keele mudeli treenimise OpenAI-s, mis on tänaseks tehtud kõigile kättesaadavaks vastava rakendusliidese kaudu, kus ühelt poolt suudeti suurte tekstikorpuste pealt luua 175 miljardi parameetriga loomuliku keele mudel, mis suudab muu hulgas tõlgendada teksti ja jäljendada erinevaid kirjutamisstiile.
Teiselt poolt kulus ainuüksi mudeli treenimisele kulunud arvutite rentimise peale 4,6 miljonit dollarit,” rääkis Luberg.
Kuigi eelnev näide tõi välja, kui kulukas võib andmetöötlus olla, siis tegelikult pakuvad väga paljud teenusepakkujad pilveteenuseid, kus mõistliku hinnaga saab täitsa arvestatava suurusega andmetega tegeleda.
„Selleks, et alustada, ei ole vaja tervet serveriparki. Alustada saab vastavalt vajadustele ja võimalustele,” rääkis Luberg. Programmijuht tõi välja ka mõned levinumad müüdid suurandmede kohta.
Suurandmed tähendab vaid suuri andmemahte. „Kuigi nimi suurandmed viitab peamiselt andmemahule, siis tegelikult on selles valdkonnas keerukus ka mujal.
Näiteks on sõltuvalt rakendusest väga oluline andmete töötlemise kiirus. Samuti on andmed esitatud väga erineval kujul, mis vajab eraldi andmete töötlemist, et nendega üldse ühtselt töötada saaks. Veel võib vaadelda andmete usaldusväärsust, kehtivust, väärtust jne.”
Suurandmed on kvaliteetsed. „Suurandmete puhul tuleb arvestada sellega, et kõik andmed ei ole kvaliteetsed. Tavaliselt andmetöötluse üks esimesi samme ongi see, et tuleb andmed n-ö puhastada ehk tuleb välja selgitada, millised andmed on kasulikud.”
Suurandmed ennustavad tulevikku. „On tõsi, et analüüsides suuri andmemahte, on võimalik leida mustreid, mida saab kasutada tegevuste planeerimiseks. Tihti on nii, et mida rohkem on andmeid minevikust, seda paremaid ja täpsemaid ennustusi on võimalik teha.
Selleks, et ennustused oleksid võimalikult täpsed, on vaja andmeid analüüsida ja rakendada neile erinevaid algoritme. See omakorda vajab inimesi, andmeteadlasi, kes need mustrid üles leiavad ja neid õigesti tõlgendavad.”
Suurandmed on andmeanalüüs. „Suurandmed (big data) defineeritakse erinevates allikates erinevalt. Aga üldiselt mõeldakse suuri andmemahte, kus andmete töötlemiseks on vaja erilisi tehnoloogiaid ja andmete salvestamiseks erilisi andmehoidlaid. Ehk siis andmeanalüüs võib olla üks osa suurandmetega tegelemisest, aga tegelikult hõlmab suurandmetega tegelemine palju rohkemat.
Eraldi võib välja tuua selle, et Euroopa Liit on tegutsemas selles suunas, et suurendada oma tehismõistuse võimekust. Lähiaastatel on plaan igal aastal investeerida 20 miljardit eurot tehismõistuse arendamisse.
Tehismõistus aga vajab arenguks palju kvaliteetseid andmeid. Rõhutatakse kättesaadavust, kvaliteeti, ühtset vormingut ja serveriparkide toetamist. Olles väga agar IT-riik, on meil kindlasti huvi selles mängus kaasa lüüa,” selgitas Luberg.
Täpsemalt Euroopa Liidu tehismõistuse arengutest võib lugeda Sirbi artiklist.
Kui anonüümsed me tegelikult oleme?
Kui Google, Microsoft ja Facebook meie kohta andmeid koguvad, siis räägitakse reeglina anonüümseks tehtud ehk isikustamata andmetest. See tähendab, et kes iganes andmeid haldab, ei saa neid siduda kindla inimesega. Lubergi sõnul ei taga anonüümsus aga tingimata privaatsust.
„Selliseid näiteid on palju, kus anonüümseks tehtud andmeid teiste allikatega kõrvutades on suudetud enamik tulemusi taas isikustada.
Näiteks lahendati juba 2011. aastal üks Kaggle’i keskkonnas (keskkond, kus pakutakse välja mitmesuguseid andmetöötlusväljakutseid) avaldatud väljakutse seoste ennustamiseks anonüümitud Flickri andmeid deanonümiseerides.
Seetõttu on andmete tegelikuks anonüümseks muutmiseks vaja teha rohkem kui lihtsalt kasutajate identiteet kustutada.”
Kust alustada, kui suurandmed sind huvitavad?
Lisaks andmekaitsele tuleb aina enam rõhku panna ka andmete korrastamisele ja sellele, kuidas olemasolevaid andmeid enda jaoks tööle panna. Lubergi sõnul on jätkuvalt suureks väljakutseks andmete töötlemine.
„Tehismõistuse valdkond ei piirdu ainult masinõppega, kuigi masinõppe rakenduste arendus on jätkuvalt olulise kaaluga tegevus. Oluline on uurida, milliseid probleeme saab kogutud andmeid kasutades lahendada ja kuidas seda teha.
Näiteks Eesti teadlastele on alates 2021. aastast kättesaadavad Soome Kajaanisse rajatava superarvuti Lumi ressursid. Meil on vaja inimesi, kes oskaks neid ressursse kasutada meie jaoks oluliste probleemide lahendamisel.”
Inimesel, kel on suurandmete vastu huvi, soovitab Luberg alustada programmeerimise õppimisest.
„Väga heaks kohaks, kus alustada programmeerimise õppimisega, on Tallinna Tehnikaülikooli informaatika bakalaureuseõppekava. Kuna andmeid on palju ja neid tuleb juurde, siis oskus andmete töötlemist automatiseerida loob vundamendi, millele saab ehitada erinevaid enda huvidele vastavaid oskusi.
Paljude ettevõtete esindajate sõnul on kõige paremad andmeanalüütikud need inimesed, kes oskavad programmeerida ja mõistavad ka statistika ja tõenäosusteooria põhitõdesid. Kõiki neid asju saab informaatikas õppida,” rääkis ta.
Loe TalTechi informaatika õppekava kohta lähemalt siit. Kui soovid aga tutvuda tehisintellekti maailmaga, siis osale tasuta sissejuhataval eestikeelsel veebikursusel Elements of AI. Varasemad tehnoloogiaalased teadmised ei ole vajalikud!
Artikkel on varem ilmunud portaalis Geenius.