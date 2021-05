Suurandmetega annab ära teha väga palju, mistõttu on küberturvalisus ja suurte lekete ärahoidmine nii ettevõtete kui ka valitsuste jaoks üks prioriteete. Samas ei tasu eeldada, et pelgalt andmete olemasolu on eelduseks, et nendega midagi kasulikku saaks peale hakata.

On hästi oluline, et selliseid küsimusi küsitakse ja küsitakse ka tulevikus ning mõjutatakse tarkvarahiide inimeste andmete eest paremini hoolitsema,” sõnas ta.

Lubergi sõnul päris niisama Google meid siiski pealt ei kuula. „Ikka peab olema aktiveeritud mõni teenus, näiteks Alexa Google’i puhul või Siri Apple’i puhul või Echo Amazoni puhul. On tõsi, et nende teenuste puhul on tõstatatud küsimusi privaatsuse kohta.

Andmetest räägitakse palju ja seda lihtsal põhjusel – neid on hulgi ja tuleb aina juurde. Tõenäoliselt on nii mõnigi lugeja kokku puutunud olukorraga, kus telefoni juuresolekul mainitakse midagi ja mõne aja pärast võib nutiseadmest kuulduga seotud reklaami näha.

Näiteks on võimalik analüüsida, milliseid uudiseid inimene loeb, ja selle põhjal teha personaalseid pakkumisi, mida poes osta, kuhu reisida või näiteks millist eriala õppima minna. Kuidas kogutud andmeid veel paremini ära kasutada, milliseid mugavusteenuseid nende abil saab pakkuda – need on küsimused, mida esitavad andmeanalüütikud oma igapäevatöös.

Tundub, et paljudele on see vastuvõetav, sest kui paljusid te teate, kes Google’i meiliteenuse eest raha maksavad?” küsis Luberg.

„Google – nagu ka Apple, Amazon, Facebook või Microsoft – tunneb meid täpselt nii hästi, kui hästi me tal ennast tunda võimaldame. Kui kasutame näiteks Gmaili teenust, mille eest me raha ei maksa, leiab Google alternatiivse viisi üsna kasutajasõbralikuks tehtud teenuse rahastamiseks – Google müüb kontekstist lähtuvalt sihitud reklaami.

Kindlasti on võimalik andmeid analüüsides noppida kergesti kättesaadavaid vilju, aga keerulisemad tulemused võivad vajada miljonitesse eurodesse küündivaid kulutusi näiteks kasvõi arvutamise peale.

„Näiteks võib tuua 2020. aastal loodud GPT-3 loomuliku keele mudeli treenimise OpenAI-s, mis on tänaseks tehtud kõigile kättesaadavaks vastava rakendusliidese kaudu, kus ühelt poolt suudeti suurte tekstikorpuste pealt luua 175 miljardi parameetriga loomuliku keele mudel, mis suudab muu hulgas tõlgendada teksti ja jäljendada erinevaid kirjutamisstiile.

Teiselt poolt kulus ainuüksi mudeli treenimisele kulunud arvutite rentimise peale 4,6 miljonit dollarit,” rääkis Luberg.

Kuigi eelnev näide tõi välja, kui kulukas võib andmetöötlus olla, siis tegelikult pakuvad väga paljud teenusepakkujad pilveteenuseid, kus mõistliku hinnaga saab täitsa arvestatava suurusega andmetega tegeleda.

„Selleks, et alustada, ei ole vaja tervet serveriparki. Alustada saab vastavalt vajadustele ja võimalustele,” rääkis Luberg. Programmijuht tõi välja ka mõned levinumad müüdid suurandmede kohta.

Suurandmed tähendab vaid suuri andmemahte. „Kuigi nimi suurandmed viitab peamiselt andmemahule, siis tegelikult on selles valdkonnas keerukus ka mujal.

Näiteks on sõltuvalt rakendusest väga oluline andmete töötlemise kiirus. Samuti on andmed esitatud väga erineval kujul, mis vajab eraldi andmete töötlemist, et nendega üldse ühtselt töötada saaks. Veel võib vaadelda andmete usaldusväärsust, kehtivust, väärtust jne.”

Suurandmed on kvaliteetsed. „Suurandmete puhul tuleb arvestada sellega, et kõik andmed ei ole kvaliteetsed. Tavaliselt andmetöötluse üks esimesi samme ongi see, et tuleb andmed n-ö puhastada ehk tuleb välja selgitada, millised andmed on kasulikud.”

Suurandmed ennustavad tulevikku. „On tõsi, et analüüsides suuri andmemahte, on võimalik leida mustreid, mida saab kasutada tegevuste planeerimiseks. Tihti on nii, et mida rohkem on andmeid minevikust, seda paremaid ja täpsemaid ennustusi on võimalik teha.