20 Suurandmed, avaandmed ja analüütika

Peatükk annab ülevaate

  • suurandmetest,
  • avaandmetest,
  • andmeanalüütikast ja
  • andmeteadusest.

Suurandmed

Definitsioon: suurandmed
Suurandmed (inglise keeles big data) on andmed, mis on sedavõrd suure mahuga või keerulised, et nende töötlemiseks ei piisa tavapärastest vahenditest ja ressurssidest [1].

Internetti ühendatud seadmete arv kasvab väga kiiresti ja sellega seoses kasvab ka nende seadmete toodetav andmete hulk. Näiteks laaditi YouTube’i 2022. aastal igas minutis 300 tundi uut sisu 50 miljoni kasutaja poolt ning toodetud sisu vaadati iga päev ühtekokku miljard tundi, Twitteris saadeti päevas 500 miljonit säutsu ning Facebookis postitati 9 miljonit sõnumit tunnis. Selliste andmetega tegelemiseks ei piisa enam ainult tabelitöötlusprogrammi ridadest ja veergudest.

Avaandmed

Definitsioon: avaandmed

Avaandmed on kõigile vabalt ja avalikult kasutamiseks antud masinloetaval kujul andmed, millel puuduvad kasutamist ning levitamist takistavad piirangud [2].

Avaandmete valdkonnas on kasutusel ka mõisted avaliku sektori avaandmed ning andmekogude avaandmed. Avaliku sektori avaandmetena peetakse silmas avaliku sektori poolt avaandmetena publitseeritud juurdepääsupiiranguteta teavet. Andmekogude avaandmetena käsitletakse andmekogudes sisalduvad andmeid, millele ei ole kehtestatud juurdepääsupiirangut. Avaandmed võivad olla esitatud linkandmetena.

Järgnevalt mõned avaandmeid sisaldavad keskkonnad:

Andmeanalüütika

Definitsioon: andmeanalüütika

Andmeanalüütika on andmeteaduse meetodite praktiline rakendamine suurandmete automatiseeritud töötlemisel, mille tulemusena valmivad diagrammid, prognoosid ja soovitused aitavad ka ilma programmeerimis- või statistikahariduseta inimestel langetada tõenduspõhiseid otsuseid [3].

Analüütika on ka andmete ettevalmistamine ja modelleerimine paremate otsuste tegemiseks.

Kes on andmeteadlane?

Andmeteadlase neli oskuste valdkonda võtab kokku allolev joonis 1.

Joonis 1. Andmeteadlase neli põhioskust [4]

Kokkuvõtvalt suurandmetega töötamisel on oluline tugev matemaatiline ja statistiline taust. Lisaks sellele peaks olema tugev tehniline taust (programmeerimiskeeled, andmebaasid, statistikaprogrammid), et osata neid andmeid töödelda. Samuti peaks olema ka teadlik uuritavast nähtusest, olema uudishimulik lahenduste otsija. Tulemuste jagamisel on oluline aru saada kuuluajast ja olema võimeline tulemusi tutvustama erinevatele inimestele huvitaval ja arusaadaval moel.

Andmeteaduses vajalikud programmeerimise oskused on võimalik omandada näiteks Programmeerimise õpiku peatükist 34 “Lugemine veebist” ja 35 “Lugemine failist” ning Tarkvaraarenduse õpiku osast IX “Andmetöötlus mooduliga NumPy” ja X “Andmetöötlus mooduliga Pandas”.

Ülesanded

  1. Tooge näiteid, kus kogutakse suurandmed?
  2. Valige välja üks avaandmete keskkond (näiteks eelnevast avaandmete loetelust), koostage 2-3 küsimust, millele nendest andmetest vastuse leiab. Püüdke võimalusel juurde ka vastus kirjutada.

Lisaülesanne

Kuula Arvamusfestivalil toimunud arutelu “Mis on andmeteadus?” (1 tund ja 34 minutit) ja pane kirja, millised mõtted tekkisid.

Slaidid:

Suurandmed. Esitlus

Viited

[1] https://et.wikipedia.org/wiki/Suurandmed

[2] https://et.wikipedia.org/wiki/Avaandmed

[3] https://et.wikipedia.org/wiki/Andmeanalüütika

[4] http://www.ciselab.org/

Anna materjalile tagasiside siin: Materjalile tagasiside andmine

Litsents

Infoühiskond Copyright © by Birgy Lorenz, Maia Lust, Reelika Väli, Riin Saadjärv, Tauno Palts, Maris Valdmets, ja Mart Laanpere. All Rights Reserved.

Jaga seda raamatut