20 Suurandmed, avaandmed ja analüütika
Peatükk annab ülevaate
- suurandmetest,
- avaandmetest,
- andmeanalüütikast ja
- andmeteadusest.
Suurandmed
Internetti ühendatud seadmete arv kasvab väga kiiresti ja sellega seoses kasvab ka nende seadmete toodetav andmete hulk. Näiteks laaditi YouTube’i 2022. aastal igas minutis 300 tundi uut sisu 50 miljoni kasutaja poolt ning toodetud sisu vaadati iga päev ühtekokku miljard tundi, Twitteris saadeti päevas 500 miljonit säutsu ning Facebookis postitati 9 miljonit sõnumit tunnis. Selliste andmetega tegelemiseks ei piisa enam ainult tabelitöötlusprogrammi ridadest ja veergudest.
Avaandmed
Definitsioon: avaandmed
Avaandmed on kõigile vabalt ja avalikult kasutamiseks antud masinloetaval kujul andmed, millel puuduvad kasutamist ning levitamist takistavad piirangud [2].
Avaandmete valdkonnas on kasutusel ka mõisted avaliku sektori avaandmed ning andmekogude avaandmed. Avaliku sektori avaandmetena peetakse silmas avaliku sektori poolt avaandmetena publitseeritud juurdepääsupiiranguteta teavet. Andmekogude avaandmetena käsitletakse andmekogudes sisalduvad andmeid, millele ei ole kehtestatud juurdepääsupiirangut. Avaandmed võivad olla esitatud linkandmetena.
Järgnevalt mõned avaandmeid sisaldavad keskkonnad:
- Eesti avaandmete teabevärav
- Statistikaamet
- Google Booksi sõnavara Ngram
- Eesti Keeleressursside keskus
- Ilmateenistus
- Sotsiaalmeedia avaandmestik
Andmeanalüütika
Definitsioon: andmeanalüütika
Andmeanalüütika on andmeteaduse meetodite praktiline rakendamine suurandmete automatiseeritud töötlemisel, mille tulemusena valmivad diagrammid, prognoosid ja soovitused aitavad ka ilma programmeerimis- või statistikahariduseta inimestel langetada tõenduspõhiseid otsuseid [3].
Analüütika on ka andmete ettevalmistamine ja modelleerimine paremate otsuste tegemiseks.
Kes on andmeteadlane?
Andmeteadlase neli oskuste valdkonda võtab kokku allolev joonis 1.
Joonis 1. Andmeteadlase neli põhioskust [4]
Kokkuvõtvalt suurandmetega töötamisel on oluline tugev matemaatiline ja statistiline taust. Lisaks sellele peaks olema tugev tehniline taust (programmeerimiskeeled, andmebaasid, statistikaprogrammid), et osata neid andmeid töödelda. Samuti peaks olema ka teadlik uuritavast nähtusest, olema uudishimulik lahenduste otsija. Tulemuste jagamisel on oluline aru saada kuuluajast ja olema võimeline tulemusi tutvustama erinevatele inimestele huvitaval ja arusaadaval moel.
Andmeteaduses vajalikud programmeerimise oskused on võimalik omandada näiteks Programmeerimise õpiku peatükist 34 “Lugemine veebist” ja 35 “Lugemine failist” ning Tarkvaraarenduse õpiku osast IX “Andmetöötlus mooduliga NumPy” ja X “Andmetöötlus mooduliga Pandas”.
Ülesanded
- Tooge näiteid, kus kogutakse suurandmed?
- Valige välja üks avaandmete keskkond (näiteks eelnevast avaandmete loetelust), koostage 2-3 küsimust, millele nendest andmetest vastuse leiab. Püüdke võimalusel juurde ka vastus kirjutada.
Lisaülesanne
Kuula Arvamusfestivalil toimunud arutelu “Mis on andmeteadus?” (1 tund ja 34 minutit) ja pane kirja, millised mõtted tekkisid.
Slaidid:
Viited
[1] https://et.wikipedia.org/wiki/Suurandmed
[2] https://et.wikipedia.org/wiki/Avaandmed
[3] https://et.wikipedia.org/wiki/Andmeanalüütika