{"id":52,"date":"2022-06-01T14:36:27","date_gmt":"2022-06-01T14:36:27","guid":{"rendered":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/?post_type=chapter&#038;p=52"},"modified":"2024-01-18T08:05:51","modified_gmt":"2024-01-18T08:05:51","slug":"suurandmed-avaandmed-ja-analuutika","status":"publish","type":"chapter","link":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/chapter\/suurandmed-avaandmed-ja-analuutika\/","title":{"rendered":"Suurandmed, avaandmed ja anal\u00fc\u00fctika"},"content":{"raw":"<div class=\"textbox textbox--learning-objectives\"><header class=\"textbox__header\">\r\n<p class=\"textbox__title\">Peat\u00fckk annab \u00fclevaate<\/p>\r\n\r\n<\/header>\r\n<div class=\"textbox__content\">\r\n<ul>\r\n \t<li>suurandmetest,<\/li>\r\n \t<li>avaandmetest,<\/li>\r\n \t<li>andmeanal\u00fc\u00fctikast ja<\/li>\r\n \t<li>andmeteadusest.<\/li>\r\n<\/ul>\r\n<\/div>\r\n<\/div>\r\n<h2>Suurandmed<\/h2>\r\n<div class=\"textbox textbox--exercises\"><header class=\"textbox__header\">Definitsioon: suurandmed<\/header>\r\n<div class=\"textbox__content\"><strong>Suurandmed<\/strong> (inglise keeles <em>big data)<\/em> on andmed, mis on sedav\u00f5rd suure mahuga v\u00f5i keerulised, et nende t\u00f6\u00f6tlemiseks ei piisa tavap\u00e4rastest vahenditest ja ressurssidest [1].<\/div>\r\n<\/div>\r\nInternetti \u00fchendatud seadmete arv kasvab v\u00e4ga kiiresti ja sellega seoses kasvab ka nende seadmete toodetav andmete hulk. N\u00e4iteks laaditi YouTube'i 2022. aastal igas minutis 300 tundi uut sisu 50 miljoni kasutaja poolt ning toodetud sisu vaadati iga p\u00e4ev \u00fchtekokku miljard tundi, Twitteris saadeti p\u00e4evas 500 miljonit s\u00e4utsu ning Facebookis postitati 9 miljonit s\u00f5numit tunnis. Selliste andmetega tegelemiseks ei piisa enam ainult tabelit\u00f6\u00f6tlusprogrammi ridadest ja veergudest.\r\n<h2>Avaandmed<\/h2>\r\n<div class=\"textbox textbox--exercises\"><header class=\"textbox__header\">\r\n<p class=\"textbox__title\">Definitsioon: avaandmed<\/p>\r\n\r\n<\/header>\r\n<div class=\"textbox__content\">\r\n\r\n<strong>Avaandmed<\/strong> on k\u00f5igile vabalt ja avalikult kasutamiseks antud masinloetaval kujul andmed, millel puuduvad kasutamist ning levitamist takistavad piirangud [2].\r\n\r\n<\/div>\r\n<\/div>\r\nAvaandmete valdkonnas on kasutusel ka m\u00f5isted avaliku sektori avaandmed ning andmekogude avaandmed. Avaliku sektori avaandmetena peetakse silmas avaliku sektori poolt avaandmetena publitseeritud juurdep\u00e4\u00e4supiiranguteta teavet. Andmekogude avaandmetena k\u00e4sitletakse andmekogudes sisalduvad andmeid, millele ei ole kehtestatud juurdep\u00e4\u00e4supiirangut. Avaandmed v\u00f5ivad olla esitatud linkandmetena.\r\n\r\nJ\u00e4rgnevalt m\u00f5ned avaandmeid sisaldavad keskkonnad:\r\n<ul>\r\n \t<li><a href=\"https:\/\/avaandmed.eesti.ee\/\">Eesti avaandmete teabev\u00e4rav<\/a><\/li>\r\n \t<li><a href=\"https:\/\/www.stat.ee\/\">Statistikaamet<\/a><\/li>\r\n \t<li><a href=\"https:\/\/books.google.com\/ngrams\/\">Google Booksi s\u00f5navara Ngram<\/a><\/li>\r\n \t<li><a href=\"https:\/\/keeleressursid.ee\/et\/keeleressursid\/tekstikorpused\">Eesti Keeleressursside keskus<\/a><\/li>\r\n \t<li><a href=\"https:\/\/www.ilmateenistus.ee\/kliima\/ajaloolised-ilmaandmed\/\">Ilmateenistus<\/a><\/li>\r\n \t<li><a href=\"https:\/\/data.world\/datasets\/social-media\">Sotsiaalmeedia avaandmestik<\/a><\/li>\r\n<\/ul>\r\n<h2>Andmeanal\u00fc\u00fctika<\/h2>\r\n<div class=\"textbox textbox--exercises\"><header class=\"textbox__header\">\r\n<p class=\"textbox__title\">Definitsioon: andmeanal\u00fc\u00fctika<\/p>\r\n\r\n<\/header>\r\n<div class=\"textbox__content\">\r\n\r\n<strong>Andmeanal\u00fc\u00fctika<\/strong> on andmeteaduse meetodite praktiline rakendamine suurandmete automatiseeritud t\u00f6\u00f6tlemisel, mille tulemusena valmivad diagrammid, prognoosid ja soovitused aitavad ka ilma programmeerimis- v\u00f5i statistikahariduseta inimestel langetada t\u00f5endusp\u00f5hiseid otsuseid [3].\r\n\r\n<\/div>\r\n<\/div>\r\nAnal\u00fc\u00fctika on ka andmete ettevalmistamine ja modelleerimine paremate otsuste tegemiseks.\r\n<h1>Kes on andmeteadlane?<\/h1>\r\nAndmeteadlase neli oskuste valdkonda v\u00f5tab kokku allolev joonis 1.\r\n\r\n<img class=\"alignnone wp-image-509 size-large\" src=\"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/image-900x1024.png\" alt=\"\" width=\"900\" height=\"1024\" \/>\r\n\r\nJoonis 1. Andmeteadlase neli p\u00f5hioskust [4]\r\n\r\nKokkuv\u00f5tvalt suurandmetega t\u00f6\u00f6tamisel on oluline tugev matemaatiline ja statistiline taust. Lisaks sellele peaks olema tugev tehniline taust (programmeerimiskeeled, andmebaasid, statistikaprogrammid), et osata neid andmeid t\u00f6\u00f6delda. Samuti peaks olema ka teadlik uuritavast n\u00e4htusest, olema uudishimulik lahenduste otsija. Tulemuste jagamisel on oluline aru saada kuuluajast ja olema v\u00f5imeline tulemusi tutvustama erinevatele inimestele huvitaval ja arusaadaval moel.\r\n\r\nAndmeteaduses vajalikud programmeerimise oskused on v\u00f5imalik omandada n\u00e4iteks <a href=\"https:\/\/web.htk.tlu.ee\/digitaru\/programmeerimine\/\">Programmeerimise \u00f5piku<\/a> peat\u00fckist 34 \"Lugemine veebist\" ja 35 \"Lugemine failist\" ning <a href=\"https:\/\/web.htk.tlu.ee\/digitaru\/tarkvara2\/\">Tarkvaraarenduse \u00f5piku<\/a> osast IX \"Andmet\u00f6\u00f6tlus mooduliga NumPy\" ja X \"Andmet\u00f6\u00f6tlus mooduliga Pandas\".\r\n<h1>\u00dclesanded<\/h1>\r\n<ol>\r\n \t<li>Tooge n\u00e4iteid, kus kogutakse suurandmed?<\/li>\r\n \t<li>Valige v\u00e4lja \u00fcks avaandmete keskkond (n\u00e4iteks eelnevast avaandmete loetelust), koostage 2-3 k\u00fcsimust, millele nendest andmetest vastuse leiab. P\u00fc\u00fcdke v\u00f5imalusel juurde ka vastus kirjutada.<\/li>\r\n<\/ol>\r\n<h1>Lisa\u00fclesanne<\/h1>\r\nKuula Arvamusfestivalil toimunud arutelu \"<a href=\"https:\/\/soundcloud.com\/arvamusfestival\/mis-on-andmeteadus\">Mis on andmeteadus?<\/a>\" (1 tund ja 34 minutit) ja pane kirja, millised m\u00f5tted tekkisid.\r\n<h1>Slaidid:<\/h1>\r\n<a href=\"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/Suurandmed.-Esitlus.pdf\">Suurandmed. Esitlus<\/a>\r\n<h2>Viited<\/h2>\r\n[1] <a href=\"https:\/\/et.wikipedia.org\/wiki\/Suurandmed\">https:\/\/et.wikipedia.org\/wiki\/Suurandmed<\/a>\r\n\r\n[2] <a href=\"https:\/\/et.wikipedia.org\/wiki\/Avaandmed\">https:\/\/et.wikipedia.org\/wiki\/Avaandmed<\/a>\r\n\r\n[3] <a href=\"https:\/\/et.wikipedia.org\/wiki\/Andmeanal\u00fc\u00fctika\">https:\/\/et.wikipedia.org\/wiki\/Andmeanal\u00fc\u00fctika<\/a>\r\n\r\n[4] <a href=\"http:\/\/www.ciselab.org\/\">http:\/\/www.ciselab.org\/<\/a>\r\n<h1>Anna materjalile tagasiside siin:\u00a0<a href=\"https:\/\/docs.google.com\/forms\/d\/e\/1FAIpQLSdh4JhjvgTeK6uuQsjRx4ebyb6Ab4TtTNVQAmZBMBqq_KkftA\/viewform\">Materjalile tagasiside andmine<\/a><\/h1>","rendered":"<div class=\"textbox textbox--learning-objectives\">\n<header class=\"textbox__header\">\n<p class=\"textbox__title\">Peat\u00fckk annab \u00fclevaate<\/p>\n<\/header>\n<div class=\"textbox__content\">\n<ul>\n<li>suurandmetest,<\/li>\n<li>avaandmetest,<\/li>\n<li>andmeanal\u00fc\u00fctikast ja<\/li>\n<li>andmeteadusest.<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<h2>Suurandmed<\/h2>\n<div class=\"textbox textbox--exercises\">\n<header class=\"textbox__header\">Definitsioon: suurandmed<\/header>\n<div class=\"textbox__content\"><strong>Suurandmed<\/strong> (inglise keeles <em>big data)<\/em> on andmed, mis on sedav\u00f5rd suure mahuga v\u00f5i keerulised, et nende t\u00f6\u00f6tlemiseks ei piisa tavap\u00e4rastest vahenditest ja ressurssidest [1].<\/div>\n<\/div>\n<p>Internetti \u00fchendatud seadmete arv kasvab v\u00e4ga kiiresti ja sellega seoses kasvab ka nende seadmete toodetav andmete hulk. N\u00e4iteks laaditi YouTube&#8217;i 2022. aastal igas minutis 300 tundi uut sisu 50 miljoni kasutaja poolt ning toodetud sisu vaadati iga p\u00e4ev \u00fchtekokku miljard tundi, Twitteris saadeti p\u00e4evas 500 miljonit s\u00e4utsu ning Facebookis postitati 9 miljonit s\u00f5numit tunnis. Selliste andmetega tegelemiseks ei piisa enam ainult tabelit\u00f6\u00f6tlusprogrammi ridadest ja veergudest.<\/p>\n<h2>Avaandmed<\/h2>\n<div class=\"textbox textbox--exercises\">\n<header class=\"textbox__header\">\n<p class=\"textbox__title\">Definitsioon: avaandmed<\/p>\n<\/header>\n<div class=\"textbox__content\">\n<p><strong>Avaandmed<\/strong> on k\u00f5igile vabalt ja avalikult kasutamiseks antud masinloetaval kujul andmed, millel puuduvad kasutamist ning levitamist takistavad piirangud [2].<\/p>\n<\/div>\n<\/div>\n<p>Avaandmete valdkonnas on kasutusel ka m\u00f5isted avaliku sektori avaandmed ning andmekogude avaandmed. Avaliku sektori avaandmetena peetakse silmas avaliku sektori poolt avaandmetena publitseeritud juurdep\u00e4\u00e4supiiranguteta teavet. Andmekogude avaandmetena k\u00e4sitletakse andmekogudes sisalduvad andmeid, millele ei ole kehtestatud juurdep\u00e4\u00e4supiirangut. Avaandmed v\u00f5ivad olla esitatud linkandmetena.<\/p>\n<p>J\u00e4rgnevalt m\u00f5ned avaandmeid sisaldavad keskkonnad:<\/p>\n<ul>\n<li><a href=\"https:\/\/avaandmed.eesti.ee\/\">Eesti avaandmete teabev\u00e4rav<\/a><\/li>\n<li><a href=\"https:\/\/www.stat.ee\/\">Statistikaamet<\/a><\/li>\n<li><a href=\"https:\/\/books.google.com\/ngrams\/\">Google Booksi s\u00f5navara Ngram<\/a><\/li>\n<li><a href=\"https:\/\/keeleressursid.ee\/et\/keeleressursid\/tekstikorpused\">Eesti Keeleressursside keskus<\/a><\/li>\n<li><a href=\"https:\/\/www.ilmateenistus.ee\/kliima\/ajaloolised-ilmaandmed\/\">Ilmateenistus<\/a><\/li>\n<li><a href=\"https:\/\/data.world\/datasets\/social-media\">Sotsiaalmeedia avaandmestik<\/a><\/li>\n<\/ul>\n<h2>Andmeanal\u00fc\u00fctika<\/h2>\n<div class=\"textbox textbox--exercises\">\n<header class=\"textbox__header\">\n<p class=\"textbox__title\">Definitsioon: andmeanal\u00fc\u00fctika<\/p>\n<\/header>\n<div class=\"textbox__content\">\n<p><strong>Andmeanal\u00fc\u00fctika<\/strong> on andmeteaduse meetodite praktiline rakendamine suurandmete automatiseeritud t\u00f6\u00f6tlemisel, mille tulemusena valmivad diagrammid, prognoosid ja soovitused aitavad ka ilma programmeerimis- v\u00f5i statistikahariduseta inimestel langetada t\u00f5endusp\u00f5hiseid otsuseid [3].<\/p>\n<\/div>\n<\/div>\n<p>Anal\u00fc\u00fctika on ka andmete ettevalmistamine ja modelleerimine paremate otsuste tegemiseks.<\/p>\n<h1>Kes on andmeteadlane?<\/h1>\n<p>Andmeteadlase neli oskuste valdkonda v\u00f5tab kokku allolev joonis 1.<\/p>\n<div class=\"wp-nocaption alignnone wp-image-509 size-large\"><img class=\"alignnone wp-image-509 size-large\" src=\"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/image-900x1024.png\" alt=\"\" width=\"900\" height=\"1024\" srcset=\"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/image-900x1024.png 900w, https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/image-264x300.png 264w, https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/image-768x874.png 768w, https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/image-65x74.png 65w, https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/image-225x256.png 225w, https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/image-350x398.png 350w, https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/image.png 1040w\" \/><\/div>\n<p>Joonis 1. Andmeteadlase neli p\u00f5hioskust [4]<\/p>\n<p>Kokkuv\u00f5tvalt suurandmetega t\u00f6\u00f6tamisel on oluline tugev matemaatiline ja statistiline taust. Lisaks sellele peaks olema tugev tehniline taust (programmeerimiskeeled, andmebaasid, statistikaprogrammid), et osata neid andmeid t\u00f6\u00f6delda. Samuti peaks olema ka teadlik uuritavast n\u00e4htusest, olema uudishimulik lahenduste otsija. Tulemuste jagamisel on oluline aru saada kuuluajast ja olema v\u00f5imeline tulemusi tutvustama erinevatele inimestele huvitaval ja arusaadaval moel.<\/p>\n<p>Andmeteaduses vajalikud programmeerimise oskused on v\u00f5imalik omandada n\u00e4iteks <a href=\"https:\/\/web.htk.tlu.ee\/digitaru\/programmeerimine\/\">Programmeerimise \u00f5piku<\/a> peat\u00fckist 34 &#8220;Lugemine veebist&#8221; ja 35 &#8220;Lugemine failist&#8221; ning <a href=\"https:\/\/web.htk.tlu.ee\/digitaru\/tarkvara2\/\">Tarkvaraarenduse \u00f5piku<\/a> osast IX &#8220;Andmet\u00f6\u00f6tlus mooduliga NumPy&#8221; ja X &#8220;Andmet\u00f6\u00f6tlus mooduliga Pandas&#8221;.<\/p>\n<h1>\u00dclesanded<\/h1>\n<ol>\n<li>Tooge n\u00e4iteid, kus kogutakse suurandmed?<\/li>\n<li>Valige v\u00e4lja \u00fcks avaandmete keskkond (n\u00e4iteks eelnevast avaandmete loetelust), koostage 2-3 k\u00fcsimust, millele nendest andmetest vastuse leiab. P\u00fc\u00fcdke v\u00f5imalusel juurde ka vastus kirjutada.<\/li>\n<\/ol>\n<h1>Lisa\u00fclesanne<\/h1>\n<p>Kuula Arvamusfestivalil toimunud arutelu &#8220;<a href=\"https:\/\/soundcloud.com\/arvamusfestival\/mis-on-andmeteadus\">Mis on andmeteadus?<\/a>&#8221; (1 tund ja 34 minutit) ja pane kirja, millised m\u00f5tted tekkisid.<\/p>\n<h1>Slaidid:<\/h1>\n<p><a href=\"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-content\/uploads\/sites\/2\/2022\/06\/Suurandmed.-Esitlus.pdf\">Suurandmed. Esitlus<\/a><\/p>\n<h2>Viited<\/h2>\n<p>[1] <a href=\"https:\/\/et.wikipedia.org\/wiki\/Suurandmed\">https:\/\/et.wikipedia.org\/wiki\/Suurandmed<\/a><\/p>\n<p>[2] <a href=\"https:\/\/et.wikipedia.org\/wiki\/Avaandmed\">https:\/\/et.wikipedia.org\/wiki\/Avaandmed<\/a><\/p>\n<p>[3] <a href=\"https:\/\/et.wikipedia.org\/wiki\/Andmeanal\u00fc\u00fctika\">https:\/\/et.wikipedia.org\/wiki\/Andmeanal\u00fc\u00fctika<\/a><\/p>\n<p>[4] <a href=\"http:\/\/www.ciselab.org\/\">http:\/\/www.ciselab.org\/<\/a><\/p>\n<h1>Anna materjalile tagasiside siin:\u00a0<a href=\"https:\/\/docs.google.com\/forms\/d\/e\/1FAIpQLSdh4JhjvgTeK6uuQsjRx4ebyb6Ab4TtTNVQAmZBMBqq_KkftA\/viewform\">Materjalile tagasiside andmine<\/a><\/h1>\n","protected":false},"author":2,"menu_order":3,"template":"","meta":{"pb_show_title":"on","pb_short_title":"","pb_subtitle":"","pb_authors":[],"pb_section_license":""},"chapter-type":[],"contributor":[],"license":[],"part":46,"_links":{"self":[{"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/pressbooks\/v2\/chapters\/52"}],"collection":[{"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/pressbooks\/v2\/chapters"}],"about":[{"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/wp\/v2\/types\/chapter"}],"author":[{"embeddable":true,"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/wp\/v2\/users\/2"}],"version-history":[{"count":16,"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/pressbooks\/v2\/chapters\/52\/revisions"}],"predecessor-version":[{"id":780,"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/pressbooks\/v2\/chapters\/52\/revisions\/780"}],"part":[{"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/pressbooks\/v2\/parts\/46"}],"metadata":[{"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/pressbooks\/v2\/chapters\/52\/metadata\/"}],"wp:attachment":[{"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/wp\/v2\/media?parent=52"}],"wp:term":[{"taxonomy":"chapter-type","embeddable":true,"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/pressbooks\/v2\/chapter-type?post=52"},{"taxonomy":"contributor","embeddable":true,"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/wp\/v2\/contributor?post=52"},{"taxonomy":"license","embeddable":true,"href":"https:\/\/web.htk.tlu.ee\/informaatika\/infoyhiskond\/wp-json\/wp\/v2\/license?post=52"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}