46 Sissejuhatus

Elame ajastul, kus kogutakse hulgaliselt erinevaid andmeid. Ühelt poolt sisaldab see näiteks ohte privaatsusele, teiselt poolt aga annab võimalusi õigemaid otsuseid teha. Otsustamiseks või ka lihtsalt millestki parema ülevaate saamiseks tuleb andmeid mõistlikult töödelda.

Andmetöötluseks on väga erinevaid vahendeid, millest selles materjalis kasutame Pythoni moodulit Pandas. Selle peamine arendaja oli Wes McKinney, kes alustas Pandase projektiga 2008. aastal. Pärast seda on Pandase moodul kogunud populaarsust ja see on üks tuntumaid Pythoni andmetöötluse mooduleid.

Kuna Pandase kasutamise kohta eriti palju eestikeelseid materjale pole ja puudub väljakujunenud eestikeelset terminoloogiat, on materjalides kasutatud mõningaid otsemugandusi, nt seeria (Series), andmefreim (DataFrame).

Materjalides tutvustatakse peamisi Pandase mooduli võimalusi, kuid suurem tähelepanu pööratakse Pandase seeria ja andmefreimi tutvutamisele. Lisaks õpetame ka andmete visualiseerimist Matplotlib ja Plotly moodulite abil. Materjali loomisel on kasutatud järgmisi programmide ja moodulite versioone:

  • Python 3.8.5
  • Thonny 3.2.7
  • Pandas 1.1.2
  • Matplotlib 3.3.1
  • Plotly 4.9.0
  • Windows 10 ja MacOS

Installeerimine

Vaatame, kuidas Thonnys installeerida Pythoni andmetöötluseks mõeldud moodul pandas.

Installeerimise sammud:

  • Ava Thonny programm
  • Vali ülevalt menüüribalt Tools
  • Sealt vali Manage packages…
  • Avaneb uus aken
  • Sisesta otsinguribale pandas
  • Klõpsa nupul Find package from PyPI
  • Kui avaneb Pandase informatsioon, klõpsa nupul Install
  • Pärast installeerimist ongi Thonny programmil moodul Pandas
  • Kasutamiseks kirjuta import pandas as pd programmi algusesse. Selleks, et kiiremini proovida Pandase funktsioone ja seeriate loomist, võib selle kirjutada ka otse käsureale

 !  pd on levinud lühend Pandase kasutamiseks.

Kui Te ei kasuta Thonnyt, siis võib pandase installeerimine olla mõnevõrra keerulisem. Windowsi käsurealt saab pandase installeerida käsuga py -m pip install pandas.

Koos Pandasega installitakse ka moodul NumPy. Tegelikult saaks pelgalt NumPy abiga andmeid töödelda. Mooduliga NumPy saab soovi korral tutvuda NumPy materjalis.

Andmestruktuurid

Pandase kohta leidub väga vähe eestikeelseid materjale ja terminoloogia on lünklik. Kasutame siin materjalides ingliskeelseid termineid ja nende toortõlkeid: seeria, andmefreim ja paneel.

Pandases on andmete hoidmiseks 3 põhilist andmestruktuuri:

  • Series – seeria
  • DataFrame – andmefreim
  • Panel – paneel

Enimkasutatav andmestruktuur on andmefreim ning ka materjalides keskendutakse kõige enam sellele. Esmalt aga tutvustame Pandase seeriat.

Litsents

Icon for the Creative Commons Attribution 4.0 International License

Tarkvaraarendus. 2. trükk on loodud Eno Tõnisson, Tauno Palts, Kaarel Tõnisson, Heidi Meier, Merilin Säde, ja Säde Mai Krusberg jt poolt Creative Commons Attribution 4.0 International License litsentsi alusel, kui pole teisiti märgitud.

Jaga seda raamatut