57 Andmete lugemine ja kirjutamine
Andmete lugemine failist
Andmete analüüsimisel on sageli vaja andmed lugeda failist. Ilmselt kõige sagedasem tekstifaili formaat, mida andmeanalüüsis kasutatakse, on CSV. Pandas pakub CSV failide lugemiseks funktsiooni read_csv
, mis tagastab andmefreimi. Loeme andmed Euroopa kasvuhoonegaaside emissiooni kohta. Andmed on failist kasvuhoonegaasid.csv (allikas Eurostat). Lisame juurde ka failikodeeringu UTF-8 ja andmete eraldajaks on semikoolon (;).
andmed = pd.read_csv('kasvuhoonegaasid.csv', encoding='UTF-8', sep=';')
! CSV failis ei tohi olla veeru nimedes tühikuid, need tuleb asendada _ -ga (alakriipsuga). Näiteks Keskmine hinne → Keskmine_hinne.
Sama funktsiooniga on võimalik ka andmed veebist lugeda. Faili nime asemel tuleb kasutada veebilinki, kus andmed asuvad.
andmed = pd.read_csv('http://kodu.ut.ee/~merka123/plotly/kasvuhoonegaasid.csv', encoding='UTF-8', sep=';')
Andmete kirjutamine faili
Kui andmed on töödeldud, võib tekkida vajadus need uude faili kirjutada. Seda saab teha funktsiooni .to_csv
abil. Kirjutame muudetud andmed faili nimega uued_andmed.csv
, kasutame eraldajana semikoolonit.
andmed.to_csv('uued_andmed.csv', sep=';', encoding='utf-8')