Pandas – Meteorologická pozorování v Klementinu

Python Jiří Znamenáček Pandas – Meteorologická pozorování v Klementinu 2025-06-12

Jak už jsem předesílal, knihovna Pandas je ještě výrazně specializovanější než Numpy, takže se lépe ukazuje na konkrétních příkladech.

Tato přednáška se inspirovala obdobnou z kurzu Pythonu na FITu z roku 2019 a bude se tudíž věnovat zpracování meteorologických pozorování z pražského Klementina. Ta jsou unikátní tím, že průměrnou denní teplotu a extrémy teploty vzduchu zaznamenávají nejméně třikrát denně prakticky již od roku 1775 (a od roku 1804 i denní úhrn srážek), takže i přes výrazné zkreslení dat dané umístěním stanice v centru města se jedná o velmi dlouhou a zajímavou sadu čísel.

PS: Data pro přednášku získána 12. června 2025, takže končí rokem 2023.

Data jsou poskytována jako excelový soubor o čtyřech listech, přičemž pro nás zajímavé číselné řady se nachází na třetím listu se jménem data a je jich více jak devadesát tisíc řádek. Pokud nemáte doinstalované doplňky na práci se soubory Excelu, Pandas vám to oznámí po prvním spuštění následujícího skriptu:

T-AVG, TMA, TMI a SRA jsou postupně zjevně průměrná denní teplota, maximální a minimální teplota daného dne plus úhrnné srážky za příslušný den. Význam sloupce Flag se mi nepodařilo dohledat (vesměs bývá prázdný, občas je v něm písmeno T, jak si můžete snadno ověřit kódem df['Flag'].unique()).

PS: Metoda describe() zjevně napočítá vybrané souhrnné statistické charakteristiky pro každý číselný sloupeček (tedy pandí Series), což zjevně ne vždy je úplně smysluplné (viz především sloupec měsíc).