Pandas

Python Jiří Znamenáček Pandas 2025-04-23

Modul Pandas je specializovaný nástroj na práci se dvěma typy dat:

1D-pole dat libovolného typu (objekt Series);
2D-tabulky dat libovolného typu (objekt DataFrame).

Oboje využívá možností knihovny Numpy, konkrétně tedy její schopnosti zavedení libovolně složitého strukturovaného typu.

PS: Asi úplně nejčastěji se tak s Pandas setkáte při zpracování tabulárních dat z Excelu, případně v podobě souborů CSV.

Abychom si hned na začátku uvědomili, s jak velikým molochem se potkáváme, zde je kupříkladu plná verze funkce pro otevření CSV-souboru:

pandas.read_csv(
    filepath_or_buffer, *, sep=<no_default>, delimiter=None, header='infer', names=<no_default>,
    index_col=None, usecols=None, dtype=None, engine=None, converters=None, true_values=None,
    false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None,
    na_values=None, keep_default_na=True, na_filter=True, verbose=<no_default>,
    skip_blank_lines=True, parse_dates=None, infer_datetime_format=<no_default>,
    keep_date_col=<no_default>, date_parser=<no_default>, date_format=None, dayfirst=False,
    cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None,
    decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None,
    comment=None, encoding=None, encoding_errors='strict', dialect=None, on_bad_lines='error',
    delim_whitespace=<no_default>, low_memory=True, memory_map=False, float_precision=None,
    storage_options=None, dtype_backend=<no_default>
)

Asi už jenom z tohohle je celkem jasné, proč se na Pandas běžně vypisují (draze) placené kurzy, po jejichž úspěšném absolvování (snad) může účastník říci, že umí pomocí Pandas zpracovat libovolná tabulková data.

S tím bohužel souvisí, že často účastníci kurzu získají pocit, že se zároveň s tím naučili i programovat v Python'u. A většinou to není pravda… (Často ani netuší, jak funguje a jak se píše smyčka for-in, protože zrovna ta se totiž v Pandas prakticky rozumně ani používat nedá.)

Není tudíž divu, že v této sérii přednášek o knihovně Pandas si ukážeme jenom naprosté základy. Pro řešení konkrétních problémů si budete muset pomoci s vyhledáváním (s pomocí AI) nebo čtením originální dokumentace.

Jakkoliv to zní proti klasickému chápání 2D-tabulky kontraintuitivně, tak DataFrame je v podstatě slovník sloupců, kde každý sloupec je pandí Series. Klíči tohoto slovníku jsou názvy sloupečků a všechny sloupečky přitom sdílejí stejný (přístupový) index.

S tím souvisí, že přidat sloupec je triviálně náročné (ekvivalent přidání nového klíče s hodnotou do slovníku), zatímco přidat řádek je masakr – vlastně musíme pro každý klíč ve slovníku přidat na konkrétní místo odpovídající Series další prvek.

Z toho je asi už jasné, že iterovat (ať už pomocí for-in nebo třeba metody iterrows()) po řádcích DataFrameu je těžce kontraproduktivní – snažíte se najednou vytáhnout hodnoty na stejném místě (konkrétní řádek DataFrame) z mnoha různých Series (sloupečky).

Takže vlastně děláte něco jako zip() nad sloupečky, ale s konkrétním indexem daného DataFrameu.

Pro většinu takových potřeb existuje v Pandas lepší řešení, většinou v podobě nějaké vektorizované (ve smyslu Numpy) metody. Naučit se efektivně používat Pandas pak v podstatě znamená naučit se myslet, jak se typické úlohy v Pandas nejlépe řeší. V dalším si ukážeme pár jednoduchých příkladů, ale na reálnou práci s (velkými) daty to stačit nebude, to už si budete muset nastudovat sami.

Modul pandas se instaluje klasicky, ať už pipem nebo třebas pomocí Condy:

# instalace pomocí CheeseShop pip install pandas # instalace pomocí Condy conda install pandas Mezi instalované závislosti patří numpy, python-dateutil, pytz, tzdata a six. Pokud budete chtít pracovat se soubory MS Excel, vyžádá si Pandas i doinstalaci dalších závislostí (přinejmenším openpyxl a et-xmlfile).

Do programů je pak zvykem importovat Pandas následujícím způsobem pod jménem pd:

import pandas as pd Tedy podobně jako u Numpy, kde používáme import numpy as np .

Základy práce s knihovnou Pandas si ukážeme na následujících jednoduchých datech ve formátu CSV:

Společný začátek názvů všech filmů „Harry Potter and the“ pro přehlednost vynechán.

Data se do programu načtou velmi jednoduše následujícím způsobem:

Tato ukázková data jsou maličká a jsou tak vypsána celá, větší data by byla ořezána a vidět by byl pouze výřez jejich okrajů. Stejně jako u velkých polí v Numpy.

Pokud byste potřebovali informace o načtených datech a jak je Pandas pochopil a zpracoval, pomůže vám metoda info(). Její výstup jde přímo na terminál:

Vidíme, že Pandas správně naparsoval hlavičkovou řádku a příslušných pět sloupečků, přičemž odpovídajícím pěti Series přiřadil vyhovující numpy-typy (čtyřikrát obecný objekt, tedy řetězec, a jednou – pro rok – celé číslo v rozsahu int64).

Jelikož typicky budete pomocí Pandas zpracovávat opravdu veliké datové soubory, často se budete chtít podívat, jak vypadá hlavička a její okolí a konec načtených dat. Metody head() a tail() vypisují pět řádek z odpovídajícího konce dat (plus pro přehlednost i hlavičku):

Chcete-li ze všech dostupných dat vypsat pouze některé sloupečky, píše se to trochu překvapivě pomocí dvojtých hranatých závorek:

Přitom, jak je vidět, na pořadí originálních dat nezáleží – co si zadáte, to se vypíše.

O sloupečcích můžeme snadno zjišťovat spoustu zajímavých věcí:

Výstupem metody unique() není pythonovský seznam, ale numpyovské ndarray.

Stejně jako v Numpy můžeme při výběru s výhodou využít „fancy indexing“:

A stejně jako v Numpy to není úplně nejrychlejší a paměťově nejméně náročný způsob.

Podmínky pro výběr (nejen u „fancy indexing“) se dají skládat operátory pro bitovou logiku:

PS: Vlastnost .str na objektu typu Series je vektorizovaný (tedy přes všechny položky) přístup k řetězcovým operacím na příslušném (zde) sloupečku.

Než náš rychloúvod opustíme, ukažme si ještě jednu pro Pandas zcela typickou operaci – skládání hodnot z vícero sloupců do výsledného nového sloupce:

PS: Na těchto datech jde o zcela umělý příklad, ale pokud by to byly kupříkladu číselné řady a mohli byste takto třebas sečíst nebo vynásobit některé sloupce mezi sebou a výsledek zaznamenat do sloupce nového, hned by to dávalo větší smysl. O tom ale více až v další přednášce.

Konkrétní řádku (či řádky) – tedy vlastně výřezy ze všech odpovídajících sloupečků Series – získáte úplně stejně jako u výřezů v samotném Python'u pomocí pořadového čísla a výřezové notace [:]:

Jak jsem ale zmiňoval na začátku, iterace po řádcích je v Pandas tzv. antipattern, takže chtít po iloc[] něco víc než občasný pohled na konkrétní data je cesta do pekel.

PS: Kromě toho se můžete k datům dostat i jen pomocí [], pak ale často operujete nad jejich kopií, nebo také pseudometody .loc[], která operuje přímo nad originálními daty. Více viz tato debata na SO.