Moduly pro komprimaci a archivaci

Python Jiří Znamenáček Moduly pro komprimaci a archivaci 2016-07-22

Poměrně často potřebuje člověk pracovat s daty v nějakém komprimovaném formátu. Ať už se jedná o soubory (či celé adresářové struktury) zabalené pomocí taru či gzipu nebo třebas o obrazová data uvnitř PNG-obrázku.

Python poskytuje ve standardní knihovně podporu pro několik komprimačních formátů – konkrétně zip, gzip, bz2, lzma a tar. Snad nejhezčí na tom všem je, že s archívy se pracuje téměř úplně stejně snadno jako s obyčejnými soubory.

Tím mám na mysli především použití kontextu with a rozumná výchozí nastavení přepínačů.

Z podporovaných je formát ZIP asi nejrozšířenější mezi různými platformami, začneme proto od něj. V principu se skládá ze dvou částí:

knihovna zlib – podpora pro komprimaci a dekomprimaci dat;
knihovna zipfile – podpora pro komprimaci a dekomprimaci souborů. Pro vlastní práci s daty používá právě knihovnu zlib.

Vzhledem k výchozímu nastavení parametrů je ve většině případů komprimace a dekomprimace binárních dat velmi jednoduchá záležitost:

zlib.compress(data[, level]) – „zabalí“ binární data a vrátí jim odpovídající bajtový objekt. Výchozí úroveň komprimace je standardně 6, ale můžete ji pochopitelně změnit od 0 (žádná) až po 9 (největší, ale také nejpomalejší).
zlib.decompress(data[, wbits[, bufsize]]) – „rozbalí zabalená“ binární data zpět do jejich (bajtové) nekomprimované podoby. Většinu času se o zbývající dva parametry nemusíte zajímat.

>>> xs = bytes("Pirát Pirátovič", encoding="utf-8") >>> xs b'Pir\xc3\xa1t Pir\xc3\xa1tovi\xc4\x8d' >>> import zlib >>> ys = zlib.compress(xs) >>> ys b'x\x9c\x0b\xc8,:\xbc\xb0D!\x00L\xe5\x97e\x1e\xe9\x05\x00O\x80\x08\xc6' >>> zlib.decompress(ys) b'Pir\xc3\xa1t Pir\xc3\xa1tovi\xc4\x8d'

Součástí formátu ZIP je i výpočet kontrolního součtu nad zadanými daty. Knihovna zlib obsahuje dvě metody:

tradiční zlib.crc32(data[, value]) – spočítá Cyclic Redundancy Check nad binárními daty a vrátí ho jako nezáporné (32-bit) číslo. Výchozí hodnota pro parametr value – a tedy startovní hodnota pro výpočet kontrolního součtu – je 0, použití jiného čísla (předchozího CRC) umožňuje průběžně dopočítávat CRC nad posloupností (spojených) vstupů: >>> xs1 = bytes("Pirát", encoding="utf-8") >>> xs2 = bytes("Pirátovič", encoding="utf-8") >>> crc = zlib.crc32(xs1) >>> crc 2613429483 >>> crc = zlib.crc32(xs2, crc) >>> crc 3196918212 >>> zlib.crc32(xs1 + xs2) 3196918212
zlib.adler32(data[, value]) – jako předchozí, ale počítá o něco slabší (byť podstatně rychlejší) kontrolní součet typu Adler-32. Narozdíl od CRC je výchozí hodnotou pro parametr value 1.

PS: Ani jedna z těchto metod není samozřejmě vůbec vhodná pro výpočet hashů, natožpak dokonce pro kryptografii.

Pokud byste byli nuceni pracovat s daty, která by se vám nevlezla najednou do paměti, obsahuje knihovna zlib metody zlib.compressobj() a zlib.decompressobj() se spoustou možností nastavení.

Uvedené metody vrací objekty, které podporují (případnou částečnou) komprimaci a dekomprimaci nad zadanými (binárními) daty. Jednoduchý příklad:

>>> xs = bytes("Pirát Pirátovič", encoding="utf-8") >>> zlib.compress(xs) b'x\x9c\x0b\xc8,:\xbc\xb0D!\x00L\xe5\x97e\x1e\xe9\x05\x00O\x80\x08\xc6' >>> z = zlib.compressobj() >>> z.compress(xs) b'x\x9c' >>> z.flush() b'\x0b\xc8,:\xbc\xb0D!\x00L\xe5\x97e\x1e\xe9\x05\x00O\x80\x08\xc6'

Zde použitá data jsou samozřejmě příliš krátká, aby to celé dávalo rozumný smysl. Pro další metody a jejich použití viz originální dokumentace.

Komprimace pomocí klasického ZIPu není sice zdaleka tak účinná jako jiné (novější) metody, ale narozdíl od většiny jiných se s daty v archívu pracuje velmi snadno – „zabalíte-li“ více souborů (nebo rovnou adresářů), je každý jednotlivý prvek přístupný nezávisle na ostatních.

Narozdíl třeba od komprimací 7zip nebo RAR, které jsou sice podstatně účinnější, ale „vybalení“ souboru „daleko od začátku archívu“ obnáší rozkomprimování celého archívu minimálně po inkriminované místo.

Knihovna zipfile slouží jako rozhraní pro komprimaci/dekomprimaci i u formátů bzip2 a LZMA, kteréžto se staly součástí standardu ZIP v letech 2001, respektive 2006.

Základním objektem pro práci se ZIP-archívy je zipfile.ZipFile. Pomocí něj získáte přístup k již existujícím i nově vytvářeným zip-archívům. Samozřejmostí je použití uvnitř kontextového manažeru, tedy:

from zipfile import ZipFile with ZipFile('spam.zip', 'w') as myzip: myzip.write('eggs.txt')

Objekt typu ZipFile je možno zavést s různými parametry podle typu práce, který vás čeká, a také na něm podle toho volat různé metody.

Plný konstruktor objektu typu ZipFile jest..

    zipfile.ZipFile(
        file,
        mode='r',
        compression=ZIP_STORED,
        allowZip64=True
    )

..což znamená, že se otevírá existující zip-archív pro čtení a je zapnuta podpora pro archívy větší než 2 GB.

Podle typu otevření souboru archívu získáte následující vlastnosti:

r – základní mód, otevře zip-archív pro čtení;
w – otevře zip-archív pro zápis, přičemž pokud uvedený soubor již existoval, jeho obsah bude smazán;
x – otevírá zip-archív pro zápis jako předchozí mód, ale v případě existujícího souboru nic neudělá a vyhodí výjimku FileExistsError;
a – nejzajímavější z módů, umožňuje do již existujícího zip-archívu přidávat nové položky.

Otevřený ZipFile-objekt poskytuje všechny své metody nezávisle na způsobu otevření, což znamená, že pokusíte-li se zavolat například ZipFile.write() na archívu otevřeném jako 'r', se zlou se potážete (konkrétně obdržíte výjimku RuntimeError).

Typy komprimace jsou podporovány následující čtyři:

zipfile.ZIP_STORED – výchozí nastavení, uložení souborů do zip-archívu bez komprimace;
zipfile.ZIP_DEFLATED – původní komprimační schéma formátu ZIP;
zipfile.ZIP_BZIP2 – komprimační metoda bzip2;
zipfile.ZIP_LZMA – komprimační metoda LZMA.

Všimněte si především, že výchozím nastavením je zipfile.ZIP_STORED, tedy práce se zip-archívy bez komprimace. To se může hodit, pokud je třeba poskytnout data v adresářové struktuře v rámci jednoho zip-archívu, ale není třeba (nebo není z výpočetních důvodů možno) objem dat zmenšovat. Typicky to asi ale nebude to, co budete chtít – z hlediska přenositelnosti mezi různými operačními systémy je nejvhodnější volbou asi klasický původní zipfile.ZIP_DEFLATED.

Jeden soubor do archívu přidává metoda ZipFile-objektu write(SOUBOR):

import zipfile with zipfile.ZipFile('soubor.zip', 'w', zipfile.ZIP_DEFLATED) as z: z.write('soubor.txt')

Její chování můžete upravit pomocí dalších dvou nepovinných parametrů:

arcname – jméno použité pro archivovaný soubor uvnitř archívu;
compress_type – změna typu komprese oproti globálnímu zadání (ZipFile(compression)).

Výchozí hodnotou obou je None.

Obzvláště arcname nalezne své uplatnění, nebudou-li cesty k archivovaným souborům zadány relativně (což je ale nepřekvapivě doporučováno).

Jelikož zipfile umí jako nejvyšší jednotku zabalit jeden konkrétní soubor, musíme si pro zabalení adresáře (v příkladu jím jest adresář data) trochu pomoci. Následuje skript předpokládající idealizovaný stav, kdy je adresář k zabalení na stejné úrovni souborového systému jako vlastní skript:

Ne vždy je však možné doporučený požadavek relativnosti cest rozumně dodržet. Pak se nám právě hodí parametr arcname:

Velmi zajímavou možností je posílat do archívu řetězce a „pouze“ jim určit, pod jakým souborovým jménem se v něm mají uložit. K tomu slouží metoda ZipFile-objektu:

writestr(zinfo_or_arcname, ŘETĚZEC)

Důležitým je zde první parametr metody zinfo_or_arcname, který právě určuje, kde řetězcová data skončí. Kromě obyčejného řetězce (určujícího cestu uvnitř archívu stejně jako dříve představený parametr arcname) jím totiž může také být instance objektu zipfile.ZipInfo, který zjednodušeně řečeno drží metadata jednotlivých souborů uvnitř archívu.

Máme-li naopak již existující archív, můžeme se o něm spoustu věcí dozvědět, aniž bychom ho rozbalovali:

Test archívu pomocí ZipFile.testzip():

Pro neporušený archív vrátí None, pro porušený jméno prvního souboru v archívu, u kterého selhala kontrola (kontrola CRC a hlavičky).

Obsah archívu přehledně pomocí ZipFile.printdir():

Pouze jména souborů pomocí ZipFile.namelist():

Informace o souborech v archívu se také dají získat jako objekty typu zipfile.ZipInfo. Máme přitom dvě možnosti – pro všechny soubory najednou nebo pro jeden konkrétní.

Informace o jednotlivých souborech pomocí ZipFile.infolist():

Informace o jednotlivých souborech pomocí ZipFile.getinfo(CESTA):

Data z jednoho konkrétního souboru v archívu můžeme přečíst pomocí metody ZipFile.read(CESTA, pwd=None):

Data jsou vrácena jako bajtový řetězec. Mají-li představovat text, rozkódovat si je musíte sami.

Parametr pwd slouží k případnému přenastavení hesla (případně nastaveného již dříve na globální úrovni pomocí ZipFile.setpassword(pwd)) pro chráněný archív.

Další možností, jak se k datům v archívu dostat, je jednoduše je „rozbalit“ na disk. Jde to buď pro jeden soubor (extract(PRVEK, path=None, pwd=None)) nebo pro všechny (extractall(path=None, members=None, pwd=None)).

Přestože se knihovna zipfile snaží případné absolutní i relativní cesty osekat na zcela místní (a také odstraňuje pro danou platformu neznámé znaky), vřele se NEdoporučuje bezhlavě rozbalovat cizí archívy bez kontroly jejich obsahu!

Obě metody umožňují změnit místo extrakce z aktuálního adresáře na jiný pomocí parametru path a také případně přenastavit heslo (parametr pwd). Metodu extractall() je navíc možno doplnit o podseznam seznamu souborů v archívu vráceného metodou ZipFile.namelist().

Jeden konkrétní soubor:

Vybraných vícero souborů:

Knihovna zipfile toho umí víc (mimo jiné připisovat až 64 kB dlouhé komentáře k archívům pomocí parametru ZipFile.comment nebo balit archívy pythoních zdrojových souborů).

Podobně ZipInfo objekty obsahují spoustu zajímavých informací, především:

['CRC', 'FileHeader', …, 'comment', 'compress_size', 'compress_type', 'create_system', 'create_version', 'date_time', 'external_attr', 'extra', 'extract_version', 'file_size', 'filename', 'flag_bits', 'header_offset', 'internal_attr', 'orig_filename', 'reserved', 'volume']

Pro základní práci uvedené však ale snad stačí.