Generátory

Python Jiří Znamenáček Generátory 2011-04-28

Naprosto typickým prvkem funkcionálního programování je vytváření (potenciálně i nekonečných) struktur, z nichž se vrací pouze ta část, která je aktuálně vyžadována, a nic dalšího se (zatím) nepočítá.

V Python'u se funkcionálním konstruktorům takových objektů říká generátory (v objektové variantě pak iterátory) a vyrábějí se z obyčejných funkcí doplněním alespoň jednoho klíčového slova yield.

Pro průchod generátorem se principielně používá metoda next():

# zavedení generátoru >>> def generátor(): ... yield 'první volání' ... yield 'druhé volání' >>> g = generátor() # průchod generátorem >>> next(g) 'první volání' >>> next(g) 'druhé volání' >>> next(g) Traceback (most recent call last): File "<pyshell#117>", line 1, in <module> next(g) StopIteration

Každé yield „zmrazí“ funkci v aktuálním stavu, a tak při příštím zavolání generátoru se řízení vrátí přesně do tohoto stavu (narozdíl od funkce, která se „spustí“ znovu od začátku).
Dorazí-li generátor na svůj konec (tedy nemůže-li již daným předpisem vygenerovat další člen posloupnosti), vyhodí výjimku StopIteration.

Jsou chvíle, kdy je vyhození výjimky funkcí next() nežádoucí (například při načítání souboru pomocí smyčky while). V takové situaci je možno toto chování přepsat přidáním druhého parametru funkce, který bude vrácen místo výjimky:

Smyčka for-in se o vytvoření příslušné instance generátoru (jakkoli to zní u funkce protismyslně) i automatické ukončení při zachycení výjimky StopIteration postará sama:

>>> def generátor(): ... """Tento generátor je možné zavolat celkem dvakrát.""" ... yield 'první volání' ... yield 'druhé volání' >>> for i in generátor(): ... print(i) první volání druhé volání

Generátor „v akci“ si s sebou nese svůj aktuální pracovní kontext a smyčka for-in ho „nenaboří“, naopak s ním bude pěkně spolupracovat:

>>> def generátor(): ... yield 'první volání' ... yield 'druhé volání' ... yield 'třetí volání' ... yield 'čtvrté volání' >>> g = generátor() >>> next(g) 'první volání' >>> next(g) 'druhé volání' >>> for x in g: ... print(x) třetí volání čtvrté volání

Mezi použitím globální funkce next() pro vyvolání dalšího yieldu a smyčkou for-in pro proiterování generátoru je několik rozdílů:

next() očekává na vstupu konkrétní instanci generátoru, nikoli jeho konstruktor => kód next( g() ) bude vracet pokaždé první yield; pro nejspíše zamýšlené fungování tedy budete chtít provést něco takovéhoto: g = generátor() next(g)
podobně zavolání next() na ukončený generátor (tj. ten, který už nemá co vrátit) vyvolá výjimku StopIteration Což je mimochodem právě ta výjimka, která ukončuje vykonávání smyčky for in.

Narozdíl od next() si tohle všechno smyčka for-in hlídá sama – na vstup jí můžete poslat rovnou konstruktor generátoru a uvedená výjimka je logicky interpretována jako ukončení cyklu.

Na druhou stranu smyčka while nic takového pochopitelně nedělá, takže nepřekvapí, že u ní se můžeme s voláním next() setkat docela často.

Volání vestavěné funkce next() způsobí na pozadí zavolání metody __next__() příslušného generátoru:

>>> def generátor(): ... yield 'první volání' ... yield 'druhé volání' >>> g = generátor() >>> dir(g) ['__class__', '__delattr__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__lt__', '__name__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'close', 'gi_code', 'gi_frame', 'gi_running', 'send', 'throw'] >>> g.__next__() 'první volání' >>> next(g) 'druhé volání' >>> g.__next__() Traceback (most recent call last): File "<pyshell#123>", line 1, in <module> g.__next__() StopIteration

Tohle v kódu nebude chtít jen tak použít, ale naznačuje to přímou souvislost s iterátory.

Zatím jsem moc nezdůraznil, že zavolaný generátor vždy vykoná veškerý dostupný kód, než se zarazí po vrácení hodnoty vykonáním příslušného následujícího yield'u:

>>> def generátor(): ... print('Start!') ... yield 1 ... print('Jsme v generátoru…') ... yield 2 ... print('Brzy bude konec.') >>> g = generátor() >>> next(g) Start! 0: 1 >>> next(g) Jsme v generátoru… 1: 2 >>> next(g) Brzy bude konec. Traceback (most recent call last): File "<pyshell#5>", line 1, in <module> next(g) StopIteration

Asi nejdůležitější je si uvědomit, že se to především týká veškerého kódu před prvním yield'em. To znamená, že zavolání funkce „konstruktoru“ dekorátoru nezačne automaticky vykonávat v ní (resp. v něm) obsažený kód – to obstará až první zavolání funkce next().

Přestože funkce obsahující místo return slovo yield fakticky slouží jako konstruktor generátoru (aneb jejím zavoláním je vytvořen objekt úplně jiného typu – místo vrácené hodnoty dostaneme generátor), není žádný důvod, proč by nemohla přijímat vstupní parametry. Příklad:

>>> def lichá_čísla(od=1): ... číslo = od - 2 ... while True: ... číslo += 2 ... yield číslo >>> g = lichá_čísla(11) >>> next(g) 9: 11 >>> next(g) 10: 13

Typický generátor někdy skončí, tj. od jistého okamžiku už nebude počítat další hodnoty. Z hlediska příslušné funkce tedy uvedený kód někdy doběhne do svého konce:

# Generátor.. def reverse(data): for index in range(len(data)-1, -1, -1): yield data[index] # ..při použití.. for char in reverse('Ahoj!'): print(char) # ..vrací: ! j o h A Upraveno podle dokumentace. Zde ukončení zajistí zjevně smyčka for-in přes objekt rozsahu – jakmile se (zjevně konečný) rozsah vyčerpá, cyklus se ukončí, následně se ukončí generátor a vrátí při tom implicitní None (je to totiž pořád funkce, takže se chová stejně jako ony).

Generátor z předchozího slajdu je konečný díky tomu, že funkce použitá k jeho vytvoření někdy skončí. Přitom konec této funkce je navenek signalizován tím, že se z funkce vrátí hodnota None.

Ačkoli v přechozím příkladě bylo ono vrácení implicitní, můžeme generátor – možná trochu překvapivě – ukončit také explicitním vrácením se z něj pomocí return HODNOTA. Uvedená hodnota je přitom předána jako atribut value příslušné výjimky StopIteration:

A na poslední yield se nepřekvapivě nedostane.

Ale jde to i jinak – generátory podporují své explicitní ukončení také pomocí metody close():

>>> def lichá_čísla(od): ... číslo = od - 2 ... while True: ... číslo += 2 ... yield číslo >>> g = lichá_čísla(11) >>> next(g) 9: 11 >>> next(g) 10: 13 >>> g.close() >>> next(g) Traceback (most recent call last): File "<pyshell#33>", line 1, in <module> next(g) StopIteration

Jak jsme už viděli, jedna z mnoha výhod generátorů tkví v tom, že mohou být potenciálně i nekonečné, aniž bychom se museli bát o dostupnou paměť – počítá (a vrací) se z nich jenom to, co je v danou chvíli skutečně potřeba:

>>> def sudá_čísla(): ... číslo = 0 ... while True: ... číslo += 2 ... yield číslo >>> g = sudá_čísla() >>> next(g) 2 >>> next(g) 4 >>> next(g) 6 Samozřejmě si pak musíte dát pozor, abyste se nechytili v nekonečné smyčce ^_^

V Python'u 3.3 přibyla možnost použít konstrukci:

yield from GENERÁTOR

Tato slouží (alespoň než se zamotáme do korutin) k odkázání získání návratové hodnoty na sub-generátor:

Možná to není na první pohled zřejmé, ale takto můžeme snadno generátory řetězit.