Měření stromů a informací

Z Základy informatiky pro střední školy
Přejít na: navigace, hledání


sbalit
ikona boxu
Co se naučíš:
  • Spočítat, kolik možností lze rozlišit pomocí daného počtu otázek a naopak.
  • V jakých jednotkách se informace měří, co je to jeden bit informace.
  • Spočítat množství informace v dané zprávě.

Množství informace už umíš porovnávat

Už umíš porovnat, která ze dvou zpráv ti dá víc informace („je 8:12“ ti řekne víc, než „je ráno“). Umíš také posoudit, pomocí jaké otázky se pravděpodobně dozvíš nejvíc (raději se ptát „už bylo poledne?“, nežli „je přesně 8:12?“)).

V téhle kapitole zjistíš, jak lze množství informace ve zprávě vyčíslit přesně. Odhalíš také několik nejdůležitějších poznatků teorie informace. Nejdřív si rozmyslíme, jaké od měření informace očekáváme vlastnosti. Následně s pomocí příkladu na určování denní doby prozkoumáme několik způsobů počítání a postupně dojdeme k tomu správnému.

Tahle kapitola není zrovna čtení do tramvaje a může se stát, že nepochopíš všechno hned. Nic si z toho nedělej a po čase se k textu vrať. Když už budeš vědět, kudy, kam a proč směřuje, bude se ti číst a rozumět mnohem snáz. V každém případě je nutno nakonec vědět, jak se tedy množství informace počítá.

Na konci kapitoly využijeme matematickou funkci logaritmus. Pokud jste ji ještě neprobírali, příslušné pasáže přeskoč a vrať se k nim později.

Kolik otázek na kolik možností?

sbalit
ikona boxu
Úloha: Víc otázek, víc možností
Sbalit
ikona boxu
Výška stromu
Drobné připomenutí: nejvyšší počet otázek potřebných k rozhodnutí podle daného stromu nazýváme také výška stromu. Pokud je strom optimální, odpovídá výška stromu optimálnímu počtu otázek.

Pokud postupujeme nejlépe, jak to jde, odhalíme jednu z šestnácti možností pomocí čtyř otázek. (Kdo si není jistý proč, zastaví se, vráti k předchozí kapitole a prozkoumá, proč právě 4 otázky na 16 možností.)
Z kolika nanejvýš možností si můžeme troufnout zjišťovat správnou, když budeme mít k dispozici o jednu víc, tedy 5 otázek? Vyber správnou možnost a její zdůvodnění.

  1. 16/2=8; Každá další otázka sníží počet zbývajících možností na polovinu, možností bylo 16, z toho polovina je 8.
  2. 16+1=17; Jedna otázka navíc nám umožní zjistit jednu možnost navíc.
  3. (16/4)⋅5=20; Jednou otázkou umíme zjistit nanejvýš 16/4=4 možnosti, otázek máme pět, takže celkem 4*5=20 možností k zjišťování.
  4. 5⋅5=25; Mezi šestnácti možnostmi se rozhodneme pomocí čtyř otázek, což je druhá odmocnina. Pro pět otázek tedy dostáváme 25 možností.
  5. 16⋅2=32; Každá další otázka sníží počet zbývajících možností na polovinu. Díky otázce navíc proto můžeme pracovat s dvojnásobkem možností.
  6. Jiná možnost - jaká, proč?

Ukázat nápovědu
ikona boxu
Nápověda
sbalit
ikona boxu
Úloha: Víc možností, víc otázek

Stejná situace z druhé strany: S kolika otázkami si troufneš hádat jednu možnost z 256 (to je 162)? Vyber správnou možnost.

  1. 4+4=8; 256 možností si můžeme rozdělit na 16 skupin po 16 možnostech. Čtyřmi otázkami určíme jednu ze skupin a dalšími 4 otázkami potom správnou možnost v této skupině.
  2. √256=16; Když byly potřeba 4 otázky pro 16 možností, bude pro 162 možností potřeba 42 otázek.
  3. 4⋅16=64; Když byly potřeba 4 otázky pro 16 možností, bude potřeba 16krát víc otázek pro 16krát víc možností.
  4. 256/2=128; Každá otázka ubere polovinu možností, polovina z 256 je 128.
  5. 4+(256-16)=244; Když byly potřeba 4 otázky pro 16 možností, bude pro dalších 240 možností potřeba dalších 240 otázek.
  6. 256-1=255; Strom pro 16 možností obsahuje 15 otázek, strom pro 256 možností bude obsahovat 255 otázek.
  7. Jiná možnost - jaká, proč?

Ukázat nápovědu
ikona boxu
Nápověda

Od začátku bylo jasné, že z čím většího počtu čísel hledáme to myšlené, tím více bude asi potřeba otázek. Jaký přesně ale ten vztah je? Je nějaký maximální počet možností, který dovedeme rozlišit daným počtem otázek? Dá se vypočítat? Nebo naopak, když známe počet možností, mezi kterými potřebujeme rozlišovat (např. hádáme číslo 0-15, nebo 1-256, nebo jedno z 512 zvířat), můžeme vypočítat, kolik otázek budeme potřebovat?

sbalit
ikona boxu
Úloha: Jaký je vztah mezi počtem potřebných otázek a počtem rozlišitelných možností?

Vytvoř v tabulkovém procesoru pomůcku na určování počtu rozlišitelných možností podle počtu otázek. Např. v jednom sloupci může postupně narůstat počet otázek, ve vedlejším sloupci bude příslušný počet možností.

Ukázat nápovědu
ikona boxu
Nápověda
Sbalit
ikona boxu
Zkratka
Vztah mezi počtem možností a počtem potřebných otázek umíme popsat jako počet postupných vydělení počtu možností dvěma. Znáš matematickou funkci, která právě tohle vyjadřuje?

Kdo poctivě sestrojoval stromy, bezpečně odhalil, jak přijít od počtu otázek k počtu možností a naopak. Jedna otázka rozliší dvě možnosti. Se dvěma otázkami už rozlišíme čtyři možnosti. Každá otázka navíc znamená jedno rozpůlení možností navíc, a umožňuje tak začít s dvojnásobkem možností.

ikona boxu
Pamatuj si:

Máme-li k dispozici n otázek, můžeme při optimálním postupu rozlišit nanejvýš 2n možností.

Sbalit
ikona boxu
Hashtag?

V informatice někdy při počítání značíme "počet" znakem "#", anglicky někdy "number sign". Značka se ale hodí třeba i při psaní poznámek z výuky. Někdy nám totiž ušetří zavádění nového značení. Abychom například nemuseli psát, že n značí počet otázek, můžeme s pomocí # napsat:

#možností = 2#otázek

Zápis je delší, ale srozumitelnější.

Chceme-li naopak zjistit počet potřebných otázek k uhodnutí čísla z daného rozsahu, můžeme spočítat, kolikrát rozsah (počet možností) vydělíme dvěma, než se dobereme k jediné zbývající možnosti.

sbalit
ikona boxu
Úloha: Jak počítat potřebný počet otázek, když máme možností lichý počet?

Zajímá nás, kolik otázek k uhodnutí stačí jistě — tedy i v případě, že se nám vůbec nedaří. Pro příklad uvažujme 23 možností. Kolik je potřeba otázek k uhodnutí jednoho čísla z 23 možných?

Ukázat nápovědu
ikona boxu
Nápověda
Sbalit
ikona boxu
Jak může pro různé počty možností vyjít stejný počet otázek?
23 možností vyžaduje 5 otázek, stejně jako 32 možností (a stejně jako libovolný jiný počet v rozsahu 17-32). Někomu možná připadá zvláštní, že různý počet možností vyžaduje stejný počet otázek. Vyplývá to ze struktury rozhodovacího stromu.

Zamyslete se: Připadá vám zvláštní, že máte dva rodiče, čtyři prarodiče, osm praprarodičů atd.? Není žádná generace, ve které byste měli třeba 3, 5 nebo 7 přímých předků. Na tohle jsme ve skutečnosti zvyklí. Je to přitom totéž. V rozhodovacím stromu, stejně jako v rodokmenu, prvky v další generaci pokaždé zdvojujeme. Jen ve stromech je přidáváme dolů, kdežto v rodokmenech obvykle nahoru.

Tušení, že se možnosti „navíc“ musí někde projevit (i když nejvyšší počet potřebných otázek se neliší), je ale správné. Rozdíl se projeví v počtu potřebných otázek při opakovaném hraní.

Sbalit
ikona boxu
Jiné vyjádření
Kromě „s jednou otázkou navíc rozeznáme dvojnásobek možnosti“ můžeme říct také „s dvojnásobkem otázek rozeznáme druhou mocninu původního počtu možností“.

Všimni si toho nepoměru: přidání jediné otázky umožní zdvojnásobit počet zjistitelných možností. Na 16 možností jsou potřeba 4 otázky, na 32 je třeba 5 otázek. Na 1000 možností stačí 10 otázek, na milion možností stačí 20 otázek. Přitom naivní tipování by otázek vyžadovalo v průměru půl milionu, a s trochou smůly skoro celý milion! Tak jako leckde jinde, i v informatice se chytré postupy nejlépe projeví ve velkých měřítkách.

Graf růstu výšky stromu.svg

Vztah výšky optimálního stromu k počtu listů. Je ti tvar toho grafu povědomý?


Množství informace a počet vyloučených možností

Sbalit
ikona boxu
Množství informace závisí na příjemci
Množství informace ve zprávě není jen vlastnost té zprávy. Je to vlastnost zprávy spolu s příjemcem (stavem jeho znalosti). Když tedy dva různí příjemci uvažují s různými možnostmi (každý ví o skutečnosti něco trochu jiného), může pro ně být informační hodnota stejné zprávy velmi rozdílná. Pokud vím, že je po poledni, neřekne mi už zpráva „Je po Večerníčku“ tolik, jako mému kamarádovi, který to neví.

Podobně se mění množství informace v téže zprávě přijaté opakovaně stejným příjemcem. Prvním přijetím zprávy se něco nového dozví, množství získané informace je kladné. Když ovšem zprávu přijímá znovu, nic nového se v ní nedozví (její obsah už zná z dřívějška), takže je množství přijaté informace nulové.

Už toho o informacích víme poměrně hodně: co jsou zač, jak je efektivně získávat, a jak dlouho to kdy trvá. Jak tedy poměřujeme, která zpráva přináší více informace? Lze množství informace nějak vyčíslit? Kolik jsme se toho dozvěděli přijetím zprávy, můžeme posoudit jako rozdíl mezi tím, kolik jsme toho nevěděli před přijetím zprávy, a tím, kolik toho nevíme po jejím přijetí. Můžeme mluvit o neurčitosti jako o míře, nakolik něco nevíme, neboli kolik možností nám ještě zbývá k vyloučení. Čím více možností, tím méně víme, tím vyšší neurčitost. Budeme tedy hledat vzoreček ve tvaru:

ikona boxu
Pamatuj si:

„množství informace“ = „neurčitost před zprávou“ — „neurčitost po zprávě“

sbalit
ikona boxu
Úloha: Nemám tušení, kolik je hodin

Šel jsem spát neskutečně unavený, spal jsem nevím jak dlouho a probral se v místnosti bez telefonu, hodin, oken či jiného způsobu, jak určit denní dobu. Zajímá mne čas s přesností na minuty.


Otázka: Kolik je možností pro denní dobu s přesností na minuty?

Ukázat nápovědu
ikona boxu
Nápověda



Otázka: Kolik dobrých otázek se dvěma možnými odpověďmi jistě stačí k určení denní doby s přesností na minuty?

Ukázat nápovědu
ikona boxu
Nápověda



Uvažujme následující zprávy:

  1. Je po poledni.
  2. V místní škole ještě probíhá výuka.
  3. Je tři čtvrti na (nějakou) celou.
  4. Je sudá hodina.
  5. Je před Večerníčkem.
  6. Je víc minut než hodin.
  7. Je mezi půl desátou dopoledne a půl šestou večer.
  8. Je tři čtvrti na tři.

Cifernik probiha vyuka.png

A

Cifernik 9 30 17 30.png

B

Cifernik 14 45.png

C

Cifernik pred vecernickem.png

D

Cifernik tri ctvrti.png

E

Cifernik po poledni.png

F

Cifernik vic minut nez hodin.png

G

Cifernik suda hodina.png

H

Otázka: Které zprávě odpovídá který obrázek? Ciferníky jsou 24hodinové, zelená označuje možnou denní dobu podle dané zprávy.

Otázka: Kolik možností uberou jednotlivé výše uvedené zprávy?

Ukázat nápovědu
ikona boxu
Nápověda

Otázka: Jaký podíl zbývajících možností uberou jednotlivé výše uvedené zprávy?

Ukázat nápovědu
ikona boxu
Nápověda

Nezávislé zprávy

Rozbalit
ikona boxu
Podrobnosti pro zájemce: nezávislé zprávy

Požadované vlastnosti měřítka na informace

Rozbalit
ikona boxu
Podrobnosti pro zájemce: požadované vlastnosti měřítka na informace

Jak změřit, kolik toho nevíme?

Rozbalit
ikona boxu
Podrobnosti pro zájemce: jak změřit, kolik toho nevíme?

Měření neurčitosti počtem potřebných otázek splňuje naše podmínky. Navíc dává dobrý smysl: Množství informace ve zprávě odpovídá počtu otázek, které díky zprávě při vylučování možností ušetříme (nebudeme je muset položit). Jinými slovy, pokud chceme příslušný údaj zjistit pokládáním otázek, musíme jich položit právě tolik, kolik je ve zprávě informace.

ikona boxu
Pamatuj si:

„množství informace“ ≈ „otázky předtím“ - „otázky potom“

Pozorný čtenář si všiml, že v zelenomodré tabulce pracujeme s počtem otázek, který jistě stačí k určení času při daných znalostech. Protože ale zbývající možnosti nejsou mocninou čísla 2, bude někdy stačit otázek méně. Naše výpočty jsou tedy zatím pouze přibližné.

Základní jednotka informace

Už víme, jak informaci měřit, ale neřekli jsme si, v jakých jednotkách. Je to ale nasnadě: V počtu odpovědí na otázky. Přitom máme na mysli otázky, které umožňují právě dvě odpovědi. Z hlediska množství informace je jedno, jestli jsou to odpovědi ano a ne, < a , pravda a nepravda, sluníčko a obláček, zapnuto a vypnuto či číslice 1 a 0. Právě ty číslice jsou ale poměrně praktické. Jsou krátké, a lze je podle potřeby používat jako logické hodnoty (pravda a nepravda, technicky potom zapnuto a vypnuto) nebo jako čísla, reprezentující cokoliv, co jsme naměřili nebo očíslovali. Příslušnou jednotku informace už jistě znáš z dřívějška.

ikona boxu
Pamatuj si:

Základní jednotkou informace je bit, z anglického binary digit. Značíme ji malým tiskacím písmenem b. Bit je jedna dvojková číslice, představuje tedy rozhodnutí mezi dvěma možnostmi. Jeden bit informace vyloučí právě polovinu zbylých možností. (Dva bity vyloučí polovinu možností a ze zbytku opět polovinu, takže z původních možností zbyde čtvrtina.)

O bitech se hovoří také v souvislostí s pamětí počítače: bit je místo pro uchování jedné číslice 0 nebo 1, tedy bitu. Je to podobná zkratka, jako když řekneš, že lahev má litr, když chceš říct, že je v ní prázdné místo pro litr nějaké tekutiny. Není to úplně přesné, ale souvislost je jasná a porozumění to nijak nebrání.

Přesné měření

Rozbalit
ikona boxu
Podrobnosti pro zájemce: přesné měření

Shrnutí

ikona boxu

Máme-li k dispozici n otázek, můžeme při optimálním postupu rozlišit nanejvýš 2n možností.

Množství informace odvozujeme od rozdílu v tom, co jsme věděli před jejím přijetím, a co víme po jejím přijetí.


Základní jednotkou informace je bit (značený b), neboli binární číslice. Jeden bit informace vyloučí právě polovinu zbývajících možností. Množství informace v bitech odpovídá počtu otázek, které díky dané informaci nebudeme muset položit.

Množství informace ve zprávě je rovno logaritmu z poměru počtu možností před a po přijetí zprávy.