Data a parametry
Reprezentant - Bogdan Buliakov
Parametry úlohy byly spočtěny následovně:
K = den narození reprezentanta skupiny - 23 L = počet písmen v příjmení reprezentanta - 8 (BULIAKOV)
Podle uvedeného vzorce jsme definovali datový soubor č. 1, jako soubor 013.txt a datový soubor č. 2, jako 014.txt
Nastavení
Z obou datových souborů načteme texty k analýze. Pro každý text zvlášť zjistime absolutní četnosti jednotlivých znaků (symbolů včetně mezery), které se v textech vyskytují pomocí výše popsaných funkcí.
Výsledky pro první text
Výsledky pro druhý text
1. Za předpokladu výše odhadněte matici přechodu markovského řetězce pro první text. Pro odhad matice přechodu vizte přednášku 17. Odhadnuté pravděpodobnosti přechodu vhodně graficky znázorněte, např. použitím heatmapy.
Odhadneme matici přechodu markovského řetězce pro první text a odhadnuté pravděpodobnosti přechodu vhodně graficky znázorneme pomocí výše popsaných funkcí.
Součet v každem řádku pro kontrolu:
2. Na základě matice z předchozího bodu najděte stacionární rozdělení 𝜋 tohoto řetězce pro první text.
Výsledky pro první text
3. Porovnejte rozdělení znaků druhého textu se stacionárním rozdělením 𝜋 , tj. na hladině významnosti 5 % otestujte hypotézu, že rozdělení znaků druhého textu se rovná rozdělení 𝜋 z předchozího bodu.
Spočítáme testovou statistiku.
Dále, abychom otestovali hypotézu, musíme najít kritickou hodnotu. K tomu použijeme knihovnu scipy.stats k výpočtu kritické hodnoty pro test chí-kvadrát na hladině významnosti alfa = 0,05. Kritická hodnota se vypočítá pomocí funkce stats.chi2.ppf(). https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html Tato funkce se používá k určení kritické hodnoty pro test chí-kvadrát na dané hladině významnosti (5%) a odpovídajících stupňů volnosti.
Pokud Testová statistika = 127.917 a Kritická hodnota= 37.652
127.917> 37.652=>
Určení p-hodnoty testu
K určení p-hodnoty také použijeme knihovnu scipy.stats.
Najdeme p-hodnotu pomocí scipy.stats.chi2.sf - survival function (1 - cdf)