1. Z obou datových souborů načtěte texty k analýze. Pro každý text zvlášť odhadněte základní charakteristiky délek slov, tj. střední hodnotu a rozptyl. Graficky znázorněte rozdělení délek slov.
Data a parametry
Reprezentant - Bogdan Buliakov
Parametry úlohy byly spočtěny následovně:
K = den narození reprezentanta skupiny - 23 L = počet písmen v příjmení reprezentanta - 8 (BULIAKOV)
Podle uvedeného vzorce jsme definovali datový soubor č. 1, jako soubor 013.txt a datový soubor č. 2, jako 014.txt
Nastavení
K odhadu základních charakteristik délek slov použijeme vzorce z Přednášky 9 (Nejužívanější bodové odhady)
Pomocí tohoto vzorce vypočítáme d_s_mean - výběrový průměr (bodový odhad střední hodnoty)
Pomocí tohoto vzorce vypočítáme d_s_dispersion - výběrový rozptyl (bodový odhad rozptylu)
Pomocí tohoto vzorce vypočítáme d_s_var - výběrovou směrodatnou odchylku (bodový odhad směrodatné odchylky)
Výsledky pro první text
Výsledky pro druhý text
2. Pro každý text zvlášť odhadněte pravděpodobnosti písmen (symbolů mimo mezery), které se v textech vyskytují. Výsledné pravděpodobnosti graficky znázorněte.
Výsledky pro první text
Výsledky pro druhý text
3. Na hladině významnosti 5% otestujte hypotézu, že rozdělení délek slov nezávisí na tom, o který jde text. Určete také p-hodnotu testu.
Test hypotézy o nezávislosti rozdělení délek slov od textu
Abychom tuto hypotézu otestovali, udělejme chí-kvadrát test nezávislosti (Přednáška 12). K tomu si vytvoříme kontingencní tabulku, jak je popsáno v přednášce (Přednáška 12, Test nezávislosti v kontingencních tabulkách) a spočítáme testovou statistiku.
Dále, abychom otestovali hypotézu, musíme najít kritickou hodnotu. K tomu použijeme knihovnu scipy.stats k výpočtu kritické hodnoty pro test chí-kvadrát na hladině významnosti alfa = 0,05. Kritický obor se vypočítá pomocí funkce stats.chi2.ppf(). Tato funkce se používá k určení kritické hodnoty pro test chí-kvadrát na dané hladině významnosti (5%) a stupních volnosti. (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html)
Protože Testová statistika = 240.776 a Kritická hodnota= 6.571
240.776>6.571 =>
Hypotézu o nezávislosti rozdělení délek slov na textu ZAMÍTNEME.
Určení p-hodnoty testu
K určení p-hodnoty testu také použijeme knihovnu scipy.stats. Najdeme p-hodnotu pomocí kumulativní distribuční funkce (cdf) pro chi-kvadrát statistiku s testovací statistikou a stupni volnosti odpovídající počtu řádků a sloupců v kontingenční tabulce. (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html)
Přesnost je příliš špatná, podívejme na vestavěnou funkci v scipy chi2_contingency (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html)
Můžeme ověřit, že jsme správně našli Testovou statistiku a p-hodnotu.
4. Na hladině významnosti 5% otestujte hypotézu, že se střední délky slov v obou textech rovnají. Určete také p-hodnotu testu.
Test hypotézy o stejné střední délсе slov v obou textech
Abychom tuto hypotézu otestovali, použíjeme Dvouvýběrový t-test – různé rozptyly (Přednáška 11, Dvouvýberový t-test – různé rozptyly).
К tomu musíme vypočítat rozptyl (s_d) a počet stupňů volnosti (n_d).
Dále, jak je popsáno v přednášce, spočítáme testovou statistiku.
Dále, abychom otestovali hypotézu, musíme najít kritickou hodnotu.
Protože Testová statistika = 0.283 a Kritická hodnota=1.961
0.283<1.961 =>
Hypotézu o stejné střední délсе slov v obou textech NEMŮŽEME zamítnout.
Určení p-hodnoty testu
K určení p-hodnoty testu také použijeme knihovnu scipy.stats. Najdeme p-hodnotu pomocí kumulativní distribuční funkce (cdf) pro t-test s testovací statistikou. (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html)
Pro kontrolu můžeme použít vestavěnou funkci scipy.stats.ttest_ind() – jedná se o funkci z knihovny scipy.stats, která provádí t-test dvou nezávislých vzorků (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html)
5. Na hladině významnosti 5% otestujte hypotézu, že rozdělení písmen nezávisí na tom, o který jde text. Určete také p-hodnotu testu.
Test hypotézy o nezávislosti rozdělení písmen slov od textu
Abychom tuto hypotézu otestovali, udělejme chí-kvadrát test nezávislosti (Přednáška 12). K tomu si vytvoříme novou kontingencní tabulku, jak je popsáno v přednášce (Přednáška 12, Test nezávislosti v kontingencních tabulkách) a spočítáme testovou statistiku.
Dále, abychom otestovali hypotézu, musíme najít kritickou hodnotu.
Protože Testová statistika = 68.733 a Kritická hodnota = 14.611
68.733 >14.611=>
Hypotézu nezávislosti rozdělení písmen slov od textu ZAMÍTNEME.
Určení p-hodnoty testu
K určení p-hodnoty také použijeme knihovnu scipy.stats. Najdeme p-hodnotu pomocí kumulativní distribuční funkce (cdf)
Pro kontrolu můžeme použít vestavěnou funkci stats.chi2_contingency().