1. Z obou datových souborů načtěte texty k analýze. Pro každý text zvlášť odhadněte základní charakteristiky délek slov, tj. střední hodnotu a rozptyl. Graficky znázorněte rozdělení délek slov.
Data a parametry
Reprezentant - Bogdan Buliakov
Parametry úlohy byly spočtěny následovně:
K = den narození reprezentanta skupiny - 23 L = počet písmen v příjmení reprezentanta - 8 (BULIAKOV)
Podle uvedeného vzorce jsme definovali datový soubor č. 1, jako soubor 013.txt a datový soubor č. 2, jako 014.txt
Nastavení
Funkce read_text_from_file se používá ke čtení textu ze souboru
Funkce rel_freq se používá ke výpočtu pravděpodobnosti znaků
Funkce draw_rel_freq se používá ke grafickému znázornění pravděpodobnosti znaků
Funkce delky_vlastnosti se používá k odhadu základních charakteristik délek slov, tj. střední hodnoty a rozptylu. Pro jejich výpočet vytvoříme array delky_slov, ve kterém první sloupec představuje délku každého slova a druhý sloupec představuje frekvenci délky tohoto slova ve vstupním textu.
K odhadu základních charakteristik délek slov použijeme vzorce z Přednášky 9 (Nejužívanější bodové odhady)
Pomocí tohoto vzorce vypočítáme d_s_mean - výběrový průměr (bodový odhad střední hodnoty)
Pomocí tohoto vzorce vypočítáme d_s_dispersion - výběrový rozptyl (bodový odhad rozptylu)
Pomocí tohoto vzorce vypočítáme d_s_var - výběrovou směrodatnou odchylku (bodový odhad směrodatné odchylky)
Funkce draw_delky_slov se používá ke grafickému znázornění rozdělení délek slov
Výsledky pro první text
Text 1: soubor 13
Střední hodnota: 4.507352941176471, Rozptyl: 6.938871575120115, Směrodatna odchylka: 2.634173793643866
Výsledky pro druhý text
Text 2: soubor 14
Střední hodnota: 4.478947368421053, Rozptyl: 5.672076151748995, Směrodatna odchylka: 2.381612090947851
2. Pro každý text zvlášť odhadněte pravděpodobnosti písmen (symbolů mimo mezery), které se v textech vyskytují. Výsledné pravděpodobnosti graficky znázorněte.
Výsledky pro první text
Výsledky pro druhý text
3. Na hladině významnosti 5% otestujte hypotézu, že rozdělení délek slov nezávisí na tom, o který jde text. Určete také p-hodnotu testu.
Test hypotézy o nezávislosti rozdělení délek slov od textu
Abychom tuto hypotézu otestovali, udělejme chí-kvadrát test nezávislosti (Přednáška 12). K tomu si vytvoříme kontingencní tabulku, jak je popsáno v přednášce (Přednáška 12, Test nezávislosti v kontingencních tabulkách) a spočítáme testovou statistiku.
Testová statistika: 240.7757042248807
Dále, abychom otestovali hypotézu, musíme najít kritickou hodnotu. K tomu použijeme knihovnu scipy.stats k výpočtu kritické hodnoty pro test chí-kvadrát na hladině významnosti alfa = 0,05. Kritický obor se vypočítá pomocí funkce stats.chi2.ppf(). Tato funkce se používá k určení kritické hodnoty pro test chí-kvadrát na dané hladině významnosti (5%) a stupních volnosti. (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html)
Kritická hodnota: 6.57063138378934
Protože Testová statistika = 240.776 a Kritická hodnota= 6.571
240.776>6.571 =>
Hypotézu o nezávislosti rozdělení délek slov na textu ZAMÍTNEME.
Určení p-hodnoty testu
K určení p-hodnoty testu také použijeme knihovnu scipy.stats. Najdeme p-hodnotu pomocí kumulativní distribuční funkce (cdf) pro chi-kvadrát statistiku s testovací statistikou a stupni volnosti odpovídající počtu řádků a sloupců v kontingenční tabulce. (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html)
p-hodnota = 0.0
Přesnost je příliš špatná, podívejme na vestavěnou funkci v scipy chi2_contingency (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html)
Testová statistika 240.77570422488068
p-hodnota 2.314146561158492e-43
Můžeme ověřit, že jsme správně našli Testovou statistiku a p-hodnotu.
4. Na hladině významnosti 5% otestujte hypotézu, že se střední délky slov v obou textech rovnají. Určete také p-hodnotu testu.
Test hypotézy o stejné střední délсе slov v obou textech
Abychom tuto hypotézu otestovali, použíjeme Dvouvýběrový t-test – různé rozptyly (Přednáška 11, Dvouvýberový t-test – různé rozptyly).
К tomu musíme vypočítat rozptyl (s_d) a počet stupňů volnosti (n_d).
s_d 0.10038733410428455,
n_d 2483.7286703992704
Dále, jak je popsáno v přednášce, spočítáme testovou statistiku.
Testová statistika 0.2829597280261483
Dále, abychom otestovali hypotézu, musíme najít kritickou hodnotu.
Kritická hodnota 1.9609195671963695
Protože Testová statistika = 0.283 a Kritická hodnota=1.961
0.283<1.961 =>
Hypotézu o stejné střední délсе slov v obou textech NEMŮŽEME zamítnout.
Určení p-hodnoty testu
K určení p-hodnoty testu také použijeme knihovnu scipy.stats. Najdeme p-hodnotu pomocí kumulativní distribuční funkce (cdf) pro t-test s testovací statistikou. (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html)
p-hodnota = 0.7772311440507653
Pro kontrolu můžeme použít vestavěnou funkci scipy.stats.ttest_ind() – jedná se o funkci z knihovny scipy.stats, která provádí t-test dvou nezávislých vzorků (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html)
Testová statistika 0.2829597280261483
p-hodnota 0.7772312881391641
5. Na hladině významnosti 5% otestujte hypotézu, že rozdělení písmen nezávisí na tom, o který jde text. Určete také p-hodnotu testu.
Test hypotézy o nezávislosti rozdělení písmen slov od textu
Abychom tuto hypotézu otestovali, udělejme chí-kvadrát test nezávislosti (Přednáška 12). K tomu si vytvoříme novou kontingencní tabulku, jak je popsáno v přednášce (Přednáška 12, Test nezávislosti v kontingencních tabulkách) a spočítáme testovou statistiku.
Testová statistika: 68.73308895811853
Dále, abychom otestovali hypotézu, musíme najít kritickou hodnotu.
Kritická hodnota: 14.61140763948331
Protože Testová statistika = 68.733 a Kritická hodnota = 14.611
68.733 >14.611=>
Hypotézu nezávislosti rozdělení písmen slov od textu ZAMÍTNEME.
Určení p-hodnoty testu
K určení p-hodnoty také použijeme knihovnu scipy.stats. Najdeme p-hodnotu pomocí kumulativní distribuční funkce (cdf)
p-hodnota = 5.924221902264826e-06
Pro kontrolu můžeme použít vestavěnou funkci stats.chi2_contingency().
Testová statistika 68.73308895811854
p-hodnota 5.924221902233304e-06