NI-VSM-DU-2

1. Z obou datových souborů načtěte texty k analýze. Pro každý text zvlášť odhadněte základní charakteristiky délek slov, tj. střední hodnotu a rozptyl. Graficky znázorněte rozdělení délek slov.

Data a parametry

Reprezentant - Bogdan Buliakov

Parametry úlohy byly spočtěny následovně:

K = den narození reprezentanta skupiny - 23 L = počet písmen v příjmení reprezentanta - 8 (BULIAKOV)

Podle uvedeného vzorce jsme definovali datový soubor č. 1, jako soubor 013.txt a datový soubor č. 2, jako 014.txt

K = 23 L = 8 X = ((K*L*23) % (20)) + 1 Y = ((X + ((K*5 + L*7) % (19))) % (20)) + 1 print('X =', X) print('Y =', Y)

Nastavení

from scipy import stats import numpy as np from matplotlib import pyplot as plt %matplotlib inline

Funkce read_text_from_file se používá ke čtení textu ze souboru

Funkce rel_freq se používá ke výpočtu pravděpodobnosti znaků

Funkce draw_rel_freq se používá ke grafickému znázornění pravděpodobnosti znaků

Funkce delky_vlastnosti se používá k odhadu základních charakteristik délek slov, tj. střední hodnoty a rozptylu. Pro jejich výpočet vytvoříme array delky_slov, ve kterém první sloupec představuje délku každého slova a druhý sloupec představuje frekvenci délky tohoto slova ve vstupním textu.

K odhadu základních charakteristik délek slov použijeme vzorce z Přednášky 9 (Nejužívanější bodové odhady)

Pomocí tohoto vzorce vypočítáme d_s_mean - výběrový průměr (bodový odhad střední hodnoty)

Pomocí tohoto vzorce vypočítáme d_s_dispersion - výběrový rozptyl (bodový odhad rozptylu)

Pomocí tohoto vzorce vypočítáme d_s_var - výběrovou směrodatnou odchylku (bodový odhad směrodatné odchylky)

Funkce draw_delky_slov se používá ke grafickému znázornění rozdělení délek slov

class VSM: def __init__(self): super().__init__() self.text = "" self.text_code = [] self.letters_codes = [] self.letters_counts = [] self.letters_rel_freq = [] self.letters = [] def read_text_from_file(self, file_str: str): with open(f"{file_str}", 'r') as f: self.text = f.readlines()[1] self.text_code = list([ord(x) for x in self.text]) def rel_freq(self): self.letters_codes, self.letters_counts = np.unique(self.text_code, return_counts=True) self.letters_codes = self.letters_codes[1:] self.letters_counts = self.letters_counts[1:] self.letters_rel_freq = self.letters_counts / np.sum(self.letters_counts) self.letters = [chr(int(c)) for c in self.letters_codes] return list(zip(self.letters, self.letters_rel_freq)) def draw_rel_freq(self): fig, ax = plt.subplots() ax.bar(np.arange(len(self.letters)), self.letters_rel_freq) fig.tight_layout() plt.xticks(ticks=np.arange(len(self.letters)), labels=self.letters) plt.title("Probability of letter in text") plt.xlabel("Letters") plt.ylabel("Probability") #display(fig) def delky_vlastnosti(self): delky = {} words = self.text.split(' ') self.delky_slov_syrove = [] for word in words: self.delky_slov_syrove.append(len(word)) try: delky[len(word)] += 1 except KeyError: delky[len(word)] = 1 self.delky_slov = np.array(list(delky.items())) self.d_s_N = np.sum(self.delky_slov[:, 1]) self.d_s_mean = np.sum(self.delky_slov[:, 0] * self.delky_slov[:, 1] )/ np.sum(self.delky_slov[:, 1]) self.d_s_dispersion = np.sum((self.delky_slov[:, 0] - self.d_s_mean)**2 * self.delky_slov[:, 1]) / (self.d_s_N - 1) self.d_s_var = np.sqrt(self.d_s_dispersion) def draw_delky_slov(self): fig, ax = plt.subplots() x = np.arange(np.max(self.delky_slov[:, 0])) + 1 y = np.zeros(x.shape[0]) for r in self.delky_slov: y[r[0]-1] = r[1] ax.bar(x, y) ax.errorbar(self.d_s_mean, 20, xerr=self.d_s_var, elinewidth=2, capsize = 5, capthick=2, c="orange") ax.scatter(self.d_s_mean, 20, s=60, c="orange" , label = "střední hodnota") fig.tight_layout() plt.title("Distribution of word lengths") plt.xlabel("Word lengths") plt.ylabel("Frequency") plt.legend()

Výsledky pro první text

print(f"Text 1: soubor {X}") vsm1 = VSM() vsm1.read_text_from_file(f"{str(X).zfill(3)}.txt") vsm1.delky_vlastnosti() print(f"Střední hodnota: {vsm1.d_s_mean}, Rozptyl: {vsm1.d_s_dispersion}, Směrodatna odchylka: {vsm1.d_s_var}" ) vsm1.draw_delky_slov()

Výsledky pro druhý text

print(f"Text 2: soubor {Y}") vsm2 = VSM() vsm2.read_text_from_file(f"{str(Y).zfill(3)}.txt") vsm2.delky_vlastnosti() print(f"Střední hodnota: {vsm2.d_s_mean}, Rozptyl: {vsm2.d_s_dispersion}, Směrodatna odchylka: {vsm2.d_s_var}") vsm2.draw_delky_slov()

2. Pro každý text zvlášť odhadněte pravděpodobnosti písmen (symbolů mimo mezery), které se v textech vyskytují. Výsledné pravděpodobnosti graficky znázorněte.

Výsledky pro první text

vsm1.rel_freq() vsm1.draw_rel_freq()

Výsledky pro druhý text

vsm2.rel_freq() vsm2.draw_rel_freq()

3. Na hladině významnosti 5% otestujte hypotézu, že rozdělení délek slov nezávisí na tom, o který jde text. Určete také p-hodnotu testu.

Test hypotézy o nezávislosti rozdělení délek slov od textu

Abychom tuto hypotézu otestovali, udělejme chí-kvadrát test nezávislosti (Přednáška 12). K tomu si vytvoříme kontingencní tabulku, jak je popsáno v přednášce (Přednáška 12, Test nezávislosti v kontingencních tabulkách) a spočítáme testovou statistiku.

d_s_konv_tabulka = np.zeros(( np.max((np.max(vsm1.delky_slov[:, 0]), np.max(vsm2.delky_slov[:, 0]))), 2)) for i in range(d_s_konv_tabulka.shape[0]): try: d_s_konv_tabulka[i, 0] = vsm1.delky_slov[i, 1] except IndexError: pass try: d_s_konv_tabulka[i, 1] = vsm2.delky_slov[i, 1] except IndexError: pass test_stat = 0 n = np.sum(d_s_konv_tabulka) for i in range(d_s_konv_tabulka.shape[0]): for j in range(d_s_konv_tabulka.shape[1]): NNn = np.sum(d_s_konv_tabulka[i, :]) * np.sum(d_s_konv_tabulka[:, j]) / n test_stat += (d_s_konv_tabulka[i, j] - NNn)**2 / NNn print("Testová statistika:", test_stat)

Dále, abychom otestovali hypotézu, musíme najít kritickou hodnotu. K tomu použijeme knihovnu scipy.stats k výpočtu kritické hodnoty pro test chí-kvadrát na hladině významnosti alfa = 0,05. Kritický obor se vypočítá pomocí funkce stats.chi2.ppf(). Tato funkce se používá k určení kritické hodnoty pro test chí-kvadrát na dané hladině významnosti (5%) a stupních volnosti. (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html)

alpha = 0.05 krit_hodnota = stats.chi2.ppf(alpha, (d_s_konv_tabulka.shape[0]-1)*(d_s_konv_tabulka.shape[1]-1)) print("Kritická hodnota:",krit_hodnota)

Protože Testová statistika = 240.776 a Kritická hodnota= 6.571

240.776>6.571 =>

Hypotézu o nezávislosti rozdělení délek slov na textu ZAMÍTNEME.

Určení p-hodnoty testu

K určení p-hodnoty testu také použijeme knihovnu scipy.stats. Najdeme p-hodnotu pomocí kumulativní distribuční funkce (cdf) pro chi-kvadrát statistiku s testovací statistikou a stupni volnosti odpovídající počtu řádků a sloupců v kontingenční tabulce. (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2.html)

print(f"p-hodnota = {1.0 - stats.chi2.cdf(test_stat, (d_s_konv_tabulka.shape[0]-1)*(d_s_konv_tabulka.shape[1]-1))}")

Přesnost je příliš špatná, podívejme na vestavěnou funkci v scipy chi2_contingency (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html)

# vestavěná funkce pro výpočet p-hodnoty (lepší přesnost pro p) test_stats_fnc, p_hodnota, pocet_stupni_volnosti, tab = stats.chi2_contingency(d_s_konv_tabulka) print(f"Testová statistika {test_stats_fnc} \np-hodnota {p_hodnota}")

Můžeme ověřit, že jsme správně našli Testovou statistiku a p-hodnotu.

4. Na hladině významnosti 5% otestujte hypotézu, že se střední délky slov v obou textech rovnají. Určete také p-hodnotu testu.

Test hypotézy o stejné střední délсе slov v obou textech

Abychom tuto hypotézu otestovali, použíjeme Dvouvýběrový t-test – různé rozptyly (Přednáška 11, Dvouvýberový t-test – různé rozptyly).

К tomu musíme vypočítat rozptyl (s_d) a počet stupňů volnosti (n_d).

s_d = np.sqrt(vsm1.d_s_dispersion / vsm1.d_s_N + vsm2.d_s_dispersion / vsm2.d_s_N) n_d = s_d**4 / ((vsm1.d_s_dispersion / vsm1.d_s_N)**2 / (vsm1.d_s_N-1) + (vsm2.d_s_dispersion / vsm2.d_s_N)**2 / (vsm2.d_s_N-1)) print(f"s_d {s_d}, \nn_d {n_d}")

Dále, jak je popsáno v přednášce, spočítáme testovou statistiku.

test_stat = (vsm1.d_s_mean - vsm2.d_s_mean) / s_d print(f"Testová statistika {test_stat}")

Dále, abychom otestovali hypotézu, musíme najít kritickou hodnotu.

alpha = 0.05 krit_hodnota = stats.t.ppf(1-alpha*0.5, n_d) print(f"Kritická hodnota {krit_hodnota}")

Protože Testová statistika = 0.283 a Kritická hodnota=1.961

0.283<1.961 =>

Hypotézu o stejné střední délсе slov v obou textech NEMŮŽEME zamítnout.

Určení p-hodnoty testu

K určení p-hodnoty testu také použijeme knihovnu scipy.stats. Najdeme p-hodnotu pomocí kumulativní distribuční funkce (cdf) pro t-test s testovací statistikou. (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html)

print(f"p-hodnota = {(1 - stats.t.cdf(np.abs(test_stat), n-1)) * 2}")

Pro kontrolu můžeme použít vestavěnou funkci scipy.stats.ttest_ind() – jedná se o funkci z knihovny scipy.stats, která provádí t-test dvou nezávislých vzorků (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html)

# Jen pro jistotu t, p = stats.ttest_ind(vsm1.delky_slov_syrove, vsm2.delky_slov_syrove, equal_var=False) print(f"Testová statistika {t} \np-hodnota {p}")

5. Na hladině významnosti 5% otestujte hypotézu, že rozdělení písmen nezávisí na tom, o který jde text. Určete také p-hodnotu testu.

Test hypotézy o nezávislosti rozdělení písmen slov od textu

Abychom tuto hypotézu otestovali, udělejme chí-kvadrát test nezávislosti (Přednáška 12). K tomu si vytvoříme novou kontingencní tabulku, jak je popsáno v přednášce (Přednáška 12, Test nezávislosti v kontingencních tabulkách) a spočítáme testovou statistiku.

r_p_konv_tabulka = np.zeros(( np.max((len(vsm1.letters), len(vsm2.letters))), 2)) for i in range(r_p_konv_tabulka.shape[0]): try: r_p_konv_tabulka[i, 0] = vsm1.letters_counts[i] except IndexError: pass try: r_p_konv_tabulka[i, 1] = vsm2.letters_counts[i] except IndexError: pass test_stat = 0 n = np.sum(r_p_konv_tabulka) for i in range(r_p_konv_tabulka.shape[0]): for j in range(r_p_konv_tabulka.shape[1]): NNn = np.sum(r_p_konv_tabulka[i, :]) * np.sum(r_p_konv_tabulka[:, j]) / n test_stat += (r_p_konv_tabulka[i, j] - NNn)**2 / NNn print("Testová statistika:",test_stat)

Dále, abychom otestovali hypotézu, musíme najít kritickou hodnotu.

alpha = 0.05 krit_hodnota = stats.chi2.ppf(alpha, (r_p_konv_tabulka.shape[0]-1)*(r_p_konv_tabulka.shape[1]-1)) print("Kritická hodnota:", krit_hodnota)

Protože Testová statistika = 68.733 a Kritická hodnota = 14.611

68.733 >14.611=>

Hypotézu nezávislosti rozdělení písmen slov od textu ZAMÍTNEME.

Určení p-hodnoty testu

K určení p-hodnoty také použijeme knihovnu scipy.stats. Najdeme p-hodnotu pomocí kumulativní distribuční funkce (cdf)

print(f"p-hodnota = {1.0 - stats.chi2.cdf(test_stat, (r_p_konv_tabulka.shape[0]-1)*(r_p_konv_tabulka.shape[1]-1))}")

Pro kontrolu můžeme použít vestavěnou funkci stats.chi2_contingency().

# vestavěná funkce pro výpočet p-hodnoty (pro jistotu) test_stats_fnc, p_hodnota, pocet_stupni_volnosti, tab = stats.chi2_contingency(r_p_konv_tabulka) print(f"Testová statistika {test_stats_fnc} \np-hodnota {p_hodnota}")

.css-hdxizt{color:var(--chakra-colors-fg-neutral-primary);font-weight:var(--chakra-fontWeights-bold);letter-spacing:-0.09px;}Data a parametry

Nastavení

Výsledky pro první text

Výsledky pro druhý text

2. Pro každý text zvlášť odhadněte pravděpodobnosti písmen (symbolů mimo mezery), které se v textech vyskytují. Výsledné pravděpodobnosti graficky znázorněte.

Výsledky pro první text

Výsledky pro druhý text

3. Na hladině významnosti 5% otestujte hypotézu, že rozdělení délek slov nezávisí na tom, o který jde text. Určete také p-hodnotu testu.

Test hypotézy o nezávislosti rozdělení délek slov od textu

Určení p-hodnoty testu

4. Na hladině významnosti 5% otestujte hypotézu, že se střední délky slov v obou textech rovnají. Určete také p-hodnotu testu.

Test hypotézy o stejné střední délсе slov v obou textech

Určení p-hodnoty testu

5. Na hladině významnosti 5% otestujte hypotézu, že rozdělení písmen nezávisí na tom, o který jde text. Určete také p-hodnotu testu.

Test hypotézy o nezávislosti rozdělení písmen slov od textu

Určení p-hodnoty testu

Data a parametry