Test chi2


Tomasz Bartuś



Test χ2 należy do grupy testów nieparametrycznych. Jego algorytm opiera się na porównaniu częstości zdarzeń wynikających z doświadczenia (empirycznych) ze spodziewanymi. Warunkiem stosowalności testu jest odpowiednio liczna populacja danych. Przyjmuje się, że można go stosować w przypadku populacji większych niż 30 obserwacji. Obostrzenie to wynika z konieczności podziału populacji na klasy i warunku obecności w każdej z klas minimum 5 przypadków (Statistica), (niektórzy (Greń J., 1976) postulują nawet minimum 8 przypadków).

Chi kwadrat

gdzie:
Oj - zdarzenia obserwowane [ang. Observed];
Ej - zdarzenia spodziewane [ang. Expected].


Hipoteza zerowa H0 zakłada, że rozkład zmiennej, którą badamy jest zgodny z danym rozkładem teoretycznym.

PRZYKŁAD
 

Przypuśćmy, że petrograf bada mikroskopowo próbkę cienką jakiejś skały magmowej. Jego zadaniem jest nadanie badanej skale poprawnej nazwy. Do analizy posługuje się planimetrią. Stosując specjalny aparat sprzężony z mikroskopem zlicza 100 kryształów występujących w próbce. Z literatury wiadomo, że w granicie stosunek 4 głównych minerałów ma się do siebie tak jak 4 : 1 : 2 : 3

Mamy odpowiedzieć na pytanie czy badana próbka pozwala na nazwanie SKAŁY granitem?
(skałę w tym momencie traktujemy jako populację generalną, zaś zliczone ilości minerałów jako populację próby).

Stawiamy hipotezę zerową:
H0: Rozkład pomierzonych w skale 100 minerałów jest zgodny z podawanym w literaturze rozkladem dla granitu (4 : 1 : 2 : 3)

My w badaniach statystycznych będziemy oczywiście badać zgodność rozkładów naszych danych z rozkładami normalnym lub logarytmiczno-normalnym.

Obliczamy statystykę χ2 (Tab. 1).

Tab. 1. Obliczenia statystyki χ2
Minerał A B C D Σ
il. obserwowana
[Oj]
35 12 22 31 100
il. spodziewanych
[Ej]
40 10 20 30 100
Oj - Ej -5 2 2 1 -
χ2j = (Oj - Ej)2 / Ej 25/40 4/10 4/20 1/30 Σχ2 = 1,258

Weryfikacja hipotezy zerowej odbywa się przez porównanie ze znanym, stablicowanym rozkładem χ2. W tablicach statystycznych należy sprawdzić ile w naszym przypadku wynosi wartość krytyczna testu. Jest ona zależna od dwóch czynników:

  1. założonego wcześniej poziomu istotności - α (prawdopodobieństwo popełnienia błędu I rodzaju (błąd polegający na odrzuceniu hipotezy zerowej, która w rzeczywistości jest prawdziwa). Określa również maksymalne ryzyko błędu, jakie jesteśmy skłonni zaakceptować. Wybór wartości α zależy od nas i od tego jak dokładnie chcemy weryfikować daną hipotezę, najczęściej przyjmuje się α = 0,05 lub 0,01.
  2. liczby stopni swobody - df (ang: degres of freedom).

Pierwszy czynnik już mamy (α = 0,05). Pozostaje rozpoznanie enigmatycznej nazwy "liczba stopni swobody". Z definicji wiadomo, że jest to wartość obliczana z prostego wzoru:

df = k - p - 1

gdzie:
k - ilość klas wziętych do obliczeń,
p - ilość parametrów szacowanych z próby
(jeżeli badamy zgodność rozkładu z rozkładem normalnym, wtedy rozkład możemy wyestymować z dwóch parametrów: średniej i odchylenia standardowego).

PRZYKŁAD cd
 

W związku z tym, że w naszym przykładzie nie badamy zgodności rozkładu z rozkładem normalnym (ilość szacowanych parametrów z próby był równy 0), wzór na liczbę stopni swobody przybiera nieco zmienioną postać, a mianowicie: df = k - 1. Tak więc dla nas:
α = 0,05
df = 4 - 1 = 3

dla powyższych parametrów z tablicy odczytujemy lub obliczamy wartość krytyczną testu: χ20.05 = 7,815.

W związku z tym, że nasza wartość testu χ2 wyniosła 1,258 i co za tym idzie spełniony jest warunek:
χ2 < χ20,05, należy stwierdzić, że:
NIE MA PODSTAW DO ODRZUCENIA HIPOTEZY ZEROWEJ H0.
Innymi słowy:
z prawdopodobieństwem 95% można powiedzić, że badana skała jest granitem.

W praktyce badawczej najczęściej spotykamy się z koniecznością zbadania zgodności rozkładów prób z rozkładem normalnym lub lognormalnym. Pakiet Statistica poza informacją na temat wartości testu χ2, podaje także liczbę stopni swobody (df) oraz prawdopodobieństwo p, które można zinterpretować jako prawdopodobieństwo błędu, popełnianego w momencie odrzucenia hipotezy zerowej (mówiącej o zgodności rozkładu próby z jednym z rozkładów teoretycznych).
Tak więc błąd związany z odrzuceniem hipotezy wynosi p ⋅ 100%.

  • Jeżeli pα (α = 0,05) ⇒ Brak podstaw do odrzucenia hipotezy zerowej;
  • Jeżeli p < α ⇒ hipotezę zerową odrzucamy;
 
 

Wstęp:

 
 
 
 

Badanie jednej zmiennej

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Badanie postaci rozkładów

 
 
 
 
 
 
 
 

Testowanie zgodności rozkładów z rozkładem N(0, 1)

 
 
 
 
 
 

Współzależność dwóch cech

 
 
 
 
 
 

Analiza wariancji

 
 
 
 
Analiza wariancji (obliczenia)
 
 
Testy jednorodności wariancji w grupach (testowanie założeń ANOVA)
 
 
 
 
 
 

Analiza danych kierunkowych

 
 
 
 
 
 
 
 
 
 

Dodatki

 
 
 
 

Dane

Dane do ćwiczeń,
UWAGA!:

Dostępnych jest 60 zestawów danych. Każdy zestaw składa się z dwóch dokumentów (.doc) oznaczonych odpowiednio w nazwie pliku litermi "A" lub "B" oraz jednym dokumentem .sta (Statistica 5.0) (Sz. cz. A). W pliku: instrukcja_ST_5.doc zamieszczono szczegółową instrukcję do ćwiczeń autorstwa dr inż. Wojciecha Masteja, a w pliku: Sz-srf.xls dane do wykreślenia map.

Zadania

z rachunku prawdopodobieństwa i statystyki

Zestaw zadań 1 (1-10)
Zestaw zadań 2 (11-16)
Zestaw zadań 3 (17-27)
Zestaw zadań 4 (28-32)
Zestaw zadań 5 (33-43)
Zestaw zadań 6 (44-56)
Zestaw zadań 7 (57-63)
Zestaw zadań 8 (64-69)
Cały zestaw (1-69)
Cały zestaw (1-69)

Dystrybuanty znanych rozkładów

 
 
Rozkład Normalny
 
Rozkład Χ2 (chi kwadrat)
 
Rozkład t-Studenta
 

Kalkulatory dystrybuant

 
 
Rozkład Normalny
 
Rozkład F (Fischera-Snedecora)
 
Rozkład t - Studenta
 
Rozkład Χ2 (chi kwadrat)
 

Inne

 
 
II rok - Metryczka teczki z ćwiczeniami ze statystyki
 

Linki

 
 
Wielojęzyczny słownik statystyczny
 
 
polska wersja Elektronicznego Podręcznika Statystyki - Serwis oprogramowania Statistica
 
 

Wyniki kolokwium

 
 
 
(30.06.08)
 
(26.01.08)
 
(26.01.08)
 
(15.12.07)