Zakres analiz (zajęcia IV)


Tomasz Bartuś



2.3. Badanie zgodności rozkładów empirycznych z rozkładem normalnym za pomocą testu χ2

Badanie wykorzystuje statystykę χ2 (wzór poniżej), która bada różnice pomiędzy ilością obserwacji przypadających na kolejne klasy szeregu rozdzielczego, a teoretyczną ilością obserwacji wynikającą z weryfikacji hipotezy zerowej (np. spodziewaną ilością obserwacji w rozkładzie normalnym).

Statystyka χ2

gdzie:
Oj - zdarzenia obserwowane [ang. Observed]; (w Tab. 3. wyrażone są ilością elementów próby w poszczególnych przedziałach klasowych (ni))
Ej - zdarzenia spodziewane [ang. Expected].

W jednej z wcześniejszych analiz obliczyliśmy szeregi rozdzielcze dla obu badanych zmiennych (Tab. 1.) teraz wykorzystamy je do badania zgodności rozkładów empirycznych obu zmiennych z rozkładem normalnym. W związku z tym, że nie znamy parametrów hipotetycznego rozkładu normalnego badanych prób, musimy więc skorzystać z oszacowań próbkowych.

Hipoteza zerowa (H0) głosić więc będzie, że zmienne X i Y mają rozkłady zgodne z normalnymi o parametrach: N(, s).

Kolejnym krokiem powinno być obliczenie prawdopodobieństw, że nasze zmienne losowe przyjmą wartości z poszczególnych klas szeregu rozdzielczego. W związku z tym, że tablice statystyczne, w których mamy dystrybuantę rozkładu normalnego, zostały obliczone dla parametrów N(0, 1), jesteśmy zmuszeni do zestandaryzowania granic klas szeregu rozdzielczego. Standaryzacji dokonujemy wykorzystując wzór:

Standaryzacja rozkładu empirycznego do postaci normalnej N(0,1)

Zestandaryzowane górne granice przedziałów klasowych wpisujemy w 4 kolumnie tabeli Tab. 3 (xi max'). Dla uproszczenia przyjmiemy, że dolną granicą pierwszego przedziału klasowego jest -∞, a górną granicą ostatniego przedziału klasowego jest +∞.

Tab.3. Test χ2 normalności rozkładu zmiennej X [aa].
lp xi max ni xi max' F(xi max') pi ei
1 2 3 4 5 6 7
1            
2            
...            
Σ - n - - 1  

Z tablicy dystrybuanty rozkładu normalnego odczytujemy wartości F(xi max'), a następnie ze związku:

pi = F(xi max') - F(xi-1 max')

obliczamy i wpisujemy do tabeli (kolumna 6) odpowiednie prawdopodobieństwa. Z poniższego wzoru możemy teraz obliczyć oczekiwane ilości elementów w każdej klasie:

ei = n pi

Gdy jedna z klas jest zawiera mniej liczebności oczekiwanych (ei) niż 5, klasę tę należy połączyć z sąsiednią np. poprzednią. Nie pozostaje nic, jak tylko obliczyć wartość statystyki χ2 oraz porównać obliczoną wartość z wartością krytyczną dla założonego wcześniej poziomu istotności - α (najczęściej równego 0.05; - co odpowiada marginesowi popełnienia błędu 5%), i odpowiedniej liczby stopni swobody - df (ang: degres of freedom).

Pierwszy czynnik już mamy (α = 0.05). Co do liczby stopni swobody to z definicji wiadomo, że jest to wartość obliczana ze wzoru:

df = k - p - 1

gdzie:
k - ilość klas wziętych do obliczeń,
p - ilość parametrów szacowanych z próby (jeżeli badamy zgodność rozkładu z rozkładem normalnym, wtedy rozkład możemy wyestymować z dwóch parametrów: średniej i odchylenia standardowego).

Na koniec pozostaje jedynie obliczenie wartości statystyki χ2. Liczymy różnice pomiędzy empirycznymi liczebnościami elementów w poszczególnych klasach szeregu rozdzielczego oraz liczebnościami teoretycznymi wynikającymi z dystrybuanty rozkładu normalnego. Podnosimy je do kwadratu, po czym po prostu sumujemy wartości otrzymane dla wszystkich przedziałów szeregu rozdzielczego.

Jeżeli obliczona wartość jest większa lub równa wartości krytycznej testu odczytanej z tablic rozkładu χ2 (dla założonego poziomu istotności (α) i odpowiedniej liczby stopni swobody (df)),

Warunek odrzucenia hipotezy zerowej

... wtedy istnieją podstawy do odrzucenia hipotezy zerowej. Rozkład populacji genralnej badanej cechy ma najprawdopodobniej wyraźne odstępstwa od normalności.

UWAGA: Należy pamiętać, że w związku z tym, że standardowy rozkład normalny N(0, 1) jest symetryczny względem realizacji zmiennej losowej X równej wartości przeciętnej tej zmiennej (m = 0), w tablicach statystycznych przedstawia się wartości dystrybuanty teoretycznej jedynie dla nieujemnych realizacji tej zmiennej. Zgodnie z własnościami dystrybuanty, gdy zmienna losowa przyjmie wartości ujemne, ich dystrybuantę należy obliczyć wg. wzoru:

dystrybuanta od wartości ujemnych F(-xi) = 1 - F(xi)
np.: F(-2) = 1 - F(2)

2.4. Badanie zgodności rozkładów empirycznych z rozkładem normalnym za pomocą testu Kołmogorowa-Smirnowa

Test K-S wykorzystuje statystykę λ, która opiera się na porównaniu dystrybuanty empirycznej (kumulanty) ze stablicowaną dystrybuantą teoretyczną, wynikającą z weryfikowanej hipotezy zerowej H0.

Tak jak w przypadku badania zgodności rozkładu empirycznego z wybranym rozkładem teoretycznym za pomocą testu χ2, tak i tutaj, stawiamy hipotezę zerową (H0):

H0: F(ai') = K(ai') (istnieje zgodność pomiędzy dystrybuantami, a więc i rozkładami: empirycznym i teoretycznym).

W przypadku licznych populacji, do weryfikacji hipotezy zerowej wykorzystuje się rozkład (graniczny) statystyki λ:

Statystyka lambda (test w wersji dla licznych prób

gdzie:
Statystyka Dn (test w wersji dla licznych prób

(dla zbiorów licznych), a dla licznych populacji próby:

dystrybuanta rozkładu empirycznego (test w wersji dla licznych prób)

Wypełniamy Tab. 4.

Tab.4. Test λ normalności rozkładu zmiennej X [aa].
i ai [aa] ai' ni K(ai') F(ai') |K(ai') - F(ai')|
1            
2            
...            
k       1    
Σ - - n - - -

gdzie:
i - nr i-tej klasy,
ai - górna granica i-tej klasy,
ai' - zestandaryzowana górna granica i-tej klasy,
ni - liczebność i-tej klasy,
K(ai') - dystrybuanta rozkładu empirycznego (kumulanta) (wg. wzoru),
F(ai') - dystrybuanta rozkładu teoretycznego (odczytywana z tablic dystrybuanty rozkładu teoretycznego np. normalnego),
|K(ai') - F(ai')|- moduł różnic pomiędzy dystrybuantą empiryczną i teoretyczną.

Z tablic rozkładu (granicznego) λ Kołmogorowa odczytujemy wartość krytyczną statystyki λ dla obranego poziomu istotności (λα). Jeżeli spełniony zostaje warunek:

Warunek odrzucenia hipotezy zerowej

..., wtedy istnieją przesłanki do odrzucenia hipotezy zerowej (H0). Innymi słowy populacja próby nie daje podstaw do stwierdzenia, że populacja generalna charakteryzuje się rozkładem normalnym.

 

 
 

Wstęp:

 
 
 
 

Badanie jednej zmiennej

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Badanie postaci rozkładów

 
 
 
 
 
 
 
 

Testowanie zgodności rozkładów z rozkładem N(0, 1)

 
 
 
 
 
 

Współzależność dwóch cech

 
 
 
 
 
 

Analiza wariancji

 
 
 
 
Analiza wariancji (obliczenia)
 
 
Testy jednorodności wariancji w grupach (testowanie założeń ANOVA)
 
 
 
 
 
 

Analiza danych kierunkowych

 
 
 
 
 
 
 
 
 
 

Dodatki

 
 
 
 

Dane

Dane do ćwiczeń,
UWAGA!:

Dostępnych jest 60 zestawów danych. Każdy zestaw składa się z dwóch dokumentów (.doc) oznaczonych odpowiednio w nazwie pliku litermi "A" lub "B" oraz jednym dokumentem .sta (Statistica 5.0) (Sz. cz. A). W pliku: instrukcja_ST_5.doc zamieszczono szczegółową instrukcję do ćwiczeń autorstwa dr inż. Wojciecha Masteja, a w pliku: Sz-srf.xls dane do wykreślenia map.

Zadania

z rachunku prawdopodobieństwa i statystyki

Zestaw zadań 1 (1-10)
Zestaw zadań 2 (11-16)
Zestaw zadań 3 (17-27)
Zestaw zadań 4 (28-32)
Zestaw zadań 5 (33-43)
Zestaw zadań 6 (44-56)
Zestaw zadań 7 (57-63)
Zestaw zadań 8 (64-69)
Cały zestaw (1-69)
Cały zestaw (1-69)

Dystrybuanty znanych rozkładów

 
 
Rozkład Normalny
 
Rozkład Χ2 (chi kwadrat)
 
Rozkład t-Studenta
 

Kalkulatory dystrybuant

 
 
Rozkład Normalny
 
Rozkład F (Fischera-Snedecora)
 
Rozkład t - Studenta
 
Rozkład Χ2 (chi kwadrat)
 

Inne

 
 
II rok - Metryczka teczki z ćwiczeniami ze statystyki
 

Linki

 
 
Wielojęzyczny słownik statystyczny
 
 
polska wersja Elektronicznego Podręcznika Statystyki - Serwis oprogramowania Statistica
 
 

Wyniki kolokwium

 
 
 
(30.06.08)
 
(26.01.08)
 
(26.01.08)
 
(15.12.07)