Test Kołmogorowa

Home | dydaktyka | statystyka | Test Kołmogorowa - Smirnowa

Test Kołmogorowa - Smirnowa

Tomasz Bartuś

[na podstawie: Krawczyk, Słomka, 1982]

Test Kołmogorowa-Smirnowa (K-S) jest obok testu Χ² drugim, najważniejszym testem badającym zgodność rozkładu empirycznego (próbkowego) z rozkładami teoretycznymi (w szczególności z rozkładem normalnym). W porównaniu z testem Χ² jest obarczony wadą polegającą na braku możliwości jego zastosowania w przypadku badania populacji cechujących się rozkładami dyskretnymi (skokowymi). Niewątpliwą zaletą testu jest zaś możliwość wykorzystania go w trakcie badań rozkładów bardzo nielicznych populacji prób (odmiana testu dla prób o niewielkiej liczebności).

Test K-S wykorzystuje statystykę λ, która opiera się na porównaniu dystrybuanty empirycznej (kumulanty) ze stablicowaną dystrybuantą teoretyczną, wynikającą z weryfikowanej hipotezy zerowej H₀.

Stawiamy hipotezę zerową (H₀):
H₀: F(x_i') = K(x_i') (w przypadku odmiany testu dotyczącej populacji małolicznych), lub:
H₀: F(a_i') = K(a_i') (w przypadku odmiany testu dotyczącej populacji licznych),

W następnym kroku analizy należy wypełnić Tab. 1 lub Tab. 2.

Dla populacji małolicznych:

Tab. 1. Obliczenia dla małolicznych populacji
`i`	`x_i`	`x_i'`	`K(x_i')`	`F(x_i')`	\|`K(x_i')` - `F(x_i')`\|
1
2
...
`n`

gdzie:
i - numer kolejny próby w szeregu pozycyjnym,
x_i - wartość próby z uporządkowanego rosnąco szeregu pozycyjnego,
x_i' - wartość próby, które zostały zestandaryzowane do postaci rozkładu normalnego o parametrach: N(0,1) (zob. UWAGA 1)
K(x_i') - dystrybuanta zestandaryzowanego rozkładu empirycznego wg. wzoru:

dystrybuanta rozkładu empirycznego (test w wersji dla małych prób

gdzie:
i - numer próby w szeregu pozycyjnym,
n - ilość elementów w całej populacji próby,
F(x_i') - wartość dystrybuanty teoretycznej rozkładu N(0, 1), odczytane z tablic statystycznych (zob. UWAGA 2)
|K(x_i') - F(x_i')| - wartości bezwzględne różnic pomiędzy dystrybuantami empirycznymi, a teoretycznymi.

Dla populacji licznych:

Tab. 2. Obliczenia dla licznych populacji
`i`	`a_i`	`a_i'`	`n_i`	`K(a_i')`	`F(a_i')`	\|`K(a_i')` - `F(a_i')`\|
1
2
...
`n`

gdzie:
i - numer kolejny klasy szeregu rozdzielczego,
a_i - górne granice przedziałów klasowych szeregu rozdzielczego,
a_i' - zestandaryzowane górne granice przedziałów klasowych szeregu rozdzielczego,
K(a_i') - dystrybuanta zestandaryzowanego rozkładu empirycznego wg. wzoru:

dystrybuanta rozkładu empirycznego (test w wersji dla licznych prób

gdzie:
n_i - liczebność i - tej klasy szeregu rozdzielczego,
n - ilość elementów w całej populacji próby,
F(a_i') - wartość dystrybuanty teoretycznej rozkładu N(0, 1), odczytane z tablic statystycznych (zob. UWAGA 2)
|K(a_i') - F(a_i')| - wartości bezwzględne różnic pomiędzy dystrybuantami empirycznymi, a teoretycznymi.

W następnym kroku obliczamy statystykę:

dla zbiorów małolicznych:

Statystyka Dn (test w wersji dla małych prób

Statystyka w warunkach prawdziwości hipotezy zerowej (H₀) ma znany, stablicowany rozkład. Hipotezę zerową odrzucamy, gdy obliczona wartość D_n będzie większa lub równa stablicowanej wartości krytycznej na obranym wcześniej poziomie istotności

W przypadku licznych populacji, do weryfikacji hipotezy zerowej wykorzystuje się rozkład (graniczny) statystyki λ

Statystyka lambda (test w wersji dla licznych prób

gdzie:

Statystyka Dn (test w wersji dla licznych prób

Z tablic rozkładu (granicznego) λ Kołmogorowa odczytujemy wartość krytyczną statystyki λ dla obranego poziomu istotności ( λ_α). Jeżeli spełniony zostaje warunek:

..., wtedy istnieją przesłanki do odrzucenia hipotezy zerowej (H₀). Innymi słowy populacja próby nie daje podstaw do stwierdzenia, że populacja generalna charakteryzuje się rozkładem normalnym.

UWAGI

Uwaga 1: STANDARYZACJA ROZKŁADÓW DO POSTACI N(0, 1)

Chcąc porównać dowolny rozkład empiryczny z wybranym rozkładem teoretycznym musimy sięgnąć do tablic statystycznych. Są w nich stablicowane wybrane standardowe rozkłady teoretyczne (np. stadardowy rozkład normalny). Przez standardowe należy rozumieć rozkłady o znanych parametrach (wartości przeciętnej (średniej) i odchyleniu standardowym). W celu umożliwienia porównania rozkładów empirycznego z rozkładami standardowymi, należy przekształcić rozkład empiryczne o parametrach N(m, s) do postaci standardowej N(0, 1) czyli dokonać na nich standaryzacji. Dokonuje się tego przekształcając kolejno wszystkie wartości zmiennej losowej (w przypadku wersji testu dla małej ilości prób) lub granice przedziałów klasowych (w przypadku wersji testu dla znacznej ilości prób) wg. poniższego wzoru:

Standaryzacja rozkładu empirycznego do postaci normalnej N(0,1)

Uwaga 2: WARTOŚCI DYSTRYBUANTY DLA UJEMNYCH WARTOŚCI ZMIENNEJ LOSOWEJ X

W związku z tym, że standardowy rozkład normalny N(0, 1) jest symetryczny względem realizacji zmiennej losowej X równej wartości przeciętnej tej zmiennej (m = 0), w tablicach statystycznych przedstawia się wartości dystrybuanty teoretycznej jedynie dla nieujemnych realizacji tej zmiennej. Zgodnie z własnościami dystrybuanty, gdy zmienna losowa przyjmie wartości ujemne, ich dystrybuantę należy obliczyć wg. wzoru:

F(-x_i) = 1 - F(x_i)
np.: F(-2) = 1 - F(2)

Dostępnych jest 60 zestawów danych. Każdy zestaw składa się z dwóch dokumentów (.doc) oznaczonych odpowiednio w nazwie pliku litermi "A" lub "B" oraz jednym dokumentem .sta (Statistica 5.0) (Sz. cz. A). W pliku: instrukcja_ST_5.doc zamieszczono szczegółową instrukcję do ćwiczeń autorstwa dr inż. Wojciecha Masteja, a w pliku: Sz-srf.xls dane do wykreślenia map.