Jednoczynnikowa analiza wariancji - obliczenia


Tomasz Bartuś



[na podstawie: (Krawczyk, Słomka, 1982)]

Najprostszym przypadkiem, w którym jako metodą badawczą możemy posłużyć się analizą wariancji, jest sytuacja, w której na analizowany zbiór oddziaływuje wyłącznie jeden czynnik o charakterze dyskretnym (np. miejsce opróbowania, ogniwo stratygraficzne, litologia itp.). Mówimy wtedy o jednoczynnikowej analizie wariancji, lub klasyfikacji pojedynczej.

Wyobraźmy sobie n - elementową populację próby, którą możemy podzielić ze względu na jakiś czynnik na p grup (klas). Do każdej z nich trafia pewna liczba ni: 1, 2, 3,..., j obserwacji wyczerpując całkowitą ilość obserwacji w populacji próby (n). Na rysunku umieszczonym poniżej, grupy i nazwane zostały od czterech pierwszych liter alfabetu: A, B, C i D.

Idea obliczeń ANOVA

Reasumując:
ilość grup na które została podzielona populacja próby i = 1 ,2 ,..., p: p
ilość wszystkich obserwacji w populacji próby: n
ilość obserwacji znajdujących się w poszczególnych grupach: ni
średnia wartość badanej cechy w i-tej klasie: i
średnia wartość czynnika w całej populacji próby:

Można założyć, że j-tą próbkową wartość badanej cechy, zakwalifikowaną do i-tej klasy poziomu badanego czynnika, można zawsze przedstawić jako sumę średniej wartości badanej cechy w tej klasie i jakiejś niezależnej zmiennej losowej o rozkładzie N(0, sa), będącej po prostu losowym odchyleniem tej wartości od średniej grupowej (i).

ANOVA

Wartość średnią badanej cechy w i-tej klasie badanego czynnika, można w ten sam sposób przedstawić jako sumę średniej obliczonej dla całej badanej populacji (średnia generalna) i zmiennej losowej będącej odzwierciedleniem odchylenia średniej grupowej od średniej generalnej.

ANOVA

Parametr bi jest więc odzwierciedleniem oddziaływania i-tego poziomu (klasy) badanego czynnika. Łącząc powyższe dwa wzory otrzymujemy:

ANOVA

Analiza wariancji umożliwia wykorzystanie prostego spostrzeżenia. W przypadku istotnego oddziaływania badanego czynnika (np. litologii) na analizowaną cechę (np. gęstość pozorną skał), parametr bi powinien zaznaczać się silniej niż będący odzwierciedleniem zmienności wewnątrzgrupowej - aij. Na podstawie tego spostrzeżenia formułowana jest hipoteza zerowa analizy, która mówi o braku oddziaływania badanego czynnika na wartości badanej cechy.

H0: bi = 0; dla i = 1, 2,..., p

co jest równoważne z:

ANOVA - hipoteza zerowa

Wobec hipotezy alternatywnej, że w przynajmniej jednej z wydzielonych grup średnia istotnie odbiega od innych średnich klasowych.

W tym momencie najlepiej widać, że ANOVA jest w istocie metodą porównywania wielu średnich klasowych. W przypadku ograniczenia liczby klas do dwóch z powodzeniem może być zastąpiona testem t-Studenta równości średnich.

Punktem wyjścia do obliczeń jest spostrzeżenie, że całkowita zmienność badanej cechy (przedstawiona jako suma kwadratów odchyleń badanej cechy od wartości średniej generalnej) może być wyrażona jako suma zmienności międzygrupowej i zmienności wewnątrzgrupowych:

ANOVA zmienność efektu i błędu

gdzie:

średnie grupowe średnia generalna

Dla uproszczenia zwykło się podawać wzór:

SST = SSA + SSR

w którym:
SST - miara całkowitej zmienność badanej cechy w próbie,
SSA - miara wielkość odchyleń średnich klasowych od średniej ogólnej,
SSR - miara wielkości odchyleń poszczególnych obserwacji od średnich klasowych.

SSA jest nazywany często zmiennością międzygrupową lub efektem,
SSR zmiennością wewnątrzgrupową lub błędem.

W celu zweryfikowania hipotezy zerowej o wpływie czynnika na wartości badanej cechy należy obliczyć tzw. średnie kwadraty: MSA i MSR:

średni kwadrat efektu A,
średni kwadrat błędu A

gdzie:
dfA = p - 1
dfR = n - p

W warunkach słuszności hipotezy zerowej, statystyka FA:

ANOVA - statystyka F

ma rozkład F - Snedecora z dfA i dfR stopniami swobody.

Aby zweryfikować hipotezę zerową należy wypełnić tzw. tabelę analizy wariancji (Tab. 1).

Tab. 1. Tabela jednoczynnikowej analizy wariancji
źródło zmienności stopnie swobody sumy kwadratów (SS) średnie kwadraty (MS) wartość statystyki F
między grupami dfA = p - 1 SSA MSA F = MSA / MSR
wewnątrz grup (błąd) dfR = n - p SSR MSR  

Hipotezę zerową odrzucamy jeżeli obliczona wartość statystyki FA spełni nierównność:

FAFα, dfA, dfR

gdzie: Fα (dfA, dfR) - wartość krytyczna statystyki F dla przyjętego poziomu istotności (najczęściej 0,05) i przyjętej liczby stopni swobody (dfA, dfR).

Wartość krytyczną statystyki Fα odczytujemy z tablic statystycznych - dystrybuanty rozkładu F, lub obliczamy.


W ramach ćwiczeń należy przeprowadzić jednoczynnikową analizę wariancji. Obliczenia sprowadzają się do znalezienia: SSA, SSR i ewentualnie dla sprawdzenia SST i wypełnienia tabeli jednoczynnikowej analizy wariancji przedstawionej powyżej.

W celu przeprowadzenia niezbędnych obliczeń, dla każdej z wyłonionych kategorii (grup, klas), w arkuszu kalkulacyjnym należy sporządzić następującą tabelę:

i-ty poziom czynnika A (i-ta klasa)
nr próby xij xij - i (xij - i)2
P16      
P2      
P30      
...      
j      
ni  
i  
 
(i - )2  
 
 

Wstęp:

 
 
 
 

Badanie jednej zmiennej

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Badanie postaci rozkładów

 
 
 
 
 
 
 
 

Testowanie zgodności rozkładów z rozkładem N(0, 1)

 
 
 
 
 
 

Współzależność dwóch cech

 
 
 
 
 
 

Analiza wariancji

 
 
 
 
Analiza wariancji (obliczenia)
 
 
Testy jednorodności wariancji w grupach (testowanie założeń ANOVA)
 
 
 
 
 
 

Analiza danych kierunkowych

 
 
 
 
 
 
 
 
 
 

Dodatki

 
 
 
 

Dane

Dane do ćwiczeń,
UWAGA!:

Dostępnych jest 60 zestawów danych. Każdy zestaw składa się z dwóch dokumentów (.doc) oznaczonych odpowiednio w nazwie pliku litermi "A" lub "B" oraz jednym dokumentem .sta (Statistica 5.0) (Sz. cz. A). W pliku: instrukcja_ST_5.doc zamieszczono szczegółową instrukcję do ćwiczeń autorstwa dr inż. Wojciecha Masteja, a w pliku: Sz-srf.xls dane do wykreślenia map.

Zadania

z rachunku prawdopodobieństwa i statystyki

Zestaw zadań 1 (1-10)
Zestaw zadań 2 (11-16)
Zestaw zadań 3 (17-27)
Zestaw zadań 4 (28-32)
Zestaw zadań 5 (33-43)
Zestaw zadań 6 (44-56)
Zestaw zadań 7 (57-63)
Zestaw zadań 8 (64-69)
Cały zestaw (1-69)
Cały zestaw (1-69)

Dystrybuanty znanych rozkładów

 
 
Rozkład Normalny
 
Rozkład Χ2 (chi kwadrat)
 
Rozkład t-Studenta
 

Kalkulatory dystrybuant

 
 
Rozkład Normalny
 
Rozkład F (Fischera-Snedecora)
 
Rozkład t - Studenta
 
Rozkład Χ2 (chi kwadrat)
 

Inne

 
 
II rok - Metryczka teczki z ćwiczeniami ze statystyki
 

Linki

 
 
Wielojęzyczny słownik statystyczny
 
 
polska wersja Elektronicznego Podręcznika Statystyki - Serwis oprogramowania Statistica
 
 

Wyniki kolokwium

 
 
 
(30.06.08)
 
(26.01.08)
 
(26.01.08)
 
(15.12.07)