Jednoczynnikowa analiza wariancji
Tomasz Bartuś
Termin analiza wariancji w dość mylny sposób określa zestaw metod statystycznych służących do porównania różnic pomiędzy średnimi w wydzielonych w czasie badań grupach. Grupy są jednocześnie dyskretnymi poziomami jakiegoś (być może oddziałującego na populację) czynnika (np. litologii, stratygrafii itp.). Jeżeli można wyróżnić większą ilość czynników, mówi się wtedy o klasyfikacji podwójnej, potrójnej, wielokrotnej. Celem analizy wariancji jest udzielenie odpowiedzi na pytanie, czy wartości badanej przez nas cechy odzwierciedlają wpływ czyników, czy też kształtują się niezależnie od nich (Krawczyk, Słomka, 1982). W literaturze i programach komputerowych analiza wariancji nazywana jest w skrócie analizą ANOVA.
Tab. 1. Wyniki analiz węgli brunatnych:
nr próby |
litologia węgla |
wartość opałowa (Qir [kcal/kg]) (li) |
pokład węgla |
1. | ksylitowy | 2230 | 1 |
2. | detrytowy | 1850 | 2 |
3. | ksylitowy | 1400 | 2 |
4. | bitumiczny | 1850 | 2 |
5. | ksylitowo-detrytowy | 1755 | 3 |
6. | humusowy | 1500 | 1 |
7 | bitumiczny | 958 | 3 |
Interpretacja tabeli:
ilość prób: 7;
ilość czynników: 2 (1. litologia węgla, 2. nr pokładu węgla, z którego pobrano próbkę);
ilość poziomów (grup) czynnika 1: 5 (węgiel: ksylitowy, detrytowy, bitumiczny, ksylitowo - detrytowy, humusowy);
ilość poziomów (grup) czynnika 2: 3 (1, 2 lub 3 pokład węgla);
zmienne niezależne: litologia węgla, pokład węgla;
zmienna zależna: wartość opałowa;
W związku z koniecznością wyodrębnienia porównywanych grup zaistniała konieczność zdefiniowania zmiennych niezależnych (tzw. zmiennych grupujących) i zmiennej zależnej, która podczas badań będzie porównywana w grupach. O analizie wariancji należy myśleć jak o analizie różnic pomiędzy średnimi, choć do ich porównywania nie używa się samych średnich, lecz raczej kilku szacowań różnych wariancji.
ZM. ZALEŻNA |
badany parametr |
ZM. NIEZALEŻNA |
np. płeć, podobszar badań itp. |
Analizę wariancji stosuje się do porównania średnich w 3 lub większej ilości grup. Do porównania średnich w dwóch grupach można jej oczywiście używać, ale wyniki są dokładnie takie jak w przypadku zastosowania znacznie prostszego, testu t-Studenta (służącego do weryfikacji hipotezy zerowej o równości średnich w dwóch populacjach).
Hipoteza zerowa H0 w analizie wariancji głosi, że średnie w porównywanych grupach (populacjach) są równe. Jest to równoważne twierdzeniu o braku wpływu zmiennej niezależnej (np. litologii) na zmienną zależną (np. zawartość minerału A w skale)
W analizie wariancji wykorzystuje się test F Snedecora. Ma on postać ilorazu dwóch niezależnie oszacowanych wariancji. W liczniku F umieszczamy tzw. wariancję międzygrupową, na której maksymalizacji nam zależy. Jest to zróżnicowanie wyników zmiennej zależnej wyjaśniane przez wpływ zmiennej nieależnej. W mianowniku znajduje się tzw. wariancja wewnątrzgrupowa czyli ważona średnia wariancji w poszczególnych grupach. Nazywana jest często wariancją błędu. Wielkość tej wariancji chcielibyśmy z kolei minimalizować, ponieważ jest to ta część całkowitej wariancji zmiennej zależnej, której nie jesteśmy w stanie wyjaśnić efektem wpływu zmiennej niezależnej.
F = wariancja międzygrupowa / wariancja wewnątrzgrupowa