Analiza korelacji i istotności parametrów¶
Korelacja¶
Badanie istotności wpływu parametrów wejściowych na parametry wyjściowe należy rozpocząć od analizy korelacji poszczególnych parametrów. Sprawdzone mogą zostać trzy podstawowe zależności:
- monotoniczna liniowa
- monotoniczna nieliniowa
- kwadratowa
Współczynnik korelacji Pearsona (zależność monotoniczna liniowa)¶
Najbardziej podstawową miarą określającą czy występuje korelacja liniowa pomiędzy parametrami \(x_i\) i \(y_i\) jest współczynnik korelacji Pearsona:
gdzie \(\bar x\) oraz \(\bar y\) oznaczają wartości średnie odpowiednich parametrów.
Można uprościć zapis tego wzoru do
gdzie \(x=[x_1, x_2, ...], y=[y_1,y_2,...]\)
Współczynnik korelacji Spearmana (zależność monotoniczna nieliniowa)¶
Współczynnik korelacji rang Spearmana jest bardziej uniwersalny ponieważ pozwala określić siłę korelacji monotonicznej, która może być nieliniowa i wyraża się zależnością:
gdzie \(R_i\) oznacza rangę obserwacji \(x_i\), \(S_i\) oznacza rangę obserwacji \(y_i\) oraz \(\bar R\) i \(\bar S\) oznaczają wartości średnie odpowiednich rang \(R_i\) oraz \(S_i\).
Interpretacja wartości współczynnika korelacji¶
Rodzaj korelacji:
- \(r_s\) > 0 korelacja dodatnia– gdy wartość X rośnie to Y też
- \(r_s\) = 0 brak korelacji– gdy X rośnie to Y czasem rośnie a czasem maleje
- \(r_s\) < 0 korelacja ujemna– gdy X rośnie to Y maleje
Siła korelacji:
- \(|r_s| < 0.2\) – brak związku liniowego
- \(0.2 \leq |r_s| < 0.4\) – słaba zależność
- \(0.4 \leq |r_s| < 0.7\) – umiarkowana zależność
- \(0.7 \leq |r_s| < 0.9\) – silna zależność
- \(|r_s| \geq 0.9\) – bardzo silna zależność
Współczynnik korelacji wielorakiej (kwadratowej)¶
Współczynnik korelacji wielorakiej (kwadratowej) wyznaczany jest na podstawie analizy regresji.
Błąd sumy kwadratów (error sum of squares) \(SSE\) wyznacza się jako
Po przeprowadzeniu aproksymacji wielomianem drugiego stopnia (czyli wyznaczeniu współczynników \(a_2, a_1, a_0\)) \(\hat y_i\) wyznacza się poprzez podstawienie \(x_i\) do wzoru funkcji aproksymującej
Całkowita suma kwadratów (total sum of squares) \(SST\) to
Współczynnik korelacji wyznaczany jest z zależności
Testowanie statystyczne istotności współczynnika korelacji¶
Aby określić czy wyznaczony współczynnik korelacji jest istotny statystycznie konieczne jest postawienie hipotezy zerowej
oznaczającej, że nie istnieje korelacja pomiędzy parametrami. Hipoteza alternatywna ma postać
Zakłada się, że statystyka przyjmuje rozkład t-Studenta o \(k=n-2\) stopniach swobody i stąd przykładowo dla współczynnika korelacji Pearsona wartość statystyki wynosi
Wartość statystyki testowej nie może być wyznaczona, gdy \(r_p=1\) lub \(r_p=-1\) albo, gdy \(n<3\).
W pozostałych przypadkach wyznaczoną na jej podstawie wartość \(p\) (odczytana z rozkładu t-Studenta) porównywana jest z założonym poziomem istotności \(\alpha\)
- jeżeli \(p \leq \alpha\) to odrzucamy \(H_0\) przyjmując \(H_1\)
- jeżeli \(p > \alpha\) to nie ma podstaw do odrzucenia \(H_0\)
Zwykle wybiera się poziom istotności \(\alpha=0.05\), zgadzając się, że w 5% sytuacji odrzucimy hipotezę zerową gdy jest ona prawdziwa.
Analogicznie postępuje się w przypadku pozostałych współczynników korelacji zamiast \(r_p\) podstawiając \(r_s\) lub \(r_q\).