Analiza korelacji i istotności parametrów¶

Korelacja¶

Badanie istotności wpływu parametrów wejściowych na parametry wyjściowe należy rozpocząć od analizy korelacji poszczególnych parametrów. Sprawdzone mogą zostać trzy podstawowe zależności:

monotoniczna liniowa
monotoniczna nieliniowa
kwadratowa

Współczynnik korelacji Pearsona (zależność monotoniczna liniowa)¶

Najbardziej podstawową miarą określającą czy występuje korelacja liniowa pomiędzy parametrami \(x_i\) i \(y_i\) jest współczynnik korelacji Pearsona:

\[r_p=\frac{\sum_{i=1}^n (x_i-\bar x)(y_i - \bar y)}{\sqrt{\sum_{i=1}^n(x_i-\bar x)^2}\sqrt{\sum_{i=1}^n(y_i-\bar y)^2}}\]

gdzie \(\bar x\) oraz \(\bar y\) oznaczają wartości średnie odpowiednich parametrów.

Można uprościć zapis tego wzoru do

\[r_p=\frac{cov(x,y)}{\sqrt{var(x)var(y)}}\]

gdzie \(x=[x_1, x_2, ...], y=[y_1,y_2,...]\)

Współczynnik korelacji Spearmana (zależność monotoniczna nieliniowa)¶

Współczynnik korelacji rang Spearmana jest bardziej uniwersalny ponieważ pozwala określić siłę korelacji monotonicznej, która może być nieliniowa i wyraża się zależnością:

\[r_s=\frac{\sum_{i=1}^n (R_i-\bar R)(S_i - \bar S)}{\sqrt{\sum_{i=1}^n(R_i-\bar R)^2}\sqrt{\sum_{i=1}^n(S_i-\bar S)^2}}\]

gdzie \(R_i\) oznacza rangę obserwacji \(x_i\), \(S_i\) oznacza rangę obserwacji \(y_i\) oraz \(\bar R\) i \(\bar S\) oznaczają wartości średnie odpowiednich rang \(R_i\) oraz \(S_i\).

Interpretacja wartości współczynnika korelacji¶

Rodzaj korelacji:

\(r_s\) > 0 korelacja dodatnia– gdy wartość X rośnie to Y też
\(r_s\) = 0 brak korelacji– gdy X rośnie to Y czasem rośnie a czasem maleje
\(r_s\) < 0 korelacja ujemna– gdy X rośnie to Y maleje

Siła korelacji:

\(|r_s| < 0.2\) – brak związku liniowego
\(0.2 \leq |r_s| < 0.4\) – słaba zależność
\(0.4 \leq |r_s| < 0.7\) – umiarkowana zależność
\(0.7 \leq |r_s| < 0.9\) – silna zależność
\(|r_s| \geq 0.9\) – bardzo silna zależność

Współczynnik korelacji wielorakiej (kwadratowej)¶

Współczynnik korelacji wielorakiej (kwadratowej) wyznaczany jest na podstawie analizy regresji.

Błąd sumy kwadratów (error sum of squares) \(SSE\) wyznacza się jako

\[SSE = \sum_{i=1}^n (y_i-\hat y_i)^2\]

Po przeprowadzeniu aproksymacji wielomianem drugiego stopnia (czyli wyznaczeniu współczynników \(a_2, a_1, a_0\)) \(\hat y_i\) wyznacza się poprzez podstawienie \(x_i\) do wzoru funkcji aproksymującej

\[\hat y_i = a_2 {x_i}^2 + a_1 x_i + a_0\]

Całkowita suma kwadratów (total sum of squares) \(SST\) to

\[SST = \sum_{i=1}^n (y_i-\bar y)^2\]

Współczynnik korelacji wyznaczany jest z zależności

\[r_q=\sqrt{1-\frac{SSE}{SST}}\]

Testowanie statystyczne istotności współczynnika korelacji¶

Aby określić czy wyznaczony współczynnik korelacji jest istotny statystycznie konieczne jest postawienie hipotezy zerowej

\[H_0: \delta = 0\]

oznaczającej, że nie istnieje korelacja pomiędzy parametrami. Hipoteza alternatywna ma postać

\[H_1: \delta \neq 0\]

Zakłada się, że statystyka przyjmuje rozkład t-Studenta o \(k=n-2\) stopniach swobody i stąd przykładowo dla współczynnika korelacji Pearsona wartość statystyki wynosi

\[t = r_p \sqrt{\frac{n-2}{1-r_p^2}}\]

Wartość statystyki testowej nie może być wyznaczona, gdy \(r_p=1\) lub \(r_p=-1\) albo, gdy \(n<3\).

W pozostałych przypadkach wyznaczoną na jej podstawie wartość \(p\) (odczytana z rozkładu t-Studenta) porównywana jest z założonym poziomem istotności \(\alpha\)

jeżeli \(p \leq \alpha\) to odrzucamy \(H_0\) przyjmując \(H_1\)
jeżeli \(p > \alpha\) to nie ma podstaw do odrzucenia \(H_0\)

Zwykle wybiera się poziom istotności \(\alpha=0.05\), zgadzając się, że w 5% sytuacji odrzucimy hipotezę zerową gdy jest ona prawdziwa.

Analogicznie postępuje się w przypadku pozostałych współczynników korelacji zamiast \(r_p\) podstawiając \(r_s\) lub \(r_q\).