Analiza korelacji i istotności parametrów¶
Korelacja¶
Badanie istotności wpływu parametrów wejściowych na parametry wyjściowe należy rozpocząć od analizy korelacji poszczególnych parametrów. Sprawdzone mogą zostać trzy podstawowe zależności:
- monotoniczna liniowa
- monotoniczna nieliniowa
- kwadratowa
Współczynnik korelacji Pearsona (zależność monotoniczna liniowa)¶
Najbardziej podstawową miarą określającą czy występuje korelacja liniowa pomiędzy parametrami xi i yi jest współczynnik korelacji Pearsona:
gdzie ˉx oraz ˉy oznaczają wartości średnie odpowiednich parametrów.
Można uprościć zapis tego wzoru do
gdzie x=[x1,x2,...],y=[y1,y2,...]
Współczynnik korelacji Spearmana (zależność monotoniczna nieliniowa)¶
Współczynnik korelacji rang Spearmana jest bardziej uniwersalny ponieważ pozwala określić siłę korelacji monotonicznej, która może być nieliniowa i wyraża się zależnością:
gdzie Ri oznacza rangę obserwacji xi, Si oznacza rangę obserwacji yi oraz ˉR i ˉS oznaczają wartości średnie odpowiednich rang Ri oraz Si.
Interpretacja wartości współczynnika korelacji¶
Rodzaj korelacji:
- rs > 0 korelacja dodatnia– gdy wartość X rośnie to Y też
- rs = 0 brak korelacji– gdy X rośnie to Y czasem rośnie a czasem maleje
- rs < 0 korelacja ujemna– gdy X rośnie to Y maleje
Siła korelacji:
- |rs|<0.2 – brak związku liniowego
- 0.2≤|rs|<0.4 – słaba zależność
- 0.4≤|rs|<0.7 – umiarkowana zależność
- 0.7≤|rs|<0.9 – silna zależność
- |rs|≥0.9 – bardzo silna zależność
Współczynnik korelacji wielorakiej (kwadratowej)¶
Współczynnik korelacji wielorakiej (kwadratowej) wyznaczany jest na podstawie analizy regresji.
Błąd sumy kwadratów (error sum of squares) SSE wyznacza się jako
Po przeprowadzeniu aproksymacji wielomianem drugiego stopnia (czyli wyznaczeniu współczynników a2,a1,a0) ˆyi wyznacza się poprzez podstawienie xi do wzoru funkcji aproksymującej
Całkowita suma kwadratów (total sum of squares) SST to
Współczynnik korelacji wyznaczany jest z zależności
Testowanie statystyczne istotności współczynnika korelacji¶
Aby określić czy wyznaczony współczynnik korelacji jest istotny statystycznie konieczne jest postawienie hipotezy zerowej
oznaczającej, że nie istnieje korelacja pomiędzy parametrami. Hipoteza alternatywna ma postać
Zakłada się, że statystyka przyjmuje rozkład t-Studenta o k=n−2 stopniach swobody i stąd przykładowo dla współczynnika korelacji Pearsona wartość statystyki wynosi
Wartość statystyki testowej nie może być wyznaczona, gdy rp=1 lub rp=−1 albo, gdy n<3.
W pozostałych przypadkach wyznaczoną na jej podstawie wartość p (odczytana z rozkładu t-Studenta) porównywana jest z założonym poziomem istotności α
- jeżeli p≤α to odrzucamy H0 przyjmując H1
- jeżeli p>α to nie ma podstaw do odrzucenia H0
Zwykle wybiera się poziom istotności α=0.05, zgadzając się, że w 5% sytuacji odrzucimy hipotezę zerową gdy jest ona prawdziwa.
Analogicznie postępuje się w przypadku pozostałych współczynników korelacji zamiast rp podstawiając rs lub rq.