Analiza korelacji i istotności parametrów

Korelacja

Badanie istotności wpływu parametrów wejściowych na parametry wyjściowe należy rozpocząć od analizy korelacji poszczególnych parametrów. Sprawdzone mogą zostać trzy podstawowe zależności:

  • monotoniczna liniowa
  • monotoniczna nieliniowa
  • kwadratowa

Współczynnik korelacji Pearsona (zależność monotoniczna liniowa)

Najbardziej podstawową miarą określającą czy występuje korelacja liniowa pomiędzy parametrami xi i yi jest współczynnik korelacji Pearsona:

rp=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2ni=1(yiˉy)2

gdzie ˉx oraz ˉy oznaczają wartości średnie odpowiednich parametrów.

Można uprościć zapis tego wzoru do

rp=cov(x,y)var(x)var(y)

gdzie x=[x1,x2,...],y=[y1,y2,...]

Współczynnik korelacji Spearmana (zależność monotoniczna nieliniowa)

Współczynnik korelacji rang Spearmana jest bardziej uniwersalny ponieważ pozwala określić siłę korelacji monotonicznej, która może być nieliniowa i wyraża się zależnością:

rs=ni=1(RiˉR)(SiˉS)ni=1(RiˉR)2ni=1(SiˉS)2

gdzie Ri oznacza rangę obserwacji xi, Si oznacza rangę obserwacji yi oraz ˉR i ˉS oznaczają wartości średnie odpowiednich rang Ri oraz Si.

Interpretacja wartości współczynnika korelacji

Rodzaj korelacji:

  • rs > 0 korelacja dodatnia– gdy wartość X rośnie to Y też
  • rs = 0 brak korelacji– gdy X rośnie to Y czasem rośnie a czasem maleje
  • rs < 0 korelacja ujemna– gdy X rośnie to Y maleje

Siła korelacji:

  • |rs|<0.2 – brak związku liniowego
  • 0.2|rs|<0.4 – słaba zależność
  • 0.4|rs|<0.7 – umiarkowana zależność
  • 0.7|rs|<0.9 – silna zależność
  • |rs|0.9 – bardzo silna zależność

Współczynnik korelacji wielorakiej (kwadratowej)

Współczynnik korelacji wielorakiej (kwadratowej) wyznaczany jest na podstawie analizy regresji.

Błąd sumy kwadratów (error sum of squares) SSE wyznacza się jako

SSE=ni=1(yiˆyi)2

Po przeprowadzeniu aproksymacji wielomianem drugiego stopnia (czyli wyznaczeniu współczynników a2,a1,a0) ˆyi wyznacza się poprzez podstawienie xi do wzoru funkcji aproksymującej

ˆyi=a2xi2+a1xi+a0

Całkowita suma kwadratów (total sum of squares) SST to

SST=ni=1(yiˉy)2

Współczynnik korelacji wyznaczany jest z zależności

rq=1SSESST

Testowanie statystyczne istotności współczynnika korelacji

Aby określić czy wyznaczony współczynnik korelacji jest istotny statystycznie konieczne jest postawienie hipotezy zerowej

H0:δ=0

oznaczającej, że nie istnieje korelacja pomiędzy parametrami. Hipoteza alternatywna ma postać

H1:δ0

Zakłada się, że statystyka przyjmuje rozkład t-Studenta o k=n2 stopniach swobody i stąd przykładowo dla współczynnika korelacji Pearsona wartość statystyki wynosi

t=rpn21r2p

Wartość statystyki testowej nie może być wyznaczona, gdy rp=1 lub rp=1 albo, gdy n<3.

W pozostałych przypadkach wyznaczoną na jej podstawie wartość p (odczytana z rozkładu t-Studenta) porównywana jest z założonym poziomem istotności α

  • jeżeli pα to odrzucamy H0 przyjmując H1
  • jeżeli p>α to nie ma podstaw do odrzucenia H0

Zwykle wybiera się poziom istotności α=0.05, zgadzając się, że w 5% sytuacji odrzucimy hipotezę zerową gdy jest ona prawdziwa.

Analogicznie postępuje się w przypadku pozostałych współczynników korelacji zamiast rp podstawiając rs lub rq.