{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "## Analiza korelacji i istotności parametrów" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Korelacja\n", "\n", "Badanie istotności wpływu parametrów wejściowych na parametry wyjściowe należy rozpocząć od analizy korelacji poszczególnych parametrów. Sprawdzone mogą zostać trzy podstawowe zależności:\n", "\n", "- monotoniczna liniowa\n", "- monotoniczna nieliniowa\n", "- kwadratowa\n", "\n", "#### Współczynnik korelacji Pearsona (zależność monotoniczna liniowa)\n", "Najbardziej podstawową miarą określającą czy występuje korelacja liniowa pomiędzy parametrami $x_i$ i $y_i$ jest współczynnik korelacji Pearsona:\n", "\n", "$$\n", "r_p=\\frac{\\sum_{i=1}^n (x_i-\\bar x)(y_i - \\bar y)}{\\sqrt{\\sum_{i=1}^n(x_i-\\bar x)^2}\\sqrt{\\sum_{i=1}^n(y_i-\\bar y)^2}}\n", "$$\n", "\n", "gdzie $\\bar x$ oraz $\\bar y$ oznaczają wartości średnie odpowiednich parametrów.\n", "\n", "Można uprościć zapis tego wzoru do\n", "\n", "$$\n", "r_p=\\frac{cov(x,y)}{\\sqrt{var(x)var(y)}}\n", "$$\n", "\n", "gdzie $x=[x_1, x_2, ...], y=[y_1,y_2,...]$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Współczynnik korelacji Spearmana (zależność monotoniczna nieliniowa)\n", "\n", "Współczynnik korelacji rang Spearmana jest bardziej uniwersalny ponieważ pozwala określić siłę korelacji monotonicznej, która może być nieliniowa i wyraża się zależnością:\n", "\n", "$$\n", "r_s=\\frac{\\sum_{i=1}^n (R_i-\\bar R)(S_i - \\bar S)}{\\sqrt{\\sum_{i=1}^n(R_i-\\bar R)^2}\\sqrt{\\sum_{i=1}^n(S_i-\\bar S)^2}}\n", "$$\n", "\n", "gdzie $R_i$ oznacza rangę obserwacji $x_i$, $S_i$ oznacza rangę obserwacji $y_i$ oraz $\\bar R$ i $\\bar S$ oznaczają wartości średnie odpowiednich rang $R_i$ oraz $S_i$." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Interpretacja wartości współczynnika korelacji\n", "\n", "Rodzaj korelacji:\n", "\n", "* $r_s$ > 0 korelacja dodatnia– gdy wartość X rośnie to Y też\n", "* $r_s$ = 0 brak korelacji– gdy X rośnie to Y czasem rośnie a czasem maleje\n", "* $r_s$ < 0 korelacja ujemna– gdy X rośnie to Y maleje\n", "\n", "Siła korelacji:\n", "\n", "* $|r_s| < 0.2$ – brak związku liniowego\n", "* $0.2 \\leq |r_s| < 0.4$ – słaba zależność\n", "* $0.4 \\leq |r_s| < 0.7$ – umiarkowana zależność\n", "* $0.7 \\leq |r_s| < 0.9$ – dość silna zależność\n", "* $|r_s| \\geq 0.9$ – bardzo silna zależność" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Współczynnik korelacji kwadratowej\n", "\n", "Współczynnik korelacji kwadratowej wyznaczany jest na podstawie analizy regresji. \n", "\n", "Błąd sumy kwadratów (error sum of squares) $SSE$ wyznacza się jako\n", "\n", "$$\n", "SSE = \\sum_{i=1}^n (y_i-\\hat y_i)^2\n", "$$\n", "\n", "Po przeprowadzeniu aproksymacji wielomianem drugiego stopnia (czyli wyznaczeniu współczynników $a_2, a_1, a_0$) $\\hat y_i$ wyznacza się poprzez podstawienie $x_i$ do wzoru funkcji aproksymującej\n", "\n", "$$\n", "\\hat y_i = a_2 {x_i}^2 + a_1 x_i + a_0 \n", "$$\n", "\n", "Całkowita suma kwadratów (total sum of squares) $SST$ to \n", "\n", "$$\n", "SST = \\sum_{i=1}^n (y_i-\\bar y)^2\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Współczynnik korelacji wyznaczany jest z zależności\n", "\n", "$$\n", "r_q=\\sqrt{1-\\frac{SSE}{SST}}\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Testowanie statystyczne istotności współczynnika korelacji" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Aby określić czy wyznaczony współczynnik korelacji jest istotny statystycznie konieczne jest postawienie **hipotezy zerowej**\n", "\n", "$$\n", "H_0: \\delta = 0\n", "$$\n", "\n", "oznaczającej, że nie istnieje korelacja pomiędzy parametrami. **Hipoteza alternatywna** ma postać \n", "\n", "$$\n", "H_1: \\delta \\neq 0\n", "$$\n", "\n", "Zakłada się, że statystyka przyjmuje rozkład **t-Studenta** o $k=n-2$ stopniach swobody i stąd przykładowo dla współczynnika korelacji Pearsona wartość statystyki wynosi\n", "\n", "$$\n", "t = r_p \\sqrt{\\frac{n-2}{1-r_p^2}}\n", "$$\n", "\n", "Wartość statystyki testowej nie może być wyznaczona, gdy $r_p=1$ lub $r_p=-1$ albo, gdy $n<3$. \n", "\n", "W pozostałych przypadkach wyznaczoną na jej podstawie wartość $p$ (odczytana z rozkładu t-Studenta) porównywana jest z założonym poziomem istotności $\\alpha$ \n", "\n", "* jeżeli $p \\leq \\alpha$ to odrzucamy $H_0$ przyjmując $H_1$\n", "* jeżeli $p > \\alpha$ to nie ma podstaw do odrzucenia $H_0$\n", "\n", "Zwykle wybiera się poziom istotności $\\alpha=0.05$, zgadzając się, że w 5% sytuacji odrzucimy hipotezę zerową gdy jest ona prawdziwa. \n", "\n", "Analogicznie postępuje się w przypadku pozostałych współczynników korelacji zamiast $r_p$ podstawiając $r_s$ lub $r_q$." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Matlab", "language": "matlab", "name": "matlab" }, "language_info": { "codemirror_mode": "octave", "file_extension": ".m", "help_links": [ { "text": "MetaKernel Magics", "url": "https://github.com/calysto/metakernel/blob/master/metakernel/magics/README.md" } ], "mimetype": "text/x-octave", "name": "matlab", "version": "0.15.0" } }, "nbformat": 4, "nbformat_minor": 2 }