BANER
HOME CV HOBBY BLOG DYDAKTYKA DOKTORAT EFEKTY OFERTA LINKI AGH
ćwiczenia

Wyniki kolokwium:
zaocz.IIIr.GT (30.06.08),
zaocz.Ir.SUM (poprawa) (26.01.08),
zaocz.Ir.GPZ (26.01.08),
zaocz.Ir.SUM (15.12.07),
wszystkie,

STOPKA
Statystyka na piechotę

Statystyka dane do ćwiczeń ze statystyki (II rok)

10, 04, 11, 25, 23, 01, 17, 27, 20, 03, 24, 15, 08, 16, 07, 31, 05, 14, 22, 09, 18, 21, 19, 29, 30, 12, 28, 02, 13, 32, 06, 26, 33,


Spis treści

  1. szeregi rozdzielcze i histogramy,
  2. estymacja punktowa, miary wartości przeciętnej,
  3. estymacja punktowa, miary zmienności,
  4. badanie zgodności rozkładów z rozkładem normalnym,
  5. Estymacja przedziałowa, obliczanie przedziałów ufności dla średniej i odchylenia standardowego,
  6. analiza liniowej regresji i korelacji dwóch zmiennych,
  7. analiza związku danych ilościowych i porządkowych, korelacja rangowa,
  8. jednoczynnikowa analiza wariancji,
STOPKA
Kalkulatory statystyczne
Kalkulatory dystrybuant najważniejszych rozkładów zmiennych losowych ciągłych
F (Fischera-Snedecora)
t - Studenta
Χ2 (chi kwadrat),
STOPKA
Materiały pdf ze statystyki
Dystrybuanta rozkładu Normalnego dokument pdf
Dystrybuanta rozkładu Chi2 dokument pdf
Dystrybuanta rozkładu t Studenta dokument pdf
II rok - Metryczka teczki z ćwiczeniami ze statystyki dokument Corel Draw 8.0
STOPKA
Hobby

GS Surfer:
Surfer Variogram Tutorial (pdf Golden Software);
Anizotropia;

STOPKA
Dydaktyka

- Tworzenie stron www,
- Geologia ogólna,
- Statystyka i Metody matematyczne i informatyczne w geologii,
- Bazy danych,
- Techniki multimedialne w promocji i informacji turystycznej,


- Porady Geomedia Professional & Geomedia Grid,


Studencki humor kolokwialny,

STOPKA

Valid XHTML 1.0 Transitional

Regresja liniowa i korelacja dwóch zmiennych
Wersja do druku

na podstawie:
Greń, 1976, Krawczyk, Słomka, 1982, Swan, Sandilands, 1995,

Niezwykle często w praktyce geologicznej spotykamy się z koniecznością zbadania zmienności przestrzennej jakiegoś parametru geologicznego. Dokumentacja geologiczna jak i bieżące potrzeby podmiotów eksploatujących zasoby geologiczne wymagają gromadzenia danych na temat szeregu różnych parametrów kopaliny. Badania tego typu są zawsze bardzo kosztowne. W celu przynajmniej częściowego ograniczenia tych kosztów stosowana jest często analiza regresji i korelacji. Analiza korelacyjna korzystająca z modelu korelacyjnego pozwala oceniać wartości oczekiwane jednej zmiennej losowej na podstawie pojedynczych reprezentacji innej zmiennej losowej (skorelowanej z pierwszą zmienną). Należy przy tym pamiętać, że skorelowanie to powinno mieć charakter przyczynowo - skutkowy. Czasami można obserwować pozorną zależność między badanymi cechami np. pomiędzy wzrostem ludzi, a IQ (IQ zależy w pewnym stopniu od długości życia ale nie od wzrostu). Badanie współzależności cech nosi nazwę analizy regresji i korelacji.

Cytując (Greń, 1976) Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem związków i zależności pomiędzy rozkładami dwu lub więcej badanych cech w populacji generalnej. Termin regresja dotyczy kształtu zależności pomiędzy cechami. Dzieli się na analizę regresji liniowej i nieliniowej. W przypadku analizy nieliniowej, graficzną reprezentacją współzależności są krzywe wyższego rzędu np. parabola. Pojęcie korelacji dotyczy siły badanej współzależności. Analiza regresji i korelacji może dotyczyć dwóch i większej ilości zmiennych (analiza wieloraka). W tym miejscu zajmować się będziemy jedynie najprostszym przypadkiem regresji prostoliniowej dwóch zmiennych.

Korelacja dwóch zmiennych.

Najważniejszym miernikiem siły związku prostoliniowego między dwiema cechami mierzalnymi jest współczynnik korelacji liniowej Pearsona lub krócej współczynnik korelacji.

Współczynnik korelacji liniowej Pearsona

W liczniku występuje kowariancja (cov(x,y)) będąca średnią arytmetyczną iloczynu odchyleń wartości zmiennych X i Y od ich średnich arytmetycznych.

Kowariancja
Nieintuicyjne wyrażenie (n-1), występujące w mianowniku wzoru na kowariancję wiąże się, tak jak w przypadku wariancji z obciążeniem estymatora. Zastosowanie w mianowniku samego n, wiązałoby się z niedoszacowaniem kowariancji.
Współczynnik korelacji liniowej Pearsona

Współczynnik korelacji liniowej Pearsona mówi o sile i kierunku związku między zmiennymi. Przyjmuje wartości z przedziału [-1;1]. Im jest bliższa zera tym związek jest słabszy. Im bliżej 1 (lub -1), tym związek jest silniejszy. Wartość 1 oznacza idealny związek liniowy (uzyskuje się go często w trakcie przypadkowej analizy korelacyjnej cechy A z A).

Znak współczynnika korelacji mówi o kierunku związku: "+" oznacza związek dodatni, tj. wzrost (spadek) wartości jednej cechy powoduje wzrost (spadek) wartości drugiej (związek wprost proporcjonalny). "-" - kierunek ujemny, tj. wzrost (spadek) wartości cechy powoduje spadek (wzrost) wartości drugiej (związek odwrotnie proporcjonalny). Przyjmuje się następujące oceny siły związku (pamiętając o odpowiedniej liczebności próby):

r siła związku korelacyjnego
0.0 - 0.2 brak
0.2 - 0.4 słaba
0.4 - 0.7 średnia
0.7 - 0.9 silna
0.9 - 1.0 bardzo silna

Współczynnik determinacji

współczynnik determinacji

Jeżeli X będzie zmienną niezależną (objaśniejącą), a Y zmienną zależną (objaśnianą), powiązaną z X zależnością korelacyjną, to odchylenie całkowite (patrz rys. powyżej) punktu o wartości zmiennnej Y=yi od wartości średniej (y średnie) można przedstawić następująco:

W analogiczny sposób, podnosząc do kwadratu obie strony równości i sumując po i = 1, 2,..., n, całkowitą zmienność wszystkich wartości yi możemy określić jako sumę kwadratów. Podniesienie do kwadratu jest konieczne ponmieważ część wartości Y=yi odchyla się od wartości średniej in plus, a część in minus. Tak więc dostaniemy:

Równość ta wyraża podział całkowitej sumy kwadratów odchyleń dla zmiennej y na dwa składniki:

  1. sumę kwadratów odchyleń wyjaśnioną efektem regresji (EFEKT),
  2. resztową sumę kwadratów odchyleń (nie wyjaśnioną regresją) (RESZA).

Dla uproszczenia zapisu równanie powyższe często jest przedstawiane w postaci:

SST = SSE + SSR

gdzie:
SST - zmienność całkowita zmiennej zależnej,
SSE - część zmienności wyjaśniona modelem regresji,
SSR - zmienność przypadkowa (losowa) - suma odchyleń wartości yi od prostej regresji.

Współczynnik determinacji jest opisową miarą dopasowania modelu regresji do danych, czyli miarą siły liniowego związku między danymi. Mierzy on część zmienności zmiennej objaśnianej Y, która została wyjaśniona liniowym oddziaływaniem zmiennej objaśniającej X (lub zmiennych objaśniających w analizie wielorakiej). Oblicza się go ze wzoru:

SST = SSE + SSR     /:SST
1 = SSE / SST + SSR / SST
SSR / SST = 1 - SSE / SST
SSR/SST=1-r2

Wartości 1-r2 mnoży się najczęściej razy 100% i interpretuje, jako procentowy udział całkowitej zmienności zmiennej zależnej Y, który nie został wytłumaczony zmiennością zmiennej objaśniejącej (niezależnej) X (SSR/SST).

W związku z tym, że:

SSE/SST = 1 - SSR/SST

to, procentowy udział zmienności zmiennej zależnej Y wyjaśnienej zmiennością zmiennej niezależnej X (w zmienności całkowitej zmiennej zależnej) wynosił będzie po prostu:

SSE/SST = 1 - (1-r2) = r2

Tak więc kwadrat współczynnika korelacji (współczynnik determinacji) wskazuje jaką część zmienności cechy Y możemy opisać za pomoca zmienności cechy X.

Prosta regresji

Graficzną reprezentacją związku korelacyjnego jest Wykres rozrzutu (diagram korelacyjny).

Korelacja Wtr vs. Ar w węglu brunatnym

Na podstawie wykresu, bez obliczeń współczynnika korelacji, w przybliżony sposób możemy wnioskować o kierunku i sile związku korelacyjnego. Gdy punkty badanej korelacji grupują się wzdłuż hipotetycznej prostej (prosta regresji), przyjmując kształt zbliżony do cygara, świadczy to o znacznej sile związku. Duża ilość punktów odstających od tej prostej, przyjmujących łącznie kształt mniej lub bardziej regularnej chmury, świadczy o słabości badanego związku. Gdy wraz ze wzrostem wartości cechy niezależnej następuje wzrost wartości zmiennej niezależnej mówimy o związku wprostproporcjonalnym. W przeciwnym wypadku, takim jak na wykresie, mamy do czynienia z zależnością odwrotnieproporcjonalną.

Równanie prostej regresji

Zagadnienie modelowania współzależności dwóch badanych cech realizowane jest przez obliczenie równania regresji i obliczenie dla niego interesującego nas (np 95% - owego) przedziału ufności. Gdy wspomniane równanie jest liniowe, mówimy o regresji liniowej, w przeciwnym razie mamy do czynienia z regresją krzywoliniową.

Załóżmy, że znamy wartości zmiennej niezależnej X, natomiast wartości zmiennej zależnej Y są wartościami zmiennej losowej. Ich średnie wartości spełniają równanie:

Dla populacji próby Dla populacji generalnej
równania prostych regresji: Y = aX + b Y = αX + β
współczynniki kierunkowe prostych: a α
współczynniki przesunięcia prostych: b β

Równanie prostej regresji należy tak wymodelować, aby było najlepiej dopasowane do danych empirycznych. Współczynniki a i b są zwykle szacowane metodą najmniejszych kwadratów (MNK), która polega na takim ich doborze, aby suma kwadratów odchyleń rzędnych punktów empirycznych od wykresu prostej regresji była najmniejsza. Współczynniki prostej regresji oblicza się ze wzorów:

współczynnik kierunkowy prostej regresji

Współczynnik przesunięcia prostej regresji (b) szacuje się podstawiając próbkowe oszacowania średnich wartości w populacjach X i Y do wzoru na prostą regresji:

współczynnik przesunięcia prostej regresji

Interpretacja parametru a prostej regresji:
a>0 jeśli "x" wzrośnie o 1 jednostkę, to "y" wzrośnie średnio o "a" jednostek.
a<0 jeśli "x" wzrośnie o 1 jednostkę, to "y" spadnie średnio o "a" jednostek.

Obszar ufności

Oszacowanie parametrów prostej regresji należy do analizy opisowej populacji próby. My jednak z dowolnie dobranym prawdopodobieństwem, chcielibyśmy wiedzieć gdzie leży prawdziwa prosta regresji, ta z populacji generalnej. W związku z tym, że najczęściej nie jesteśmy w stanie przebadać całej populacji, możemy jedynie próbować określić obszar (przedział), w którym, z zadanym prawdopodobioeństwem znajdzie się nasza prosta.

Obszar ufności

Gdzie:

Równanie prostej regresji

tα,df - wartość krytyczna rozkładu t-Studenta dla poziomu istotności α i liczby stopni swobody df=n-2,

Si Sr
Obszary ufności

Szerokość przedziału ufności podobnie jak wariancja rośnie wraz z odchyleniem od punktu środkowego prostej regresji. Obwiednie punktów wyznaczonych przedziałami ufności dla różnych punktów xi nazywamy krzywymi ufności prostej regresji (krzywe Nevmana - krzywe wyznaczające przedziałowe prognozy wartości zmiennej Y dla danego xi). Obszar zawarty między krzywymi ufności nazywamy realizacją obszaru ufności dla prostej regresji na poziomie ufności 1-α.

Testowanie istotności współczynnika korelacji

Ostatnim zagadnieniem, które zostanie tutaj omówione jest odpowiedź na pytanie o istotność współczynnika korelacji liniowej Pearsona. Czy w populacji generalnej zachodzi podobny związek do zaobserwowanego w populacji próby? czy też jest on jedynie dziełem przypadku. Aby to zbadać musimy założyć, że w najgorszym razie obie badane cechy mają rozkłady zbliżone do normalnych (warunek stosowalności poniższego testu). W przypadku znacznych odchyłek od tego założenia istnieje konieczność zastosowania testów nieparametrycznych.

Statystyka testowa wymaga hipotezy zerowej (H0) w brzmieniu: prawdziwa wartość współczynnika korelacji (ta z populacji generalnej) jest równa 0 (r=0), co jest równoważne brakowi korelacji. Do weryfikacji tej hipotezy służy statystyka:

statystyka testowa istotności współczynnika korelacji Pearsona

gdzie:
r - jest próbkową wartością współczynnika korelacji Pearsona,
n - liczebnością próby.

W warunkach słuszności hipotezy zerowej statystyka t ma rozkład t - Studenta z df=(n-2) stopniami swobody.

Z tablic rozkładu t- Studenta [pdf], [kalkulator] odczytujemy dla wcześniej przyjętego poziomu istotności α - wartość krytyczną tn-2,α. Jeżeli obliczona wartość t znajduje w dwustronnym obszarze krytycznym (-∞, -tn-2,α), (tn-2,α, +∞), to H0 należy odrzucić na korzyść hipotezy alternatywnej.

gdy:

|t| ≥ tα - H0 odrzucamy;
|t| < tα - nie ma podstaw do odrzucenia H0.


Ćwiczenia: W ramach ćwiczeń należy obliczyć współczynnik korelacji liniowej Pearsona i równania prostych regresji wszystkich badanych par zmiennych. Należy również obliczyć 95%-wy obszar ufności dla prostej regresji i przetestować istotność współczynnika korelacji. W obliczeniach (jeżeli nie są przy użyciu komputerów pomocna będzie poniższa tabela).

lp xi yi xi-x średnie (xi-x średnie)2 yi-y średnie (yi-y średnie)2 xi yi xi2 (xi-x średnie)3
1                  
2                  
...                  
n                  
Σ ... ... ... ...     ... ... ...
śr. ... ...              
Wersja do druku
Rachunek prawdopodobieństwa i statystyka (zadania)
Zadania z rachunku prawdopodobieństwa i statystyki. Zestaw zadań 1 (1-10)
Zestaw zadań 2 (11-16)
Zestaw zadań 3 (17-27)
Zestaw zadań 4 (28-32)
Zestaw zadań 5 (33-43)
Zestaw zadań 6 (44-56)
Zestaw zadań 7 (57-63)
Zestaw zadań 8 (64-69)
Cały zestaw (1-69)
STOPKA
Materiały ze statystyki

Dane do ćwiczeń,
DANE UWAGA!:
Dostępnych jest 60 zestawów danych. Każdy zestaw składa się z dwóch dokumentów (doc) oznaczonych odpowiednio w nazwie pliku litermi "A" lub "B" oraz jednym dokumentem *.sta (Statistica 5.0) (Sz. cz. A). W pliku: instrukcja_ST_5.doc zamieszczono szczegółową instrukcję do ćwiczeń autorstwa dr inż. Wojciecha Masteja, a w pliku: Sz-srf.xls dane do wykreślenia map.

Wstęp:
::Wstęp o estymacji,
Badanie jednej zmiennej:
::Miary przeciętne,
::Miary pozycyjne,
::Miary zmienności,
::Obciążenie estymatora wariancji,
::Miary asymetrii,
::Miary koncentracji,
::Przedział ufności dla średniej i odchylenia standardowego,
Badanie postaci rozkładów:
::Rozkłady dyskretne,
::Rozkłady ciągłe,
::Szeregi rozdzielcze,
::Testowanie zgodności rozkładów z rozkładem N(0,1) Χ2, K-S,
Współzależność dwóch cech:
::Regresja i korelacja dwóch zmiennych,
::Korelacja rang,
Analiza wariancji:
::Analiza wariancji (idea),
::Analiza wariancji (obliczenia),
::Testy jednorodności wariancji w grupach (testowanie założeń ANOVA),
::Testy post-hoc,
::Tematy dwuczynnikowa ANOVA,
Analiza danych kierunkowych:
::Analiza danych kierunkowych,
Analiza serii zdarzeń:
::Wstęp do analizy rozkładu zdarzeń,
::Testowanie losowości zdarzeń,
::Testowanie trendu w rozkładzie zdarzeń,
Dodatki:
::Literatura,

STOPKA
Linki statystyka

Statystyka:
Wielojęzyczny słownik statystyczny;
polska wersja Elektronicznego Podręcznika Statystyki - Serwis oprogramowania Statistica;

STOPKA
Pajacyk - KLIKNIJ!