- Jak obliczyć współczynnik korelacji?
- Kowariancja i wariancja
- Przykładowy przypadek
- Covariance Sxy
- Odchylenie standardowe Sx
- Odchylenie standardowe Sy
- Współczynnik korelacji r
- Interpretacja
- Regresja liniowa
- Przykład
- Bibliografia
Współczynnik korelacji statystyki jest wskaźnikiem, że środki tendencja dwóch zmiennych ilościowych X i Y mają liniową lub proporcjonalny związek między nimi.
Ogólnie rzecz biorąc, pary zmiennych X i Y to dwie cechy tej samej populacji. Na przykład X może oznaczać wzrost osoby, a Y jego wagę.
Rysunek 1. Współczynnik korelacji dla czterech par danych (X, Y). Źródło: F. Zapata.
W takim przypadku współczynnik korelacji wskazywałby, czy istnieje trend w kierunku proporcjonalnej zależności między wzrostem a wagą w danej populacji.
Współczynnik korelacji liniowej Pearsona jest oznaczony małą literą r, a jego minimalne i maksymalne wartości to odpowiednio -1 i +1.
Wartość r = +1 wskazywałaby, że zestaw par (X, Y) jest idealnie wyrównany i że gdy X rośnie, Y będzie rosnąć w tej samej proporcji. Z drugiej strony, gdyby zdarzyło się, że r = -1, zestaw par również byłby idealnie wyrównany, ale w tym przypadku, gdy X rośnie, Y maleje w tej samej proporcji.
Rysunek 2. Różne wartości współczynnika korelacji liniowej. Źródło: Wikimedia Commons.
Z drugiej strony, wartość r = 0 wskazywałaby, że nie ma liniowej korelacji między zmiennymi X i Y. Podczas gdy wartość r = +0,8 wskazywałaby, że pary (X, Y) mają tendencję do skupiania się po jednej stronie i inny z określonej linii.
Wzór na obliczenie współczynnika korelacji r jest następujący:
Jak obliczyć współczynnik korelacji?
Współczynnik korelacji liniowej to wielkość statystyczna wbudowana w kalkulatory naukowe, większość arkuszy kalkulacyjnych i programy statystyczne.
Jednak wygodnie jest wiedzieć, w jaki sposób stosowana jest formuła, która go definiuje, i do tego zostaną pokazane szczegółowe obliczenia przeprowadzone na małym zestawie danych.
Jak powiedziano w poprzedniej sekcji, współczynnik korelacji to kowariancja Sxy podzielona przez iloczyn odchylenia standardowego Sx dla zmiennych X i Sy dla zmiennej Y.
Kowariancja i wariancja
Kowariancja Sxy to:
Sxy = / (N-1)
Gdzie suma idzie od 1 do N par danych (Xi, Yi).
Ze swojej strony odchylenie standardowe dla zmiennej X jest pierwiastkiem kwadratowym z wariancji zbioru danych Xi, gdzie i od 1 do N:
Sx = √
Podobnie odchylenie standardowe dla zmiennej Y jest pierwiastkiem kwadratowym z wariancji zbioru danych Yi, przy czym i od 1 do N:
Sy = √
Przykładowy przypadek
Aby szczegółowo pokazać, jak obliczyć współczynnik korelacji, weźmiemy następujący zestaw czterech par danych
(X, Y): {(1, 1); (2. 3); (3, 6) i (4, 7)}.
Najpierw obliczamy średnią arytmetyczną dla X i Y w następujący sposób:
Następnie obliczane są pozostałe parametry:
Covariance Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Odchylenie standardowe Sx
Sx = √ = √ = 1,29
Odchylenie standardowe Sy
Sx = √ =
√ = 2,75
Współczynnik korelacji r
r = 3,5 / (1,29 * 2,75) = 0,98
Interpretacja
W zbiorze danych z poprzedniego przypadku obserwuje się silną korelację liniową między zmiennymi X i Y, co przejawia się zarówno na wykresie punktowym (przedstawionym na rysunku 1), jak i we współczynniku korelacji, co daje wartość dość bliska jedności.
W zakresie, w jakim współczynnik korelacji jest bliższy 1 lub -1, tym bardziej sensowne jest dopasowanie danych do prostej, wynik regresji liniowej.
Regresja liniowa
Linię regresji liniowej uzyskuje się metodą najmniejszych kwadratów. w którym parametry linii regresji uzyskuje się z minimalizacji sumy kwadratów różnicy między oszacowaną wartością Y i Yi danych N.
Z kolei parametry a i b linii regresji y = a + bx, otrzymane metodą najmniejszych kwadratów, to:
* b = Sxy / (Sx 2 ) dla nachylenia
* a =
Przypomnijmy, że Sxy to kowariancja zdefiniowana powyżej, a Sx 2 to wariancja lub kwadrat odchylenia standardowego zdefiniowanego powyżej.
Przykład
Współczynnik korelacji służy do określenia, czy istnieje korelacja liniowa między dwiema zmiennymi. Ma to zastosowanie, gdy badane zmienne są ilościowe, a ponadto zakłada się, że mają one rozkład normalny.
Poniżej przedstawiamy przykład ilustrujący: miarą stopnia otyłości jest wskaźnik masy ciała, który uzyskuje się poprzez podzielenie masy ciała w kilogramach przez kwadratowy wzrost osoby w metrach do kwadratu.
Chcesz wiedzieć, czy istnieje silna korelacja między wskaźnikiem masy ciała a stężeniem cholesterolu HDL we krwi, mierzonym w milimolach na litr. W tym celu przeprowadzono badanie z udziałem 533 osób, które podsumowano na poniższym wykresie, na którym każdy punkt reprezentuje dane jednej osoby.
Rycina 3. Badanie BMI i cholesterolu HDL u 533 pacjentów. Źródło: Aragoński Instytut Nauk o Zdrowiu (IACS).
Dokładna obserwacja wykresu pokazuje, że istnieje pewna liniowa tendencja (niezbyt wyraźna) między stężeniem cholesterolu HDL a wskaźnikiem masy ciała. Ilościową miarą tego trendu jest współczynnik korelacji, który w tym przypadku okazał się r = -0,276.
Bibliografia
- González C. Statystyka ogólna. Odzyskany z: tarwi.lamolina.edu.pe
- IACS. Aragoński Instytut Nauk o Zdrowiu. Odzyskany z: ics-aragon.com
- Salazar C. i Castillo S. Podstawowe zasady statystyki. (2018). Odzyskany z: dspace.uce.edu.ec
- Superprof. Współczynnik korelacji. Odzyskany z: superprof.es
- USAC. Opisowy podręcznik statystyki. (2011). Odzyskany z: statistics.ingenieria.usac.edu.gt
- Wikipedia. Współczynnik korelacji Pearsona. Odzyskany z: es.wikipedia.com.