- Jak obliczyć współczynnik determinacji?
- Przykładowy przypadek
- Interpretacja
- Przykłady
- - Przykład 1
- Rozwiązanie
- - Przykład 2
- Rozwiązanie
- - Przykład 3
- Rozwiązanie
- Porównanie dopasowania
- Wnioski
- Bibliografia
Współczynnik obliczeniowy jest liczbą od 0 do 1, która stanowi część punktów (x, y), które następują po linii regresji dopasowanie zestawu danych z dwoma zmiennymi.
Jest również znany jako dobroć dopasowania i jest oznaczony przez R 2 . Aby to obliczyć, bierze się iloraz wariancji danych Ŷi oszacowanych przez model regresji i wariancji danych Yi odpowiadających każdemu Xi danych.
R 2 = Sŷ / Sy

Rysunek 1. Współczynnik korelacji dla czterech par danych. Źródło: F. Zapata.
Jeśli 100% danych znajduje się na linii funkcji regresji, wówczas współczynnik determinacji będzie wynosił 1.
Wręcz przeciwnie, jeśli dla zbioru danych i pewnej funkcji dopasowania współczynnik R 2 okaże się równy 0,5, to można powiedzieć, że dopasowanie jest w 50% zadowalające lub dobre.
Podobnie, gdy model regresji daje wartości R 2 mniejsze niż 0,5, oznacza to, że wybrana funkcja korygująca nie dostosowuje się w sposób zadowalający do danych, dlatego konieczne jest poszukiwanie innej funkcji korygującej.
A gdy kowariancji lub współczynnik korelacji zmierza do zera, a podstawniki X i Y w danych są ze sobą powiązane, w związku z R 2 również tendencję do zera.
Jak obliczyć współczynnik determinacji?
W poprzednim rozdziale powiedziano, że współczynnik determinacji oblicza się, znajdując iloraz wariancji:
-Oszacowane przez funkcję regresji zmiennej Y
-To zmiennej Yi odpowiadającej każdej zmiennej Xi z N par danych.
Pod względem matematycznym wygląda to tak:
R 2 = Sŷ / Sy
Z tego wzoru wynika, że R 2 oznacza odsetek wariancji wyjaśnione w modelu regresji. Alternatywnie wartość R 2 można obliczyć za pomocą następującego wzoru, w pełni równoważnego poprzedniej:
R 2 = 1 - (Sε / Sy)
Gdzie Sε reprezentuje wariancję reszt εi = Ŷi - Yi, podczas gdy Sy to wariancja zbioru wartości Yi danych. Do wyznaczenia Ŷi stosuje się funkcję regresji, co oznacza stwierdzenie, że Ŷi = f (Xi).
Wariancja zbioru danych Yi, gdzie i od 1 do N jest obliczana w następujący sposób:
Sy =
Następnie postępuj w podobny sposób dla Sŷ lub Sε.
Przykładowy przypadek
Aby pokazać szczegóły, w jaki sposób oblicza się współczynnik determinacji, weźmiemy następujący zestaw czterech par danych:
(X, Y): {(1, 1); (2. 3); (3, 6) i (4, 7)}.
Dla tego zbioru danych proponuje się dopasowanie regresji liniowej, które uzyskuje się metodą najmniejszych kwadratów:
f (x) = 2,1 x - 1
Stosując tę funkcję regulacji, uzyskuje się momenty:
(X, Ŷ): {(1, 1.1); (2, 3,2); (3, 5,3) i (4, 7,4)}.
Następnie obliczamy średnią arytmetyczną dla X i Y:
Variance Sy
Sy = / (4-1) =
= = 7,583
Wariancja Sŷ
Sŷ = / (4-1) =
= = 7,35
Współczynnik determinacji R 2
R 2 = Sŷ / Sy = 7,35 / 7,58 = 0,97
Interpretacja
Współczynnik determinacji dla przypadku poglądowego rozpatrywanego w poprzednim segmencie wyniósł 0,98. Innymi słowy, liniowa regulacja poprzez funkcję:
f (x) = 2,1x - 1
Jest w 98% wiarygodna w wyjaśnianiu danych, z którymi została uzyskana przy użyciu metody najmniejszych kwadratów.
Oprócz współczynnika determinacji istnieje współczynnik korelacji liniowej lub znany również jako współczynnik Pearsona. Współczynnik ten, oznaczony jako r, jest obliczany według następującej zależności:
r = Sxy / (Sx Sy)
Tutaj licznik reprezentuje kowariancję między zmiennymi X i Y, podczas gdy mianownik jest iloczynem odchylenia standardowego dla zmiennej X i odchylenia standardowego dla zmiennej Y.
Współczynnik Pearsona może przyjmować wartości od -1 do +1. Gdy współczynnik ten dąży do +1, istnieje bezpośrednia korelacja liniowa między X i Y. Jeśli zamiast tego zmierza do -1, występuje korelacja liniowa, ale gdy X rośnie, Y maleje. Wreszcie, jest blisko 0, nie ma korelacji między dwiema zmiennymi.
Należy zauważyć, że współczynnik determinacji pokrywa się z kwadratem współczynnika Pearsona tylko wtedy, gdy pierwszy został obliczony na podstawie dopasowania liniowego, ale równość ta nie obowiązuje dla innych dopasowań nieliniowych.
Przykłady
- Przykład 1
Grupa licealistów postanowiła wyznaczyć empiryczne prawo dotyczące okresu wahadła w funkcji jego długości. Aby osiągnąć ten cel, wykonują serię pomiarów, w których mierzą czas drgań wahadła dla różnych długości, uzyskując następujące wartości:
| Długość (m) | Okres (y) |
|---|---|
| 0,1 | 0.6 |
| 0,4 | 1.31 |
| 0,7 | 1.78 |
| jeden | 1,93 |
| 1.3 | 2.19 |
| 1.6 | 2,66 |
| 1.9 | 2.77 |
| 3 | 3.62 |
Wymagane jest wykonanie wykresu punktowego danych i dopasowanie liniowe poprzez regresję. Pokaż również równanie regresji i jego współczynnik determinacji.
Rozwiązanie

Rysunek 2. Wykres rozwiązania do ćwiczenia 1. Źródło: F. Zapata.
Można zaobserwować dość wysoki współczynnik determinacji (95%), więc można by sądzić, że dopasowanie liniowe jest optymalne. Jednakże, jeśli punkty są oglądane razem, wydają się mieć tendencję do zakrzywiania się w dół. Ten szczegół nie jest uwzględniony w modelu liniowym.
- Przykład 2
Dla tych samych danych w Przykładzie 1 wykonaj wykres punktowy danych. W tym przypadku, inaczej niż w przykładzie 1, żądana jest korekta regresji przy użyciu funkcji potencjału.

Rysunek 3. Wykres rozwiązania dla ćwiczenia 2. Źródło: F. Zapata.
Pokaż także funkcję dopasowania i jej współczynnik determinacji R 2 .
Rozwiązanie
Funkcja potencjału ma postać f (x) = Ax B , gdzie A i B są stałymi, które są określane metodą najmniejszych kwadratów.
Na poprzednim rysunku przedstawiono funkcję potencjału i jej parametry, a także współczynnik determinacji o bardzo wysokiej wartości 99%. Zauważ, że dane są zgodne z krzywizną linii trendu.
- Przykład 3
Korzystając z tych samych danych z przykładu 1 i przykładu 2, przeprowadź dopasowanie wielomianu drugiego stopnia. Pokaż wykres, wielomian dopasowania i odpowiedni współczynnik determinacji R 2 .
Rozwiązanie

Rysunek 4. Wykres rozwiązania dla ćwiczenia 3. Źródło: F. Zapata.
Przy dopasowaniu wielomianu drugiego stopnia można zobaczyć linię trendu, która dobrze pasuje do krzywizny danych. Ponadto współczynnik determinacji jest powyżej dopasowania liniowego i poniżej dopasowania potencjału.
Porównanie dopasowania
Spośród trzech pokazanych pasowań, pasowanie o najwyższym współczynniku determinacji jest dopasowaniem potencjalnym (przykład 2).
Potencjalne dopasowanie pokrywa się z fizyczną teorią wahadła, która, jak wiadomo, ustanawia, że okres wahadła jest proporcjonalny do pierwiastka kwadratowego jego długości, przy czym stała proporcjonalności wynosi 2π / √g, gdzie g jest przyspieszeniem ziemskim.
Ten typ dopasowania potencjału ma nie tylko najwyższy współczynnik determinacji, ale wykładnik i stała proporcjonalności są zgodne z modelem fizycznym.
Wnioski
- Korekta regresji określa parametry funkcji, której celem jest wyjaśnienie danych metodą najmniejszych kwadratów. Metoda ta polega na zminimalizowaniu sumy kwadratowej różnicy między wartością korekty Y i wartością Yi danych dla wartości Xi danych. Określa parametry funkcji strojenia.
-Jak widzieliśmy, najczęstszą funkcją regulacji jest linia, ale nie jedyna, ponieważ korekty mogą być również wielomianowe, potencjalne, wykładnicze, logarytmiczne i inne.
- W każdym przypadku współczynnik determinacji zależy od danych i rodzaju korekty i jest wskaźnikiem trafności zastosowanej korekty.
-W końcu współczynnik determinacji wskazuje procent całkowitej zmienności między wartością Y danych w odniesieniu do wartości Ŷ korekty dla danego X.
Bibliografia
- González C. Statystyka ogólna. Odzyskany z: tarwi.lamolina.edu.pe
- IACS. Aragoński Instytut Nauk o Zdrowiu. Odzyskany z: ics-aragon.com
- Salazar C. i Castillo S. Podstawowe zasady statystyki. (2018). Odzyskany z: dspace.uce.edu.ec
- Superprof. Współczynnik determinacji. Odzyskany z: superprof.es
- USAC. Opisowy podręcznik statystyki. (2011). Odzyskany z: statistics.ingenieria.usac.edu.gt.
- Wikipedia. Współczynnik determinacji. Odzyskany z: es.wikipedia.com.
