- Znaczenie homoskedastyczności
- Homoskedastyczność a heteroskedastyczność
- Testy homoskedastyczności
- Zmienne standaryzowane
- Niegraficzne testy homoskedastyczności
- Bibliografia
Homoskedastyczność w predykcyjnej modelu statystycznego występuje wtedy, gdy wszystkie grupy danych z jednego lub większej liczby obserwacji, wariancji (lub niezależny) wzór z odniesieniu do zmiennych objaśniających pozostają stałe.
Model regresji może być homoskedastyczny lub nie, w takim przypadku mówimy o heteroskedastyczności.
Rysunek 1. Pięć zbiorów danych i dopasowanie regresji zbioru. Wariancja w odniesieniu do wartości przewidywanej jest taka sama w każdej grupie. (upav-biblioteca.org)
Statystyczny model regresji kilku zmiennych niezależnych nazywa się homoskedastycznym tylko wtedy, gdy wariancja błędu zmiennej przewidywanej (lub odchylenia standardowego zmiennej zależnej) pozostaje jednolita dla różnych grup wartości zmiennych objaśniających lub niezależnych.
W pięciu grupach danych na rycinie 1 obliczono wariancję w każdej grupie w odniesieniu do wartości oszacowanej przez regresję, która okazała się taka sama w każdej grupie. Ponadto zakłada się, że dane mają rozkład normalny.
Na poziomie graficznym oznacza to, że punkty są równomiernie rozrzucone lub rozproszone wokół wartości przewidywanej przez dopasowanie regresji oraz że model regresji ma ten sam błąd i trafność dla zakresu zmiennej objaśniającej.
Znaczenie homoskedastyczności
Aby zilustrować znaczenie homoskedastyczności w statystyce predykcyjnej, konieczne jest przeciwstawienie się zjawisku przeciwstawnemu, heteroskedastyczności.
Homoskedastyczność a heteroskedastyczność
W przypadku ryciny 1, w której występuje homoskedastyczność, prawdą jest, że:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Gdzie Var ((yi-Yi); Xi) reprezentuje wariancję, para (xi, yi) reprezentuje dane z grupy i, podczas gdy Yi jest wartością przewidywaną przez regresję dla średniej wartości Xi grupy. Wariancję n danych z grupy i oblicza się w następujący sposób:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Wręcz przeciwnie, w przypadku wystąpienia heteroskedastyczności model regresji może nie obowiązywać dla całego regionu, w którym został obliczony. Rysunek 2 przedstawia przykład takiej sytuacji.
Rysunek 2. Grupa danych wykazujących heteroskedastyczność. (Opracowanie własne)
Rysunek 2 przedstawia trzy grupy danych i dopasowanie zestawu przy użyciu regresji liniowej. Należy zauważyć, że dane w drugiej i trzeciej grupie są bardziej rozproszone niż w pierwszej. Wykres na rysunku 2 pokazuje również średnią wartość dla każdej grupy i jej słupek błędu ± σ, z odchyleniem standardowym σ dla każdej grupy danych. Należy pamiętać, że odchylenie standardowe σ jest pierwiastkiem kwadratowym z wariancji.
Wyraźnie widać, że w przypadku heteroskedastyczności błąd estymacji regresji zmienia się w zakresie wartości zmiennej objaśniającej lub niezależnej, aw przedziałach, w których ten błąd jest bardzo duży, predykcja regresji jest niewiarygodna lub nie dotyczy.
W modelu regresji błędy lub reszty (i -Y) muszą być rozłożone z równą wariancją (σ ^ 2) w przedziale wartości zmiennej niezależnej. Z tego powodu dobry model regresji (liniowy lub nieliniowy) musi przejść test homoskedastyczności.
Testy homoskedastyczności
Punkty pokazane na rysunku 3 odpowiadają danym z badania, w którym poszukuje się zależności między cenami (w dolarach) domów jako funkcją wielkości lub powierzchni w metrach kwadratowych.
Pierwszym testowanym modelem jest regresja liniowa. Przede wszystkim należy zauważyć, że współczynnik determinacji R ^ 2 dopasowania jest dość wysoki (91%), więc można uznać, że dopasowanie jest zadowalające.
Jednak na wykresie dostosowania można wyraźnie odróżnić dwa regiony. Jeden z nich, ten po prawej stronie zamknięty w owalu, spełnia homoskedastyczność, podczas gdy obszar po lewej stronie nie ma homoskedastyczności.
Oznacza to, że przewidywanie modelu regresji jest adekwatne i wiarygodne w zakresie od 1800 m ^ 2 do 4800 m ^ 2, ale bardzo nieadekwatne poza tym obszarem. W strefie heteroskedastycznej nie tylko błąd jest bardzo duży, ale także dane wydają się wykazywać inny trend niż ten proponowany przez model regresji liniowej.
Rysunek 3. Ceny mieszkań a powierzchnia i model predykcyjny metodą regresji liniowej, pokazujący strefy homoskedastyczności i heteroskedastyczności. (Opracowanie własne)
Wykres rozrzutu danych jest najprostszym i najbardziej wizualnym testem ich homoskedastyczności, jednak w przypadkach, gdy nie jest to tak oczywiste, jak w przykładzie pokazanym na rysunku 3, konieczne jest odwołanie się do wykresów ze zmiennymi pomocniczymi.
Zmienne standaryzowane
Aby wyodrębnić obszary, w których homoskedastyczność jest spełniona, a gdzie jej nie ma, wprowadzono znormalizowane zmienne ZRes i ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Należy zauważyć, że zmienne te zależą od zastosowanego modelu regresji, ponieważ Y jest wartością prognozy regresji. Poniżej znajduje się wykres punktowy ZRes vs ZPred dla tego samego przykładu:
Rysunek 4. Należy zauważyć, że w strefie homoskedastyczności ZRes pozostaje jednolity i mały w obszarze predykcji (opr. Własne).
Na wykresie na rysunku 4 ze znormalizowanymi zmiennymi obszar, w którym błąd resztowy jest mały i jednolity, jest wyraźnie oddzielony od obszaru, w którym go nie ma. W pierwszej strefie zachodzi homoskedastyczność, natomiast w rejonie, w którym błąd szczątkowy jest bardzo zmienny i duży, spełniona jest heteroskedastyczność.
Korekta regresji jest stosowana do tej samej grupy danych na rysunku 3, w tym przypadku korekta jest nieliniowa, ponieważ zastosowany model obejmuje funkcję potencjalną. Wynik przedstawiono na poniższym rysunku:
Rysunek 5. Nowe strefy homoskedastyczności i heteroskedastyczności w dopasowywaniu danych za pomocą nieliniowego modelu regresji. (Opracowanie własne).
Na wykresie na rycinie 5 należy wyraźnie zaznaczyć obszary homoskedastyczne i heteroskedastyczne. Należy również zauważyć, że strefy te zostały zamienione w stosunku do tych, które zostały utworzone w modelu dopasowania liniowego.
Na wykresie z rysunku 5 widać, że nawet przy dość wysokim współczynniku determinacji dopasowania (93,5%) model nie jest adekwatny dla całego przedziału zmiennej objaśniającej, ponieważ dane dla wartości większa niż 2000 m ^ 2 wykazuje heteroskedastyczność.
Niegraficzne testy homoskedastyczności
Jednym z najczęściej stosowanych niegraficznych testów do sprawdzenia, czy homoskedastyczność jest spełniona, czy nie, jest test Breuscha-Pagana.
Nie wszystkie szczegóły tego testu zostaną podane w tym artykule, ale jego podstawowe cechy i etapy tego testu są z grubsza opisane:
- Model regresji stosuje się do n danych, a jego wariancję oblicza się w odniesieniu do wartości oszacowanej przez model σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Zdefiniowano nową zmienną ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Ten sam model regresji jest stosowany do nowej zmiennej i obliczane są jej nowe parametry regresji.
- Wyznaczana jest wartość krytyczna Chi kwadrat (χ ^ 2), będąca połową sumy kwadratów nowych reszt w zmiennej ε.
- Tabela rozkładu Chi-kwadrat jest używana z uwzględnieniem poziomu istotności (zwykle 5%) i liczby stopni swobody (liczba zmiennych regresji minus jednostka) na osi x tabeli w celu uzyskania wartości tablica.
- Wartość krytyczna uzyskana w kroku 3 jest porównywana z wartością podaną w tabeli (χ ^ 2).
- Jeśli wartość krytyczna jest niższa od wartości podanej w tabeli, mamy hipotezę zerową: istnieje homoskedastyczność
- Jeśli wartość krytyczna jest wyższa niż w tabeli, mamy alternatywną hipotezę: nie ma homoskedastyczności.
Większość pakietów oprogramowania statystycznego, takich jak: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic i kilka innych, zawiera test homoskedastyczności Breuscha-Pagana. Kolejnym testem sprawdzającym jednorodność wariancji jest test Levene'a.
Bibliografia
- Box, Hunter & Hunter. (1988) Statystyka dla naukowców. Odwróciłem redaktorów.
- Johnston, J (1989). Metody ekonometryczne, Vicens-Vives editores.
- Murillo i González (2000). Podręcznik ekonometrii. Uniwersytet Las Palmas de Gran Canaria. Odzyskany z: ulpgc.es.
- Wikipedia. Homoskedastyczność. Odzyskany z: es.wikipedia.com
- Wikipedia. Homoskedastyczność. Odzyskany z: en.wikipedia.com