STOPNIE SWOBODY: JAK JE OBLICZYĆ, TYPY, PRZYKŁADY - DUDAS

Te stopnie swobody w statystykach to liczba niezależnych składników wektora losowego. Jeśli wektor ma n składowych i istnieją p równania liniowe odnoszące się do jego składowych, to stopień swobody wynosi np.

Pojęcie stopni swobody pojawia się również w mechanice teoretycznej, gdzie są one z grubsza równoważne wymiarowi przestrzeni, w której porusza się cząstka, pomniejszonym o liczbę wiązań.

Rysunek 1. Wahadło porusza się w dwóch wymiarach, ale ma tylko jeden stopień swobody, ponieważ jest zmuszane do poruszania się po łuku o promieniu L. Źródło: F. Zapata.

W tym artykule omówiono pojęcie stopni swobody stosowane w statystyce, ale przykład mechaniczny jest łatwiejszy do wizualizacji w postaci geometrycznej.

Rodzaje stopni swobody

W zależności od kontekstu, w którym jest stosowany, sposób obliczania liczby stopni swobody może się różnić, ale podstawowa idea jest zawsze taka sama: całkowite wymiary pomniejszone o liczbę ograniczeń.

W etui mechanicznym

Rozważmy oscylującą cząstkę przywiązaną do struny (wahadła), która porusza się w pionowej płaszczyźnie xy (2 wymiary). Jednak cząstka jest zmuszona poruszać się po obwodzie o promieniu równym długości cięciwy.

Ponieważ cząstka może poruszać się tylko po tej krzywej, liczba stopni swobody wynosi 1. Można to zobaczyć na rysunku 1.

Aby obliczyć liczbę stopni swobody, należy wziąć różnicę między liczbą wymiarów a liczbą wiązań:

stopnie swobody: = 2 (wymiary) - 1 (ligatura) = 1

Inne wyjaśnienie, które pozwala nam dojść do wyniku, jest następujące:

-Wiemy, że położenie w dwóch wymiarach jest reprezentowane przez punkt o współrzędnych (x, y).

-Ale ponieważ punkt musi być zgodny z równaniem obwodu (x ² + y ² = L ² ) dla danej wartości zmiennej x, zmienna y jest określana przez to równanie lub ograniczenie.

W ten sposób tylko jedna ze zmiennych jest niezależna, a system ma jeden (1) stopień swobody.

W zbiorze losowych wartości

Aby zilustrować znaczenie tego pojęcia, załóżmy, że mamy wektor

x = (x ₁ , x ₂ ,…, x _n )

Reprezentujący próbkę n losowych wartości o rozkładzie normalnym. W tym przypadku losowy wektor x ma n niezależnych składowych i dlatego mówi się, że x ma n stopni swobody.

Skonstruujmy teraz wektor r reszt

r = (x ₁ -, x ₂ -,…., X _n -)

Gdzie reprezentuje średnią z próby, którą oblicza się w następujący sposób:

= (x ₁ + x ₂ +…. + x _n ) / n

A więc suma

(x ₁ -) + (x ₂ -) +…. + (X _n -) = (x ₁ + x ₂ +…. + x _n ) - n= 0

Jest to równanie, które reprezentuje ograniczenie (lub wiązanie) w elementach wektora r reszt, ponieważ jeśli znane są n-1 składników wektora r , równanie restrykcyjne określa nieznaną składową.

Dlatego wektor r wymiaru n z ograniczeniem:

∑ (x _i -) = 0

Ma (n - 1) stopnie swobody.

Ponownie stosuje się, że obliczenie liczby stopni swobody wygląda następująco:

stopnie swobody: = n (wymiary) - 1 (więzy) = n-1

Przykłady

Wariancja i stopnie swobody

Wariancja s ² jest zdefiniowana jako średnia kwadratu odchyleń (lub reszt) próbki n danych:

s ² = ( r • r ) / (n-1)

gdzie r jest wektorem reszt r = (x1 -, x2 - ,…., Xn - ), a gruba kropka (•) to operator iloczynu skalarnego. Alternatywnie wzór wariancji można zapisać w następujący sposób:

s ² = ∑ (x _i -) ² / (n-1)

W każdym razie należy zauważyć, że obliczając średnią kwadratu reszt, dzieli się go przez (n-1), a nie przez n, ponieważ jak omówiono w poprzednim rozdziale, liczba stopni swobody wektora r wynosi ( n-1).

Gdyby do obliczenia wariancji został podzielony przez n zamiast (n-1), wynik miałby odchylenie, które jest bardzo istotne dla wartości n mniejszych niż 50.

W literaturze formuła wariancji pojawia się również z dzielnikiem n zamiast (n-1), jeśli chodzi o wariancję populacji.

Ale zbiór losowej zmiennej reszt, reprezentowany przez wektor r , chociaż ma wymiar n, ma tylko (n-1) stopni swobody. Jeśli jednak liczba danych jest wystarczająco duża (n> 500), obie formuły są zbieżne z tym samym wynikiem.

Kalkulatory i arkusze kalkulacyjne podają obie wersje wariancji i odchylenia standardowego (które jest pierwiastkiem kwadratowym z wariancji).

W związku z przedstawioną tutaj analizą, naszym zaleceniem jest, aby zawsze wybierać wersję z wartością (n-1) za każdym razem, gdy trzeba obliczyć wariancję lub odchylenie standardowe, aby uniknąć tendencyjnych wyników.

W rozkładzie Chi-kwadrat

Niektóre rozkłady prawdopodobieństwa w ciągłej zmiennej losowej zależą od parametru zwanego stopniem swobody, tak jest w przypadku rozkładu Chi-kwadrat (χ ² ).

Nazwa tego parametru pochodzi właśnie od stopni swobody bazowego wektora losowego, którego dotyczy ten rozkład.

Załóżmy, że mamy g populacji, z których pobrano próbki o rozmiarze n:

X ₁ = (x1 ₁ , x1 ₂ ,… ..x1 _n )

X2 = (x2 ₁ , x2 ₂ ,… ..x2 _n )

…

X _j = (xj ₁ , xj ₂ ,… ..xj _n )

…

Xg = (xg ₁ , xg ₂ ,… ..xg _n )

Populacja j to znaczy i odchylenie standardowe Sj, następuje po rozkładzie normalnym N ( , Sj).

Zmienna standaryzowana lub znormalizowana zj _i jest definiowana jako:

zj _i = (xj _i - ) / Sj.

A wektor Zj jest zdefiniowany w ten sposób:

Zj = ( zj ₁ , zj ₂ ,…, zj _i ,…, zj _n ) i jest zgodny ze znormalizowanym rozkładem normalnym N (0,1).

Więc zmienna:

Q = ((z1 ₁ ^ 2 + z2 ₁ ^ 2 +…. + Zg ₁ ^ 2),…., (Z1 _n ^ 2 + z2 _n ^ 2 +…. + Zg _n ^ 2))

następuje po rozkładzie χ ² (g) zwanym rozkładem chi-kwadrat ze stopniem swobody g.

W teście hipotezy (z rozwiązanym przykładem)

Jeśli chcesz przetestować hipotezy w oparciu o pewien zestaw losowych danych, musisz znać liczbę stopni swobody g, aby zastosować test Chi-kwadrat.

Rysunek 2. Czy istnieje związek pomiędzy preferencją SMAKU lodów a PŁCIĄ klienta? Źródło: F. Zapata.

Jako przykład przeanalizowane zostaną dane zebrane na temat preferencji lodów czekoladowych lub truskawkowych wśród mężczyzn i kobiet w danej lodziarni. Częstotliwość, z jaką mężczyźni i kobiety wybierają truskawkę lub czekoladę, podsumowano na rycinie 2.

Najpierw obliczana jest tabela przewidywanych częstości, która jest przygotowywana poprzez pomnożenie sumy wierszy przez sumę kolumn podzielonych przez łączne dane. Wynik przedstawiono na poniższym rysunku:

Rysunek 3. Obliczanie przewidywanych częstotliwości na podstawie obserwowanych częstotliwości (wartości zaznaczone na niebiesko na rysunku 2). Źródło: F. Zapata.

Następnie oblicza się Chi kwadrat (na podstawie danych) za pomocą następującego wzoru:

χ ² = ∑ (F _o - F _e ) ² / F _e

Gdzie F _o to obserwowane częstotliwości (rysunek 2), a F _e to oczekiwane częstotliwości (rysunek 3). Sumowanie obejmuje wszystkie wiersze i kolumny, które w naszym przykładzie dają cztery wyrazy.

Po wykonaniu operacji otrzymasz:

χ ² = 0,2043.

Teraz należy porównać z teoretycznym Chi-kwadrat, który zależy od liczby stopni swobody g.

W naszym przypadku liczba ta jest określana w następujący sposób:

g = (# wiersze - 1) (#kolumny - 1) = (2 - 1) (2 - 1) = 1 * 1 = 1.

Okazuje się, że liczba stopni swobody g w tym przykładzie wynosi 1.

Jeśli chcesz sprawdzić lub odrzucić hipotezę zerową (H0: nie ma korelacji pomiędzy SMAKIEM a PŁCIĄ) z poziomem istotności 1%, teoretyczną wartość Chi-kwadrat oblicza się ze stopniem swobody g = 1.

Poszukiwana jest wartość, która sprawia, że skumulowana częstotliwość (1 - 0,01) = 0,99, czyli 99%. Ta wartość (którą można odczytać z tabel) wynosi 6636.

Ponieważ teoretyczne Chi przewyższa obliczone, weryfikowana jest hipoteza zerowa.

Innymi słowy, przy zebranych danych nie obserwuje się żadnego związku między zmiennymi SMAK i PŁEĆ.

Bibliografia

Minitab. Jakie są stopnie swobody? Odzyskany z: support.minitab.com.
Moore, David. (2009) Podstawowe statystyki stosowane. Redaktor Antoni Bosch.
Leigh, Jennifer. Jak obliczyć stopnie swobody w modelach statystycznych. Odzyskany z: geniolandia.com
Wikipedia. Stopień swobody (statystyki). Odzyskany z: es.wikipedia.com
Wikipedia. Stopień swobody (fizyczny). Odzyskany z: es.wikipedia.com

STOPNIE SWOBODY: JAK JE OBLICZYĆ, TYPY, PRZYKŁADY - DUDAS - 2026