- Formuła
- Charakterystyka rozkładu normalnego
- Przedziały ufności
- Zastosowania rozkładu normalnego
- Przykład
- Ćwiczenie rozwiązane
- Bibliografia
Rozkład normalny lub rozkład Gaussa jest rozkładem prawdopodobieństwa w zmiennej ciągłej, w której funkcja gęstości prawdopodobieństwa jest opisana funkcją wykładniczą argumentu kwadratowego i ujemnego, co daje kształt dzwonu.
Nazwa rozkładu normalnego bierze się stąd, że rozkład ten dotyczy największej liczby sytuacji, w których w danej grupie lub populacji występuje jakaś ciągła zmienna losowa.
Rysunek 1. Rozkład normalny N (x; μ, σ) i jego gęstość prawdopodobieństwa f (s; μ, σ). (Opracowanie własne)
Przykładami zastosowania rozkładu normalnego są: wzrost mężczyzn lub kobiet, zmiany miary jakiejś wielkości fizycznej lub mierzalnych cech psychologicznych lub socjologicznych, takich jak iloraz intelektualny lub nawyki konsumpcyjne określonego produktu.
Z drugiej strony nazywa się to rozkładem Gaussa lub dzwonem Gaussa, ponieważ to ten niemiecki geniusz matematyczny przypisuje swoje odkrycie za zastosowanie, które podał do opisania błędu statystycznego pomiarów astronomicznych w roku 1800.
Jednak stwierdzono, że ten rozkład statystyczny został wcześniej opublikowany przez innego wielkiego matematyka francuskiego pochodzenia, takiego jak Abraham de Moivre, w 1733 roku.
Formuła
Rozkład normalny w zmiennej ciągłej x, o parametrach μ i σ, oznaczamy:
N (x; μ, σ)
i jest wyraźnie napisane w ten sposób:
N (x; μ, σ) = ∫ -∞ x f (s; μ, σ) ds
gdzie f (u; μ, σ) jest funkcją gęstości prawdopodobieństwa:
f (s; μ, σ) = (1 / (σ√ (2π)) Exp (- s 2 / (2σ 2 ))
Stała mnożąca funkcję wykładniczą w funkcji gęstości prawdopodobieństwa nazywana jest stałą normalizacyjną i została wybrana w taki sposób, że:
N (+ ∞, μ, σ) = 1
Poprzednie wyrażenie zapewnia, że prawdopodobieństwo, że zmienna losowa x mieści się w przedziale od -∞ do + ∞, wynosi 1, czyli prawdopodobieństwo 100%.
Parametr μ jest średnią arytmetyczną ciągłej zmiennej losowej x i σ odchyleniem standardowym lub pierwiastkiem kwadratowym z wariancji tej samej zmiennej. W przypadku, gdy μ = 0 i σ = 1, mamy standardowy rozkład normalny lub typowy rozkład normalny:
N (x; μ = 0, σ = 1)
Charakterystyka rozkładu normalnego
1- Jeśli losowa zmienna statystyczna ma rozkład normalny gęstości prawdopodobieństwa f (s; μ, σ), większość danych jest zgrupowana wokół średniej wartości μ i jest rozproszona wokół niej w taki sposób, że niewiele więcej niż ⅔ danych zawiera się w przedziale od μ - σ do μ + σ.
2- Odchylenie standardowe σ jest zawsze dodatnie.
3- Kształt funkcji gęstości f jest podobny do kształtu dzwonu, dlatego funkcja ta jest często nazywana dzwonem Gaussa lub funkcją Gaussa.
4- W rozkładzie Gaussa średnia, mediana i tryb pokrywają się.
5- Punkty przegięcia funkcji gęstości prawdopodobieństwa znajdują się dokładnie przy μ - σ i μ + σ.
6- Funkcja f jest symetryczna względem osi przechodzącej przez jej wartość średnią μ i ma asymptotycznie zero dla x ⟶ + ∞ i x ⟶ -∞.
7- Im wyższa wartość σ, tym większa dyspersja, szum lub odległość danych wokół średniej wartości. Innymi słowy, im wyższe σ, tym kształt dzwonu jest bardziej otwarty. Z drugiej strony σ small wskazuje, że kostki są zbliżone do średniej, a kształt dzwonka jest bardziej zamknięty lub spiczasty.
8- Funkcja rozkładu N (x; μ, σ) wskazuje prawdopodobieństwo, że zmienna losowa jest mniejsza lub równa x. Na przykład na rysunku 1 (powyżej) prawdopodobieństwo P, że zmienna x jest mniejsza lub równa 1,5, wynosi 84% i odpowiada powierzchni pod funkcją gęstości prawdopodobieństwa f (x; μ, σ) z -∞ do x.
Przedziały ufności
9- Jeśli dane mają rozkład normalny, to 68,26% z nich jest między μ - σ a μ + σ.
10-95,44% danych, które mają rozkład normalny, mieści się w przedziale od μ - 2σ do μ + 2σ.
11-99,74% danych, które mają rozkład normalny, mieści się w zakresie od μ - 3σ do μ + 3σ.
12- Jeśli zmienna losowa x występuje po rozkładzie N (x; μ, σ), to zmienna
z = (x - μ) / σ jest zgodny ze standardowym rozkładem normalnym N (z; 0,1).
Zmiana zmiennej x na z jest nazywana standaryzacją lub typowaniem i jest bardzo przydatna przy stosowaniu tabel rozkładu standardowego do danych, które są zgodne z niestandardowym rozkładem normalnym.
Zastosowania rozkładu normalnego
Aby zastosować rozkład normalny, należy przejść przez obliczenie całki gęstości prawdopodobieństwa, co z analitycznego punktu widzenia nie jest łatwe i nie zawsze istnieje program komputerowy umożliwiający jej numeryczne obliczenie. W tym celu wykorzystuje się tabele wartości znormalizowanych lub standaryzowanych, co jest niczym innym jak rozkładem normalnym w przypadku μ = 0 i σ = 1.
Znormalizowana normalna tabela dystrybucji (część 1/2)
Znormalizowana tabela rozkładu normalnego (część 2/2)
Należy zauważyć, że te tabele nie zawierają wartości ujemnych. Jednak korzystając z właściwości symetrii funkcji gęstości prawdopodobieństwa Gaussa, można otrzymać odpowiednie wartości. Przedstawione poniżej rozwiązane ćwiczenie wskazuje na użycie tabeli w takich przypadkach.
Przykład
Załóżmy, że masz zestaw losowych danych x, które mają rozkład normalny o średniej 10 i odchyleniu standardowym 2. Jesteś proszony o znalezienie prawdopodobieństwa, że:
a) Zmienna losowa x jest mniejsza lub równa 8.
b) jest mniejsze lub równe 10.
c) że zmienna x jest poniżej 12.
d) Prawdopodobieństwo, że wartość x zawiera się między 8 a 12.
Rozwiązanie:
a) Aby odpowiedzieć na pierwsze pytanie, wystarczy obliczyć:
N (x; μ, σ)
Przy x = 8, μ = 10 i σ = 2. Zdajemy sobie sprawę, że jest to całka, która nie ma rozwiązania analitycznego w funkcjach elementarnych, ale rozwiązanie jest wyrażone jako funkcja funkcji błędu erf (x).
Z drugiej strony istnieje możliwość rozwiązania całki w postaci numerycznej, co robi wiele kalkulatorów, arkuszy kalkulacyjnych i programów komputerowych, takich jak GeoGebra. Poniższy rysunek przedstawia numeryczne rozwiązanie odpowiadające pierwszemu przypadkowi:
Rysunek 2. Gęstość prawdopodobieństwa f (x; μ, σ). Zacieniowany obszar przedstawia P (x ≤ 8). (Opracowanie własne)
a odpowiedź brzmi, że prawdopodobieństwo, że x jest poniżej 8, wynosi:
P (x ≤ 8) = N (x = 8; μ = 10, σ = 2) = 0,1587
b) W tym przypadku staramy się znaleźć prawdopodobieństwo, że zmienna losowa x jest poniżej średniej, która w tym przypadku jest warta 10. Odpowiedź nie wymaga żadnych obliczeń, ponieważ wiemy, że połowa danych znajduje się poniżej średnia, a druga połowa powyżej średniej. Dlatego odpowiedź brzmi:
P (x ≤ 10) = N (x = 10; μ = 10, σ = 2) = 0,5
c) Aby odpowiedzieć na to pytanie, musimy obliczyć N (x = 12; μ = 10, σ = 2), co można zrobić za pomocą kalkulatora z funkcjami statystycznymi lub za pomocą oprogramowania takiego jak GeoGebra:
Rysunek 3. Gęstość prawdopodobieństwa f (x; μ, σ). Zacieniowany obszar przedstawia P (x ≤ 12). (Opracowanie własne)
Odpowiedź na część c znajduje się na rysunku 3 i brzmi:
P (x ≤ 12) = N (x = 12; μ = 10, σ = 2) = 0,8413.
d) Aby znaleźć prawdopodobieństwo, że zmienna losowa x zawiera się w przedziale od 8 do 12, możemy użyć wyników części a i c w następujący sposób:
P (8 ≤ x ≤ 12) = P (x ≤ 12) - P (x ≤ 8) = 0,8413 - 0,1587 = 0,6826 = 68,26%.
Ćwiczenie rozwiązane
Średnia cena akcji firmy wynosi 25 USD z odchyleniem standardowym 4 USD. Określ prawdopodobieństwo, że:
a) Akcja kosztuje mniej niż 20 $.
b) To ma koszt większy niż 30 USD.
c) Cena wynosi od 20 do 30 USD.
Użyj standardowych tabel rozkładu normalnego, aby znaleźć odpowiedzi.
Rozwiązanie:
Aby skorzystać z tabel, konieczne jest przekazanie do znormalizowanej lub typizowanej zmiennej z:
20 USD w znormalizowanej zmiennej równa się z = (20 USD - 25 USD) / 4 USD = -5/4 = -1,25 i
30 USD w znormalizowanej zmiennej równa się z = (30 USD - 25 USD) / 4 USD = +5/4 = +1,25.
a) 20 $ równa się -1,25 w zmiennej znormalizowanej, ale tabela nie ma wartości ujemnych, dlatego umieszczamy wartość +1,25, co daje wartość 0,8944.
Jeśli od tej wartości odejmie się 0,5, wynikiem będzie obszar między 0 a 1,25, który, nawiasem mówiąc, jest identyczny (pod względem symetrii) z polem między -1,25 a 0. Wynik odejmowania to 0,8944 - 0,5 = 0,3944, czyli obszar między -1,25 a 0.
Ale interesujący jest obszar od -∞ do -1,25, który wyniesie 0,5 - 0,3944 = 0,1056. W związku z tym stwierdza się, że prawdopodobieństwo, że cena akcji spadnie poniżej 20 USD, wynosi 10,56%.
b) 30 $ we wpisanej zmiennej z wynosi 1,25. Dla tej wartości tabela pokazuje liczbę 0,8944, która odpowiada obszarowi od -∞ do +1,25. Obszar między +1,25 a + ∞ wynosi (1 - 0,8944) = 0,1056. Innymi słowy, prawdopodobieństwo, że akcja kosztuje więcej niż 30 USD, wynosi 10,56%.
c) Prawdopodobieństwo, że działanie ma koszt od 20 do 30 USD, będzie obliczane w następujący sposób:
100% - 10,56% - 10,56% = 78,88%
Bibliografia
- Statystyka i prawdopodobieństwo. Normalna dystrybucja. Odzyskany z: projectdescartes.org
- Geogebra. Klasyczna geogebra, rachunek prawdopodobieństwa. Odzyskany z geogebra.org
- MathWorks. Rozkład Gaussa. Odzyskany z: es.mathworks.com
- Mendenhall, W. 1981. Statystyka zarządzania i ekonomii. 3. wydanie. Grupo Editorial Iberoamérica.
- Stat Trek. Naucz się statystyk. Rozkład Poissona. Odzyskany z: stattrek.com,
- Triola, M. 2012. Statystyki podstawowe. 11th. Ed. Pearson Education.
- Uniwersytet w Vigo. Główne rozkłady ciągłe. Odzyskany z: anapg.webs.uvigo.es
- Wikipedia. Normalna dystrybucja. Odzyskane z: es.wikipedia.org