- Zalety i wady
- Wady zasięgu jako miary dyspersji
- Rozstęp międzykwartylowy, kwartyle i przykład obliczeniowy
- - Obliczanie kwartyli
- Pierwszy kwartyl
- Drugi kwartyl lub mediana
- Trzeci kwartyl
- Przykład praktyczny
- Rozwiązanie
- Rozwiązanie b
- Rozwiązanie c
- Bibliografia
Zakres , zakres lub amplitudy, w statystyce jest różnica (odejmowanie) między wartością maksymalną a wartością minimalną zestawu danych z próbki lub populacji. Jeśli zakres jest reprezentowany przez literę R, a dane są reprezentowane przez x, wzór na zakres jest po prostu:
R = x maks. - x min
Gdzie x max to maksymalna wartość danych, a x min to minimum.
Rysunek 1. Zakres danych odpowiadający populacji Kadyksu w ciągu ostatnich dwóch stuleci. Źródło: Wikimedia Commons.
Pojęcie to jest bardzo przydatne jako prosta miara dyspersji, aby szybko ocenić zmienność danych, ponieważ wskazuje na wydłużenie lub długość przedziału, w którym się one znajdują.
Załóżmy na przykład, że mierzy się wzrost grupy 25 studentów pierwszego roku inżynierii na uniwersytecie. Najwyższy uczeń w grupie ma 1,93 m, a najniższy 1,67 m. Są to skrajne wartości przykładowych danych, dlatego ich ścieżka wygląda następująco:
R = 1,93 - 1,67 m = 0,26 m lub 26 cm.
Wzrost uczniów w tej grupie rozkłada się w tym zakresie.
Zalety i wady
Zakres jest, jak powiedzieliśmy wcześniej, miarą rozłożenia danych. Mały zakres wskazuje, że dane są mniej więcej zbliżone, a spread jest niski. Z drugiej strony większy zakres wskazuje, że dane są bardziej rozproszone.
Zalety obliczania zakresu są oczywiste: jest bardzo łatwe i szybkie do znalezienia, ponieważ jest to prosta różnica.
Ma również te same jednostki, co dane, z którymi pracuje, a koncepcja jest bardzo łatwa do zinterpretowania dla każdego obserwatora.
Na przykładzie wzrostu studentów inżynierii, gdyby zakres wynosił 5 cm, powiedzielibyśmy, że wszyscy uczniowie są w przybliżeniu tej samej wielkości. Ale przy zakresie 26 cm od razu zakładamy, że w próbce są uczniowie wszystkich średniego wzrostu. Czy to założenie jest zawsze słuszne?
Wady zasięgu jako miary dyspersji
Jeśli przyjrzymy się uważnie, może się zdarzyć, że w naszej próbie 25 studentów inżynierii tylko jeden z nich mierzy 1,93, a pozostałe 24 mają wysokość bliską 1,67 m.
A jednak zasięg pozostaje ten sam, chociaż jest zupełnie odwrotnie: wysokość większości to około 1,90 m, a tylko jedna to 1,67 m.
W obu przypadkach rozkład danych jest zupełnie inny.
Wadą zasięgu jako miary dyspersji jest to, że używa on tylko wartości ekstremalnych i ignoruje wszystkie inne. Ponieważ większość informacji zostaje utracona, nie masz pojęcia, w jaki sposób są dystrybuowane przykładowe dane.
Inną ważną cechą jest to, że zakres próbki nigdy się nie zmniejsza. Jeśli dodamy więcej informacji, to znaczy rozważymy więcej danych, zakres zwiększa się lub pozostaje taki sam.
W każdym razie jest to przydatne tylko podczas pracy z małymi próbkami, nie zaleca się jego wyłącznego stosowania jako miary dyspersji w dużych próbkach.
Należy go uzupełnić o obliczenia innych miar dyspersji, które uwzględniają informacje dostarczane przez dane całkowite: rozstęp międzykwartylowy, wariancję, odchylenie standardowe i współczynnik zmienności.
Rozstęp międzykwartylowy, kwartyle i przykład obliczeniowy
Zdaliśmy sobie sprawę, że słabość zakresu jako miary rozproszenia polega na tym, że wykorzystuje on tylko skrajne wartości rozkładu danych, pomijając pozostałe.
Aby uniknąć tej niedogodności, stosuje się kwartyle: trzy wartości znane jako miary pozycji.
Dystrybuują niezgrupowane dane na cztery części (inne szeroko stosowane miary pozycji to decyl i percentyle). Oto jego cechy:
-Pierwszy kwartyl Q 1 to taka wartość danych, że 25% z nich wszystkich jest mniejsze niż Q 1 .
-Drugi kwartyl Q 2 to mediana rozkładu, co oznacza, że połowa (50%) danych jest mniejsza od tej wartości.
- Wreszcie trzeci kwartyl Q 3 wskazuje, że 75% danych jest mniejszych niż Q 3 .
Następnie przedział międzykwartylowy lub rozstęp międzykwartylowy definiuje się jako różnicę między trzecim kwartylem Q 3 a pierwszym kwartylem Q 1 danych:
Rozstęp międzykwartylowy = R Q = Q 3 - Q 1
W ten sposób na wartość zakresu R Q nie wpływają tak ekstremalne wartości. Z tego powodu zaleca się używanie go w przypadku przekrzywionych rozkładów, na przykład opisanych powyżej u bardzo wysokich lub bardzo niskich uczniów.
- Obliczanie kwartyli
Istnieje kilka sposobów ich obliczenia, tutaj zaproponujemy jeden, ale w każdym przypadku konieczna jest znajomość numeru porządkowego „N o ”, czyli miejsca, które zajmuje dany kwartyl w rozkładzie.
To znaczy, jeśli na przykład człon odpowiadający Q 1 jest drugim, trzecim lub czwartym i tak dalej w rozkładzie.
Pierwszy kwartyl
N lub (Q 1 ) = (N + 1) / 4
Drugi kwartyl lub mediana
N lub (Q 2 ) = (N + 1) / 2
Trzeci kwartyl
N lub (Q 3 ) = 3 (N + 1) / 4
Gdzie N to liczba danych.
Mediana to wartość znajdująca się dokładnie w środku rozkładu. Jeśli liczba danych jest nieparzysta, nie ma problemu z jej znalezieniem, ale jeśli jest parzysta, dwie wartości środkowe są uśredniane, aby uzyskać jedność.
Po obliczeniu numeru zamówienia obowiązuje jedna z trzech zasad:
-Jeśli nie ma miejsc po przecinku, przeszukiwane są dane wskazane w rozkładzie i będzie to poszukiwany kwartyl.
-Gdy numer zamówienia znajduje się w połowie między dwoma, dane wskazane przez część całkowitą są uśredniane z następującymi danymi, a wynik jest odpowiednim kwartylem.
-W każdym innym przypadku jest zaokrąglana do najbliższej liczby całkowitej i będzie to pozycja kwartylu.
Przykład praktyczny
W skali od 0 do 20 grupa 16 studentów matematyki I uzyskała z egzaminu śródokresowego następujące oceny (punkty):
16, 10, 12, 8, 9, 15, 18, 20, 9, 11, 1, 13, 17, 9, 10, 14
Odnaleźć:
a) Zakres lub zakres danych.
b) Wartości kwartyli Q 1 i Q 3
c) Rozstęp międzykwartylowy.
Rysunek 2. Czy wyniki tego testu matematycznego mają tak dużą zmienność? Źródło: Pixabay.
Rozwiązanie
Pierwszą rzeczą, jaką należy zrobić, aby znaleźć trasę, jest uporządkowanie danych w kolejności rosnącej lub malejącej. Na przykład w rosnącym porządku masz:
1, 8, 9, 9, 9, 10, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20
Stosując wzór podany na początku: R = x max - x min
R = 20-1 punktów = 19 punktów.
Zgodnie z wynikiem oceny te mają duży rozrzut.
Rozwiązanie b
N = 16
N lub (Q 1 ) = (N + 1) / 4 = (16 + 1) / 4 = 17/4 = 4,25
Jest to liczba z miejscami dziesiętnymi, której część całkowita to 4. Następnie przechodzimy do rozkładu, szukamy danych zajmujących czwarte miejsce i ich wartość jest uśredniana z wartością z pozycji piątej. Ponieważ oba mają po 9, średnia wynosi również 9, więc:
Pytanie 1 = 9
Teraz powtarzamy procedurę, aby znaleźć Q 3 :
N lub (Q 3 ) = 3 (N + 1) / 4 = 3 (16 + 1) / 4 = 12,75
Ponownie jest to ułamek dziesiętny, ale ponieważ nie jest to połowa, jest zaokrąglana do 13. Kwartyl poszukiwany zajmuje trzynastą pozycję i jest następujący:
P 3 = 16
Rozwiązanie c
R Q = Q 3 - Q 1 = 16 - 9 = 7 punktów.
Który, jak widać, jest znacznie mniejszy niż zakres danych obliczony w punkcie a), ponieważ minimalny wynik to 1 punkt, czyli wartość znacznie dalsza od reszty.
Bibliografia
- Berenson, M. 1985. Statystyka zarządzania i ekonomii. Interamericana SA
- Canavos, G. 1988. Prawdopodobieństwo i statystyka: zastosowania i metody. McGraw Hill.
- Devore, J. 2012. Prawdopodobieństwo i statystyka dla inżynierii i nauki. 8th. Wydanie. Cengage.
- Przykłady kwartyli. Odzyskany z: matematicas10.net.
- Levin, R. 1988. Statystyka dla administratorów. 2nd. Wydanie. Prentice Hall.
- Walpole, R. 2007. Prawdopodobieństwo i statystyka dla inżynierii i nauk. Osoba.