- Przykłady
- Klasyfikacja zmiennych kategorialnych
- Kategorie nominalne
- Porządkowa kategorialna
- Kategorie binarne
- Statystyka ze zmiennymi kategorialnymi
- Graficzna reprezentacja zmiennych kategorialnych
- Rozwiązane ćwiczenia
- Ćwiczenie 1
- Przykład 2
- Przykład 3
- Bibliografia
Zmienne kategoryczne jest jeden wykorzystywane w statystykach przypisać non-liczbową lub jakościową cechę lub właściwość do jakiegoś obiektu, indywidualne jednostki, stanu lub procedury. Możliwe jest zdefiniowanie wszystkich rodzajów zmiennych kategorialnych zgodnie z każdą potrzebą.
Przykładami zmiennych kategorialnych są: kolor skóry, płeć, grupa krwi, stan cywilny, rodzaj materiału, forma płatności czy rodzaj konta bankowego i są one często używane na co dzień.

Rysunek 1: Kolor jest zmienną kategorialną. Źródło: pixabay
Powyższe są zmiennymi, ale ich możliwe wartości są jakościowe, to znaczy jakościowe lub charakterystyczne, a nie pomiaru liczbowego. Na przykład możliwe wartości dla zmiennej płci to: mężczyzna, h embra.
Gdy ta zmienna jest przechowywana w programie komputerowym, można ją zadeklarować jako zmienną tekstową, a jedynymi akceptowanymi wartościami będą te już nazwane: Mężczyzna, Kobieta.
Jednak tę samą zmienną można zadeklarować i zapisać jako liczbę całkowitą, jeśli mężczyzna ma przypisaną wartość 1, a kobietę wartość 2. Z tego powodu zmienne kategorialne są czasami określane jako typ wyliczeniowy.
Główną cechą zmiennych kategorialnych jest to, że w przeciwieństwie do innych zmiennych, takich jak zmienne ciągłe i dyskretne, nie można na nich wykonywać działań arytmetycznych. Jednak można z nimi zrobić statystyki, co zobaczymy później.
Przykłady
Zwróć uwagę na następujące przykłady zmiennych kategorialnych i ich możliwe wartości:
- Group_Sanguíneo, zakres wartości: A, B, AB, O
- Civil_Status, wartości kategorialne: wolny (A), żonaty (B), wdowiec (C), rozwiedziony (D).
- Tipo_de_Material, Kategorie lub wartości: 1 = Drewno, 2 = Metal, 3 = Plastik
-Form_of_Payment, papiery wartościowe lub kategorie: (1) gotówka, (2) debet, (3) przelew, (4) kredyt
W poprzednich przykładach liczba została przypisana do każdej kategorii w całkowicie dowolny sposób.
Można by zatem pomyśleć, że to dowolne skojarzenie liczbowe czyni je równoważnym dyskretnej zmiennej ilościowej, ale tak nie jest, ponieważ nie można wykonywać operacji arytmetycznych na tych liczbach.
Aby zilustrować ten pomysł, w zmiennej Form_of_Payment operacja sumowania nie ma sensu:
(1) gotówka + (2) obciążenie nigdy nie będzie równe (3) przelewowi
Klasyfikacja zmiennych kategorialnych
Ranking jest oparty na tym, czy mają ukrytą hierarchię, czy też nie, lub czy liczba możliwych wyników jest większa niż dwa lub dwa.
Zmienna kategorialna z tylko jednym możliwym wynikiem nie jest zmienną, jest stałą kategorialną.
Kategorie nominalne
Kiedy nie mogą być reprezentowane przez liczbę ani mieć żadnego porządku. Na przykład zmienna: Type_of_Material ma wartości nominalne (Wood, Metal, Plastic), nie ma hierarchii ani kolejności, nawet jeśli do każdej odpowiedzi lub kategorii jest przypisana dowolna liczba.
Porządkowa kategorialna
Zmienna: Academic_performance
Wartości nominalne: wysokie, średnie, niskie
Chociaż wartości tej zmiennej nie są liczbami, mają niejawną kolejność lub hierarchię.
Kategorie binarne
Są to zmienne nominalne z dwiema możliwymi odpowiedziami, na przykład:
-Zmienna: odpowiedź
-Wartości nominalne: True, False
Zwróć uwagę, że zmienna Response nie ma niejawnej hierarchii i ma tylko dwa możliwe wyniki, więc jest binarną zmienną kategorialną.
Niektórzy autorzy nazywają ten typ zmienną binarną i nie uważają, że należy on do zmiennych kategorialnych, które są ograniczone do tych, które mają więcej niż trzy możliwe kategorie.
Statystyka ze zmiennymi kategorialnymi
Statystyki można przeprowadzać za pomocą zmiennych kategorialnych, mimo że nie są to zmienne liczbowe ani ilościowe. Na przykład, aby poznać trend lub najbardziej prawdopodobną wartość zmiennej kategorialnej, przyjmuje się tryb.
Tryb jest w tym przypadku najczęściej powtarzanym wynikiem lub wartością zmiennej kategorialnej. W przypadku zmiennych kategorialnych nie można obliczyć ani średniej, ani mediany.
Nie można obliczyć średniej, ponieważ nie można wykonywać działań arytmetycznych na zmiennych kategorialnych. Nie jest też mediana, ponieważ zmienne ilościowe lub jakościowe nie mają porządku ani hierarchii, więc nie jest możliwe określenie wartości centralnej.
Graficzna reprezentacja zmiennych kategorialnych
Mając określoną zmienną kategorialną, można znaleźć częstotliwość lub liczbę powtórzeń wyniku tej zmiennej. Jeśli zostanie to zrobione dla każdego wyniku, można sporządzić wykres częstotliwości w odniesieniu do każdej kategorii lub wyniku.
Oto kilka przykładów graficznej reprezentacji zmiennych kategorialnych.
Rozwiązane ćwiczenia
Ćwiczenie 1
Firma posiada zapisy danych 170 pracowników. Jedna ze zmiennych znajdujących się w tych rekordach to: Estado_Civil. Ta zmienna ma cztery kategorie lub możliwe wartości:
Wolny (A), żonaty (B), wdowiec (C), rozwiedziony (D).
Chociaż jest to zmienna nienumeryczna, można dowiedzieć się, ile z całkowitych rekordów należy do określonej kategorii i przedstawić je w postaci wykresu słupkowego, jak pokazano na poniższym rysunku:

Rysunek 2. Reprezentacja wyników zmiennej kategorialnej. Źródło: wykonane samodzielnie
Przykład 2
Sklep obuwniczy śledzi sprzedaż. Wśród zmiennych, które zarządzają ich rekordami, jest kolor buta dla każdego modelu. Zmienna:
Kolor_Buty_Model_AW3
Jest typu kategorialnego i ma pięć kategorii lub możliwych wartości. Dla każdej kategorii tej zmiennej sumuje się liczbę sprzedaży i ustala się ich procent. Wyniki przedstawiono na wykresie na poniższym rysunku:

Rysunek 3. Zmienna kategorialna Color _Shoe. W tej zmiennej tryb jest biały. Źródło: wykonane samodzielnie.
Można więc powiedzieć, że z modnego modelu buta AW3 najczęściej sprzedawany jest biały, a zaraz za nim czarny.
Można również powiedzieć, że z prawdopodobieństwem 70% następny sprzedawany but tego modelu będzie biały lub czarny.
Informacje te mogą być przydatne dla sklepu przy składaniu nowych zamówień, a nawet mogą stosować rabaty na najmniej sprzedawane kolory z powodu nadmiernych zapasów.
Przykład 3
W przypadku określonej populacji dawców krwi chcesz przedstawić liczbę osób należących do określonej grupy krwi. Graficzny sposób wizualizacji wyników to piktogram, który znajduje się u dołu tabeli.
Pierwsza kolumna przedstawia zmienną group_sanguíneo i jej możliwe wyniki lub kategorie. Druga kolumna przedstawia w postaci ikonicznej lub obrazkowej liczbę osób w każdej kategorii. W naszym przykładzie czerwona kropla jest używana jako ikona, z których każda reprezentuje 10 osób.

Rysunek 4. Piktogram. Źródło: wykonane samodzielnie
Bibliografia
- Khan academy. Analiza danych kategorycznych. Odzyskane z: khanacademy.org
- Wszechświatowe formuły. Zmienna jakościowa. Odzyskany z: univesoformulas.com
- Minitab. Które są zmiennymi kategorialnymi, dyskretnymi i ciągłymi. Odzyskany z: support.minitab.com
- Samouczek programu Excel. Charakterystyka zmiennych. Odzyskany z: help.xlslat.com.
- Wikipedia. Zmienna statystyczna. Odzyskany z wikipedia.com
- Wikipedia. Zmienna kategoryczna. Odzyskany z wikipedia.com
- Wikipedia. Zmienna kategoryczna. Odzyskany z wikipedia.com
