Articles

Zmienna kategoryczna

Zmienne kategoryczne reprezentują jakościową metodę punktacji danych (tj. reprezentują kategorie lub przynależność do grupy). Mogą one być uwzględnione jako zmienne niezależne w analizie regresji lub jako zmienne zależne w regresji logistycznej lub regresji probitowej, ale muszą być przekształcone na dane ilościowe, aby można było je analizować. Dokonuje się tego poprzez zastosowanie systemów kodowania. Analizy prowadzone są w taki sposób, że kodowane jest tylko g -1 (g to liczba grup). Minimalizuje to redundancję, jednocześnie reprezentując kompletny zbiór danych, ponieważ nie uzyskano by żadnych dodatkowych informacji poprzez zakodowanie całkowitej liczby g grup: na przykład, gdy kodujemy płeć (gdzie g = 2: mężczyzna i kobieta), jeśli zakodujemy tylko kobiety, wszystkie pozostałe grupy będą z konieczności mężczyznami. Ogólnie rzecz biorąc, grupa, której się nie koduje, jest grupą najmniej interesującą.

Istnieją trzy główne systemy kodowania stosowane zazwyczaj w analizie zmiennych kategorycznych w regresji: kodowanie dummy, kodowanie efektów i kodowanie kontrastu. Równanie regresji ma postać Y = bX + a, gdzie b jest nachyleniem i daje wagę empirycznie przypisaną do objaśniacza, X jest zmienną objaśniającą, a a jest punktem przecięcia Y, przy czym wartości te przyjmują różne znaczenia w zależności od zastosowanego systemu kodowania. Wybór systemu kodowania nie ma wpływu na statystyki F lub R2. Należy jednak wybrać system kodowania oparty na interesującym nas porównaniu, ponieważ interpretacja wartości b będzie się różnić.

Kodowanie dummyEdit

Kodowanie dummy jest stosowane, gdy mamy na myśli grupę kontrolną lub porównawczą. Analizuje się zatem dane jednej grupy w odniesieniu do grupy porównawczej: a reprezentuje średnią grupy kontrolnej, a b jest różnicą między średnią grupy eksperymentalnej a średnią grupy kontrolnej. Sugeruje się, aby przy określaniu odpowiedniej grupy kontrolnej spełnione były trzy kryteria: grupa ta powinna być grupą o ugruntowanej pozycji (np. nie powinna być kategorią „inne”), powinien istnieć logiczny powód wyboru tej grupy jako grupy porównawczej (np. przewiduje się, że grupa ta uzyska najwyższe wyniki w zmiennej zależnej), wreszcie wielkość próby tej grupy powinna być istotna i nie mała w porównaniu z innymi grupami.

W kodowaniu dummy, grupie odniesienia przypisuje się wartość 0 dla każdej zmiennej kodowej, grupie zainteresowania do porównania z grupą odniesienia przypisuje się wartość 1 dla jej określonej zmiennej kodowej, podczas gdy wszystkim innym grupom przypisuje się 0 dla tej konkretnej zmiennej kodowej.

Wartości b należy interpretować w taki sposób, że grupa eksperymentalna jest porównywana z grupą kontrolną. W związku z tym, uzyskanie ujemnej wartości b oznaczałoby, że grupa eksperymentalna uzyskała mniej punktów niż grupa kontrolna w zmiennej zależnej. Aby to zilustrować, załóżmy, że mierzymy optymizm wśród kilku narodowości i zdecydowaliśmy, że Francuzi będą służyć jako użyteczna kontrola. Jeśli porównujemy ich z Włochami i obserwujemy ujemną wartość b, sugeruje to, że Włosi uzyskują średnio niższe wyniki w zakresie optymizmu.

Następująca tabela jest przykładem kodowania dummy z Francuzami jako grupą kontrolną i C1, C2, i C3 odpowiednio kodami dla Włochów, Niemców i Innych (ani francuskich, ani włoskich, ani niemieckich):

.

.

.

Narodowość C1 C2 C3
Francuska 0 0 0
Włoska 1 0 0
Niemiecki 0 1 0
Inny 0 0 1

Kodowanie efektówEdit

W systemie kodowania efektów, dane są analizowane poprzez porównanie jednej grupy z wszystkimi innymi grupami. W przeciwieństwie do kodowania dummy, nie ma grupy kontrolnej. Raczej porównuje się średnią wszystkich grup razem wziętych (a jest teraz wielką średnią). Dlatego nie szuka się danych w odniesieniu do innej grupy, ale raczej szuka się danych w odniesieniu do wielkiej średniej.

Kodowanie efektów może być albo ważone, albo nieważone. Kodowanie efektów ważonych polega po prostu na obliczeniu ważonej wielkiej średniej, biorąc pod uwagę wielkość próby dla każdej zmiennej. Jest to najbardziej odpowiednie w sytuacjach, gdy próba jest reprezentatywna dla danej populacji. Kodowanie efektów nieważonych jest najwłaściwsze w sytuacjach, gdy różnice w liczebności próby są wynikiem czynników przypadkowych. Interpretacja b jest inna dla każdego z nich: w kodowaniu efektów nieważonych b jest różnicą między średnią grupy eksperymentalnej a średnią wielką, podczas gdy w sytuacji ważonej jest to średnia grupy eksperymentalnej minus średnia wielka ważona.

W kodowaniu efektów, kodujemy grupę zainteresowania za pomocą 1, tak jak w przypadku kodowania dummy. Podstawowa różnica polega na tym, że kodujemy -1 dla grupy, która nas najmniej interesuje. Ponieważ nadal używamy schematu kodowania g – 1, to w rzeczywistości grupa kodowana -1 nie dostarczy danych, stąd fakt, że jesteśmy najmniej zainteresowani tą grupą. Wszystkim pozostałym grupom przypisujemy kod 0.

Wartości b należy interpretować w taki sposób, że grupa eksperymentalna jest porównywana ze średnią wszystkich grup łącznie (lub ważoną wielką średnią w przypadku kodowania efektów ważonych). Dlatego też, uzyskanie ujemnej wartości b oznaczałoby, że zakodowana grupa uzyskała wynik niższy niż średnia wszystkich grup dla zmiennej zależnej. Używając naszego poprzedniego przykładu wyników optymizmu wśród narodowości, jeśli grupą zainteresowania są Włosi, zaobserwowanie ujemnej wartości b sugeruje, że uzyskują oni niższy wynik optymizmu.

Następująca tabela jest przykładem kodowania efektów z Innymi jako grupą najmniejszego zainteresowania.

Narodowość C1 C2 C3
Francuska 0 0 1
Włoska 1 0 0
Niemiecka 0 1 0
Inny -1 -1 -1

Kodowanie kontrastoweEdit

System kodowania kontrastowego pozwala badaczowi na bezpośrednie zadawanie konkretnych pytań. Zamiast mieć system kodowania dyktujący dokonywane porównanie (tj. z grupą kontrolną jak w kodowaniu dummy, lub ze wszystkimi grupami jak w kodowaniu efektów) można zaprojektować unikalne porównanie dostosowane do konkretnego pytania badawczego. Ta dostosowana hipoteza jest zazwyczaj oparta na wcześniejszej teorii i/lub badaniach. Proponowane hipotezy są na ogół następujące: po pierwsze, istnieje hipoteza centralna, która postuluje dużą różnicę między dwoma zbiorami grup; druga hipoteza sugeruje, że w obrębie każdego zbioru różnice między grupami są niewielkie. Poprzez swoje apriorycznie skoncentrowane hipotezy, kodowanie kontrastowe może przynieść wzrost mocy testu statystycznego w porównaniu z mniej ukierunkowanymi poprzednimi systemami kodowania.

Pewne różnice pojawiają się, gdy porównamy nasze aprioryczne współczynniki pomiędzy ANOVA i regresją. Inaczej niż w przypadku ANOVA, gdzie badacz sam decyduje, czy wybierze wartości współczynników, które są ortogonalne czy nieortogonalne, w regresji konieczne jest, aby wartości współczynników przypisane w kodowaniu kontrastowym były ortogonalne. Ponadto, w regresji wartości współczynników muszą być albo w formie ułamkowej, albo dziesiętnej. Nie mogą one przyjmować wartości przedziałowych.

Konstrukcja kodów kontrastowych jest ograniczona trzema regułami:

  1. Suma współczynników kontrastowych na każdą zmienną kodową musi być równa zero.
  2. Różnica między sumą współczynników dodatnich a sumą współczynników ujemnych powinna być równa 1.
  3. Zmienniki kodowane powinny być ortogonalne.

Naruszenie reguły 2 daje dokładne wartości R2 i F, wskazując, że doszlibyśmy do tych samych wniosków na temat tego, czy istnieje znacząca różnica, czy nie; jednak nie możemy już interpretować wartości b jako średniej różnicy.

Aby zilustrować konstrukcję kodów kontrastu, rozważmy następującą tabelę. Współczynniki zostały dobrane tak, aby zilustrować nasze hipotezy a priori: Hipoteza 1: Francuzi i Włosi uzyskają wyższe wyniki w zakresie optymizmu niż Niemcy (Francuzi = +0,33, Włosi = +0,33, Niemcy = -0,66). Ilustruje to przypisanie tego samego współczynnika kategoriom Francuzów i Włochów, a innego Niemców. Przypisane znaki wskazują na kierunek zależności (stąd nadanie Niemcom znaku ujemnego wskazuje na ich niższe hipotetyczne wyniki optymizmu). Hipoteza 2: Oczekuje się, że Francuzi i Włosi będą różnić się pod względem wyników optymizmu (Francuzi = +0,50, Włosi = -0,50, Niemcy = 0). W tym przypadku przypisanie Niemcom wartości zerowej świadczy o ich nieuwzględnieniu w analizie tej hipotezy. Ponownie, przypisane znaki wskazują na proponowaną zależność.

Narodowość C1 C2
Francuski +0.33 +0.50
Włoski +0.33 -0.50
Niemiecki -0.66 0

Nonsensowne kodowanieEdit

Nonsensowne kodowanie występuje, gdy używa się arbitralnych wartości w miejsce wyznaczonych „0 „s „1 „s i „-1 „s widzianych w poprzednich systemach kodowania. Chociaż produkuje ono poprawne wartości średnie dla zmiennych, użycie kodowania nonsensownego nie jest zalecane, ponieważ prowadzi ono do nieinterpretowalnych wyników statystycznych.

OsadzeniaEdit

Osadzenia są kodowaniem wartości kategorycznych w wysokowymiarowe przestrzenie wektorowe o wartościach rzeczywistych (czasami o wartościach złożonych), zazwyczaj w taki sposób, że „podobne” wartości są przypisane „podobnym” wektorom, lub w odniesieniu do jakiegoś innego rodzaju kryterium czyniącego wektory użytecznymi dla danego zastosowania. Częstym przypadkiem specjalnym są word embeddings, gdzie możliwymi wartościami zmiennej kategorycznej są słowa w języku, a słowom o podobnych znaczeniach przypisuje się podobne wektory.

InterakcjeEdit

Interakcja może pojawić się przy rozpatrywaniu relacji pomiędzy trzema lub więcej zmiennymi i opisuje sytuację, w której jednoczesny wpływ dwóch zmiennych na trzecią nie jest addytywny. Interakcje mogą pojawić się w przypadku zmiennych kategorycznych na dwa sposoby: albo interakcje zmiennej kategorycznej przez zmienną kategoryczną, albo interakcje zmiennej ciągłej przez zmienną kategoryczną.

Interakcje zmiennej kategorycznej przez zmienną kategorycznąEdit

Ten typ interakcji pojawia się, gdy mamy dwie zmienne kategoryczne. W celu zbadania tego typu interakcji, należy zakodować zmienną za pomocą systemu, który najbardziej odpowiada hipotezie badacza. Produkt kodów daje interakcję. Następnie można obliczyć wartość b i określić, czy interakcja jest znacząca.

Interakcje zmiennych kategorycznych i ciągłychEdit

Prosta analiza nachylenia jest powszechnym testem post hoc stosowanym w regresji, który jest podobny do prostej analizy efektów w ANOVA, używanej do analizy interakcji. W tym teście badamy proste nachylenia jednej zmiennej niezależnej przy określonych wartościach drugiej zmiennej niezależnej. Taki test nie jest ograniczony do użycia ze zmiennymi ciągłymi, ale może być również zastosowany, gdy zmienna niezależna jest kategoryczna. Nie możemy po prostu wybrać wartości do badania interakcji, tak jak w przypadku zmiennej ciągłej, ze względu na nominalny charakter danych (tj. w przypadku ciągłym można by analizować dane na wysokim, umiarkowanym i niskim poziomie, przypisując odpowiednio 1 odchylenie standardowe powyżej średniej, na poziomie średniej i na poziomie jednego odchylenia standardowego poniżej średniej). W naszym przypadku kategorycznym użylibyśmy prostego równania regresji dla każdej grupy, aby zbadać proste nachylenia. Powszechną praktyką jest standaryzacja lub wyśrodkowanie zmiennych, aby dane były bardziej interpretowalne w analizie nachylenia prostej; jednakże zmienne kategoryczne nigdy nie powinny być standaryzowane lub wyśrodkowane. Ten test można stosować we wszystkich systemach kodowania.

.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *