Categorische variabele

Categorische variabelen vertegenwoordigen een kwalitatieve methode om gegevens te scoren (d.w.z. vertegenwoordigen categorieën of groepslidmaatschap). Deze kunnen worden opgenomen als onafhankelijke variabelen in een regressieanalyse of als afhankelijke variabelen in logistische regressie of probitregressie, maar moeten worden omgezet in kwantitatieve gegevens om de gegevens te kunnen analyseren. Men doet dit door gebruik te maken van coderingssystemen. Analyses worden zo uitgevoerd dat alleen g -1 (g is het aantal groepen) wordt gecodeerd. Dit minimaliseert redundantie en geeft toch de volledige gegevensverzameling weer, aangezien geen extra informatie zou worden verkregen door het coderen van het totaal van g groepen: bijvoorbeeld, bij het coderen van geslacht (waarbij g = 2: man en vrouw), zou, als we alleen vrouwen coderen, iedereen die overblijft noodzakelijkerwijs man zijn. In het algemeen is de groep waarvoor men niet codeert de groep van het minste belang.

Er zijn drie belangrijke coderingssystemen die typisch worden gebruikt bij de analyse van categorische variabelen in regressie: dummy-codering, effect-codering, en contrast-codering. De regressievergelijking heeft de vorm Y = bX + a, waarbij b de helling is en het gewicht dat empirisch aan een verklarende variabele wordt toegekend, X de verklarende variabele, en a de Y-afsnede, en deze waarden krijgen verschillende betekenissen naar gelang van het gebruikte coderingssysteem. De keuze van het coderingssysteem heeft geen invloed op de F- of R2-statistieken. Men kiest echter een coderingssysteem op basis van de vergelijking die van belang is, aangezien de interpretatie van b-waarden zal verschillen.

Dummy-coderingEdit

Dummy-codering wordt gebruikt wanneer men een controle- of vergelijkingsgroep voor ogen heeft. Men analyseert dus de gegevens van een groep ten opzichte van de vergelijkingsgroep: a staat voor het gemiddelde van de controlegroep en b is het verschil tussen het gemiddelde van de experimentele groep en het gemiddelde van de controlegroep. Voorgesteld wordt aan drie criteria te voldoen om een geschikte controlegroep te specificeren: de groep moet een gevestigde groep zijn (b.v. geen “andere” categorie), er moet een logische reden zijn om deze groep als vergelijking te selecteren (b.v. verwacht wordt dat de groep het hoogst scoort op de afhankelijke variabele), en ten slotte moet de steekproefomvang van de groep substantieel zijn en niet klein in vergelijking met de andere groepen.

Bij dummy-codering krijgt de referentiegroep voor elke codevariabele de waarde 0, de groep die voor de vergelijking met de referentiegroep van belang is, krijgt voor haar specifieke codevariabele de waarde 1, terwijl alle andere groepen voor die specifieke codevariabele de waarde 0 krijgen.

De b-waarden moeten zo worden geïnterpreteerd dat de experimentele groep wordt vergeleken met de controlegroep. Een negatieve b-waarde betekent dus dat de experimentele groep minder heeft gescoord op de afhankelijke variabele dan de controlegroep. Om dit te illustreren, veronderstellen wij dat wij optimisme meten bij verschillende nationaliteiten en dat wij besloten hebben dat Fransen als een nuttige controle zouden dienen. Als we hen vergelijken met Italianen, en we constateren een negatieve b-waarde, dan zou dat betekenen dat Italianen gemiddeld lager scoren op optimisme.

De volgende tabel is een voorbeeld van dummy-codering met Fransen als controlegroep en C1, C2 en C3 als codes voor respectievelijk Italianen, Duitsers en anderen (noch Fransen, noch Italianen, noch Duitsers):

Nationaliteit	C1	C2	C3
Frans	0	0	0
Italiaans	1	0	0
Duits	0	1	0
Anders	0	0	1

EffectcoderingEdit

In het effectcoderingssysteem, worden gegevens geanalyseerd door een groep te vergelijken met alle andere groepen. In tegenstelling tot dummy-codering is er geen controlegroep. In plaats daarvan wordt de vergelijking gemaakt op basis van het gemiddelde van alle groepen samen (a is nu het grote gemiddelde). Men zoekt dus niet naar gegevens ten opzichte van een andere groep, maar men zoekt gegevens ten opzichte van het grote gemiddelde.

Effectcodering kan gewogen of ongewogen zijn. Gewogen effectcodering is eenvoudigweg de berekening van een gewogen groot gemiddelde, waarbij dus rekening wordt gehouden met de steekproefomvang voor elke variabele. Dit is het meest geschikt in situaties waarin de steekproef representatief is voor de populatie in kwestie. Niet-gewogen effectcodering is het meest geschikt in situaties waarin verschillen in steekproefomvang het gevolg zijn van incidentele factoren. De interpretatie van b is voor beide verschillend: bij ongewogen effectcodering is b het verschil tussen het gemiddelde van de experimentele groep en het grote gemiddelde, terwijl het in de gewogen situatie het gemiddelde van de experimentele groep is minus het gewogen grote gemiddelde.

Bij effectcodering coderen we de interessante groep met een 1, net zoals we dat bij dummy-codering zouden doen. Het belangrijkste verschil is dat we -1 coderen voor de groep waarin we het minst geïnteresseerd zijn. Aangezien wij een g – 1 coderingsschema blijven gebruiken, is het in feite de met -1 gecodeerde groep die geen gegevens zal opleveren, vandaar het feit dat wij in die groep het minst geïnteresseerd zijn. Aan alle andere groepen wordt een code 0 toegekend.

De b-waarden moeten zo worden geïnterpreteerd dat de experimentele groep wordt vergeleken met het gemiddelde van alle groepen samen (of met het gewogen grote gemiddelde in het geval van codering voor gewogen effecten). Een negatieve b-waarde zou dus betekenen dat de gecodeerde groep minder scoort dan het gemiddelde van alle groepen op de afhankelijke variabele. Als we ons vorige voorbeeld van optimismescores onder nationaliteiten gebruiken, en de interessante groep Italianen is, dan suggereert de waarneming van een negatieve b-waarde dat zij een lagere optimismescore behalen.

De volgende tabel is een voorbeeld van effectcodering met Andere als de minst interessante groep.

Nationaliteit	C1	C2	C3
Frans	0	0	1
Italiaans	1	0	0
Duits	0	1	0
anders	-1	-1	-1

ContrastcoderingEdit

Het contrastcoderingssysteem stelt een onderzoeker in staat rechtstreeks specifieke vragen te stellen. In plaats van het coderingssysteem de te maken vergelijking te laten dicteren (d.w.z. tegen een controlegroep zoals bij dummy-codering, of tegen alle groepen zoals bij effect-codering) kan men een unieke vergelijking ontwerpen die tegemoetkomt aan de specifieke onderzoeksvraag. Deze op maat gemaakte hypothese is meestal gebaseerd op eerdere theorie en/of onderzoek. De voorgestelde hypothesen zijn over het algemeen als volgt: ten eerste is er de centrale hypothese die uitgaat van een groot verschil tussen twee groepen; de tweede hypothese suggereert dat binnen elke groep de verschillen tussen de groepen klein zijn. Door de a priori gerichte hypothesen kan contrastcodering een verhoging van de kracht van de statistische toets opleveren in vergelijking met de minder gerichte eerdere coderingssystemen.

Er komen bepaalde verschillen naar voren wanneer we onze a priori coëfficiënten vergelijken tussen ANOVA en regressie. Anders dan bij gebruik in ANOVA, waar het aan de onderzoeker wordt overgelaten of hij coëfficiëntwaarden kiest die orthogonaal of niet-orthogonaal zijn, is het bij regressie van essentieel belang dat de coëfficiëntwaarden die bij contrastcodering worden toegekend orthogonaal zijn. Bovendien moeten de coëfficiëntwaarden bij regressie hetzij fractioneel hetzij decimaal zijn. Zij kunnen geen intervalwaarden aannemen.

De constructie van contrastcodes wordt beperkt door drie regels:

De som van de contrastcoëfficiënten per codevariabele moet gelijk zijn aan nul.
Het verschil tussen de som van de positieve coëfficiënten en de som van de negatieve coëfficiënten moet gelijk zijn aan 1.
Gecodeerde variabelen moeten orthogonaal zijn.

Het overtreden van regel 2 levert nauwkeurige R2- en F-waarden op, die aangeven dat we tot dezelfde conclusies zouden komen over de vraag of er al dan niet een significant verschil is; we kunnen de b-waarden echter niet langer interpreteren als een gemiddeld verschil.

Om de constructie van contrastcodes te illustreren, beschouw de volgende tabel. De coëfficiënten zijn gekozen om onze a priori hypothesen te illustreren: Hypothese 1: Fransen en Italianen zullen hoger scoren op optimisme dan Duitsers (Frans = +0,33, Italiaans = +0,33, Duits = -0,66). Dit wordt geïllustreerd door dezelfde coëfficiënt toe te kennen aan de Franse en Italiaanse categorieën en een verschillende coëfficiënt aan de Duitsers. De toegekende tekens geven de richting van het verband aan (een negatief teken voor Duitsers wijst dus op hun lagere veronderstelde optimismescores). Hypothese 2: Fransen en Italianen zullen naar verwachting verschillen in hun optimismescores (Frans = +0,50, Italiaans = -0,50, Duits = 0). Door aan de Duitsers een nulwaarde toe te kennen wordt aangetoond dat ze niet in de analyse van deze hypothese zijn opgenomen. Ook hier zijn de toegekende tekens indicatief voor het voorgestelde verband.

Nationaliteit	C1	C2
Frans	+0.33	+0.50
Italiaans	+0.33	-0.50
Duits	-0.66	0

Nonsens coderingEdit

Nonsens codering treedt op wanneer men willekeurige waarden gebruikt in plaats van de “0 “s “1 “s en “-1 “s die in de vorige coderingssystemen werden gebruikt. Hoewel dit correcte gemiddelde waarden voor de variabelen oplevert, wordt het gebruik van onzin-codering niet aanbevolen, omdat het tot oninterpreteerbare statistische resultaten leidt.

EmbeddingsEdit

Embeddings zijn coderingen van categorische waarden in hoog-dimensionale reëel-gewaardeerde (soms complex-gewaardeerde) vectorruimten, gewoonlijk op zodanige wijze dat aan “vergelijkbare” waarden “vergelijkbare” vectoren worden toegekend, of met betrekking tot een ander soort criterium dat de vectoren bruikbaar maakt voor de respectieve toepassing. Een veel voorkomend speciaal geval zijn woord-embeddings, waarbij de mogelijke waarden van de categorische variabele de woorden in een taal zijn, en aan woorden met vergelijkbare betekenissen vergelijkbare vectoren moeten worden toegekend.

InteractiesEdit

Een interactie kan zich voordoen bij de beschouwing van de relatie tussen drie of meer variabelen, en beschrijft een situatie waarin de gelijktijdige invloed van twee variabelen op een derde niet additief is. Interacties met categorische variabelen kunnen op twee manieren optreden: hetzij categorisch door categorische variabele interacties, hetzij categorisch door continue variabele interacties.

Categorisch door categorische variabele interactiesEdit

Dit type interactie doet zich voor wanneer we twee categorische variabelen hebben. Om dit type interactie te onderzoeken, zou men coderen met het systeem dat het meest geschikt is voor de hypothese van de onderzoeker. Het product van de codes levert de interactie op. Vervolgens kan men de b-waarde berekenen en bepalen of de interactie significant is.

Interacties tussen categorische en continue variabelenEdit

Een eenvoudige hellinganalyse is een veelgebruikte post-hoctest bij regressie, die vergelijkbaar is met de eenvoudige effectenanalyse bij ANOVA, die wordt gebruikt om interacties te analyseren. In deze test onderzoeken we de eenvoudige hellingen van een onafhankelijke variabele bij specifieke waarden van de andere onafhankelijke variabele. Een dergelijke test is niet beperkt tot continue variabelen, maar kan ook worden gebruikt wanneer de onafhankelijke variabele categorisch is. We kunnen niet eenvoudigweg waarden kiezen om de interactie te peilen zoals we zouden doen in het geval van continue variabelen vanwege de nominale aard van de gegevens (d.w.z. in het geval van continue variabelen zou men de gegevens kunnen analyseren op hoge, middelmatige en lage niveaus, waarbij respectievelijk 1 standaarddeviatie boven het gemiddelde, op het gemiddelde, en 1 standaarddeviatie onder het gemiddelde wordt toegekend). In ons categorisch geval zouden wij een eenvoudige regressievergelijking voor elke groep gebruiken om de eenvoudige hellingen te onderzoeken. Het is gebruikelijk variabelen te standaardiseren of te centreren om de gegevens bij eenvoudige hellinganalyses beter interpreteerbaar te maken; categorische variabelen mogen echter nooit worden gestandaardiseerd of gecentreerd. Deze test kan met alle coderingssystemen worden gebruikt.