Articles

Variable catégorielle

Les variables catégorielles représentent une méthode qualitative de notation des données (c’est-à-dire qu’elles représentent des catégories ou l’appartenance à un groupe). Elles peuvent être incluses comme variables indépendantes dans une analyse de régression ou comme variables dépendantes dans une régression logistique ou une régression probit, mais doivent être converties en données quantitatives pour pouvoir analyser les données. Pour ce faire, on utilise des systèmes de codage. Les analyses sont menées de telle sorte que seuls g -1 (g étant le nombre de groupes) sont codés. Cela permet de minimiser la redondance tout en représentant l’ensemble des données, car aucune information supplémentaire ne serait obtenue en codant le total de g groupes : par exemple, lors du codage du sexe (où g = 2 : homme et femme), si nous ne codons que les femmes, tous les groupes restants seront nécessairement des hommes. En général, le groupe que l’on ne code pas est celui qui présente le moins d’intérêt.

Il existe trois principaux systèmes de codage généralement utilisés dans l’analyse des variables catégorielles en régression : le codage fictif, le codage des effets et le codage des contrastes. L’équation de régression prend la forme de Y = bX + a, où b est la pente et donne le poids empiriquement attribué à un explicateur, X est la variable explicative, et a est l’ordonnée à l’origine, et ces valeurs prennent des significations différentes en fonction du système de codage utilisé. Le choix du système de codage n’affecte pas les statistiques F ou R2. Cependant, on choisit un système de codage en fonction de la comparaison d’intérêt puisque l’interprétation des valeurs de b variera.

Codage fictifModification

Le codage fictif est utilisé lorsqu’on a en tête un groupe de contrôle ou de comparaison. On analyse donc les données d’un groupe par rapport au groupe témoin : a représente la moyenne du groupe témoin et b est la différence entre la moyenne du groupe expérimental et la moyenne du groupe témoin. Il est suggéré de répondre à trois critères pour spécifier un groupe de contrôle approprié : le groupe doit être un groupe bien établi (par exemple, il ne doit pas s’agir d’une catégorie  » autre « ), il doit y avoir une raison logique de choisir ce groupe comme comparaison (par exemple, on s’attend à ce que le groupe obtienne les meilleurs résultats sur la variable dépendante), et enfin, la taille de l’échantillon du groupe doit être substantielle et non pas petite par rapport aux autres groupes.

Dans le codage fictif, le groupe de référence se voit attribuer une valeur de 0 pour chaque variable de code, le groupe d’intérêt pour la comparaison avec le groupe de référence se voit attribuer une valeur de 1 pour sa variable de code spécifiée, tandis que tous les autres groupes se voient attribuer 0 pour cette variable de code particulière.

Les valeurs b doivent être interprétées de telle sorte que le groupe expérimental soit comparé au groupe témoin. Par conséquent, l’obtention d’une valeur b négative impliquerait que le groupe expérimental a obtenu un score inférieur à celui du groupe témoin pour la variable dépendante. Pour illustrer cela, supposons que nous mesurions l’optimisme parmi plusieurs nationalités et que nous ayons décidé que les Français serviraient de contrôle utile. Si nous les comparons aux Italiens, et que nous observons une valeur b négative, cela suggérerait que les Italiens obtiennent des scores d’optimisme inférieurs en moyenne.

Le tableau suivant est un exemple de codage fictif avec le français comme groupe de contrôle et C1, C2 et C3 étant respectivement les codes pour l’italien, l’allemand et Autre (ni français, ni italien, ni allemand) :

.

.

Nationalité C1 C2 C3
Français 0 0 0
Italien 1 0 0
Allemand 0 1 0
Autre 0 0 1 1

Codage des effetsEdit

Dans le système de codage des effets, les données sont analysées en comparant un groupe à tous les autres groupes. Contrairement au codage fictif, il n’y a pas de groupe de contrôle. La comparaison s’effectue plutôt à la moyenne de tous les groupes combinés (a est maintenant la grande moyenne). Par conséquent, on ne cherche pas des données par rapport à un autre groupe, mais plutôt des données par rapport à la grande moyenne.

Le codage des effets peut être pondéré ou non pondéré. Le codage des effets pondérés consiste simplement à calculer une grande moyenne pondérée, prenant ainsi en compte la taille de l’échantillon dans chaque variable. Cette méthode est la plus appropriée dans les situations où l’échantillon est représentatif de la population en question. Le codage des effets non pondérés est le plus approprié dans les situations où les différences de taille d’échantillon sont le résultat de facteurs accidentels. L’interprétation de b est différente pour chacun : dans le codage des effets non pondérés, b est la différence entre la moyenne du groupe expérimental et la grande moyenne, alors que dans la situation pondérée, c’est la moyenne du groupe expérimental moins la grande moyenne pondérée.

Dans le codage des effets, nous codons le groupe d’intérêt avec un 1, comme nous le ferions pour un codage fictif. La principale différence est que nous codons -1 pour le groupe qui nous intéresse le moins. Puisque nous continuons à utiliser un schéma de codage g – 1, c’est en fait le groupe codé -1 qui ne produira pas de données, d’où le fait que nous sommes moins intéressés par ce groupe. Un code de 0 est attribué à tous les autres groupes.

Les valeurs b doivent être interprétées de telle sorte que le groupe expérimental est comparé à la moyenne de tous les groupes combinés (ou à la grande moyenne pondérée dans le cas du codage des effets pondérés). Par conséquent, une valeur b négative signifierait que le groupe codé a obtenu un score inférieur à la moyenne de tous les groupes pour la variable dépendante. En utilisant notre exemple précédent des scores d’optimisme parmi les nationalités, si le groupe d’intérêt est les Italiens, l’observation d’une valeur b négative suggère qu’ils obtiennent un score d’optimisme inférieur.

Le tableau suivant est un exemple de codage des effets avec Autre comme groupe de moindre intérêt.

.

.

Nationalité C1 C2 C3
Française 0 0 1
Italienne 1 0 0 Allemande 0 1 0
Autres -1 -1 -1

Codage par contrasteEdit

Le système de codage par contraste permet à un chercheur de poser directement des questions spécifiques. Plutôt que de laisser le système de codage dicter la comparaison à effectuer (c’est-à-dire par rapport à un groupe de contrôle comme dans le codage factice, ou par rapport à tous les groupes comme dans le codage des effets), on peut concevoir une comparaison unique répondant à sa question de recherche spécifique. Cette hypothèse sur mesure est généralement basée sur des théories et/ou des recherches antérieures. Les hypothèses proposées sont généralement les suivantes : il y a d’abord l’hypothèse centrale qui postule une grande différence entre deux ensembles de groupes ; la deuxième hypothèse suggère qu’au sein de chaque ensemble, les différences entre les groupes sont faibles. Grâce à ses hypothèses ciblées a priori, le codage par contraste peut donner lieu à une augmentation de la puissance du test statistique par rapport aux systèmes de codage précédents moins dirigés.

Des différences apparaissent lorsque nous comparons nos coefficients a priori entre l’ANOVA et la régression. Contrairement à l’utilisation dans l’ANOVA, où il est à la discrétion du chercheur de choisir des valeurs de coefficient orthogonales ou non orthogonales, dans la régression, il est essentiel que les valeurs de coefficient attribuées dans le codage par contraste soient orthogonales. En outre, dans la régression, les valeurs des coefficients doivent être sous forme fractionnaire ou décimale. Elles ne peuvent pas prendre des valeurs d’intervalle.

La construction des codes de contraste est limitée par trois règles :

  1. La somme des coefficients de contraste par chaque variable du code doit être égale à zéro.
  2. La différence entre la somme des coefficients positifs et la somme des coefficients négatifs doit être égale à 1.
  3. Les variables codées doivent être orthogonales.

La violation de la règle 2 produit des valeurs R2 et F exactes, indiquant que nous parviendrions aux mêmes conclusions sur l’existence ou non d’une différence significative ; cependant, nous ne pouvons plus interpréter les valeurs b comme une différence moyenne.

Pour illustrer la construction des codes de contraste, considérez le tableau suivant. Les coefficients ont été choisis pour illustrer nos hypothèses a priori : Hypothèse 1 : les Français et les Italiens obtiendront un score d’optimisme plus élevé que les Allemands (Français = +0,33, Italien = +0,33, Allemand = -0,66). Ceci est illustré par l’attribution d’un même coefficient aux catégories française et italienne et d’un coefficient différent aux Allemands. Les signes attribués indiquent la direction de la relation (ainsi, donner un signe négatif aux Allemands indique que leur score d’optimisme hypothétique est plus faible). Hypothèse 2 : On s’attend à ce que les Français et les Italiens aient des scores d’optimisme différents (Français = +0,50, Italien = -0,50, Allemand = 0). Ici, l’attribution d’une valeur nulle aux Allemands démontre leur non-inclusion dans l’analyse de cette hypothèse. Là encore, les signes attribués sont révélateurs de la relation proposée.

Nationalité C1 C2
Français +0.33 +0,50
Italien +0,33 -0.50
Allemand -0.66 0

Codage non-sensEdit

Le codage non-sens se produit lorsqu’on utilise des valeurs arbitraires à la place des « 0 « s « 1 « s et « -1 « s désignés vus dans les systèmes de codage précédents. Bien qu’il produise des valeurs moyennes correctes pour les variables, l’utilisation du codage non-sens n’est pas recommandée car elle conduira à des résultats statistiques ininterprétables.

EmbeddingsEdit

Les embeddings sont des codages de valeurs catégorielles dans des espaces vectoriels à haute dimension à valeurs réelles (parfois à valeurs complexes), généralement de telle sorte que les valeurs  » similaires  » se voient attribuer des vecteurs  » similaires « , ou par rapport à un autre type de critère rendant les vecteurs utiles pour l’application respective. Un cas spécial courant sont les encastrements de mots, où les valeurs possibles de la variable catégorielle sont les mots d’une langue et les mots ayant des significations similaires doivent se voir attribuer des vecteurs similaires.

InteractionsEdit

Une interaction peut survenir lorsqu’on considère la relation entre trois variables ou plus, et décrit une situation dans laquelle l’influence simultanée de deux variables sur une troisième n’est pas additive. Les interactions peuvent survenir avec des variables catégoriques de deux façons : soit des interactions catégorique par variable catégorique, soit des interactions catégorique par variable continue.

Interactions catégorique par variable catégoriqueEdit

Ce type d’interaction survient lorsque nous avons deux variables catégoriques. Afin de sonder ce type d’interaction, on coderait en utilisant le système qui répond le mieux à l’hypothèse du chercheur. Le produit des codes donne l’interaction. On peut alors calculer la valeur b et déterminer si l’interaction est significative.

Interactions entre variables catégorielles et variables continuesModifier

L’analyse des pentes simples est un test post hoc courant utilisé dans la régression qui est similaire à l’analyse des effets simples dans l’ANOVA, utilisée pour analyser les interactions. Dans ce test, nous examinons les pentes simples d’une variable indépendante à des valeurs spécifiques de l’autre variable indépendante. Ce test n’est pas limité à une utilisation avec des variables continues, mais peut également être employé lorsque la variable indépendante est catégorique. Nous ne pouvons pas simplement choisir des valeurs pour sonder l’interaction comme nous le ferions dans le cas d’une variable continue en raison de la nature nominale des données (c’est-à-dire que dans le cas d’une variable continue, on pourrait analyser les données à des niveaux élevés, modérés et faibles en attribuant respectivement un écart-type au-dessus de la moyenne, à la moyenne et à un écart-type en dessous de la moyenne). Dans notre cas catégorique, nous utiliserions une équation de régression simple pour chaque groupe afin d’étudier les pentes simples. Il est courant de normaliser ou de centrer les variables pour rendre les données plus interprétables dans l’analyse des pentes simples ; cependant, les variables catégorielles ne doivent jamais être normalisées ou centrées. Ce test peut être utilisé avec tous les systèmes de codage.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *