Distinction entre deux termes statistiques : Régression logistique multivariable et multivariée
Cher éditeur,
Deux termes statistiques, multivarié et multivariable, sont utilisés de manière répétée et interchangeable dans la littérature, alors qu’ils correspondent en fait à deux approches méthodologiques distinctes.1 Alors que le modèle multivariable est utilisé pour l’analyse avec un résultat (dépendant) et plusieurs variables indépendantes (alias, Alors que le modèle multivariable est utilisé pour l’analyse avec un résultat (dépendant) et de multiples variables indépendantes (alias prédicteurs ou explicatifs),2,3 le modèle multivarié est utilisé pour l’analyse avec plus d’un résultat (par exemple, mesures répétées) et de multiples variables indépendantes.1 Cependant, les termes sont parfois utilisés de manière interchangeable dans la littérature car peu de chercheurs sont attentifs à la distinction. La différence entre ces deux termes a été mise en évidence par Hidalgo et Goodman en 2013.1 Pourtant, certains chercheurs continuent de les utiliser de manière interchangeable. Par exemple, dans un article récent publié dans Nicotine and Tobacco Research4, bien que l’approche d’analyse des données soit détaillée, ils ont utilisé le terme de modèles de » régression logistique multivariée » alors que leur analyse était basée sur une » régression logistique multivariable » ; cela a été souligné dans la légende du tableau 2 du même article. Cela s’est également produit dans d’autres articles publiés à Nicotine and Tobacco Research5,6 et ailleurs.7-9 Par conséquent, nous profitons de cette occasion pour souligner une distinction claire et identifier les nuances qui rendent ces types d’analyses différentes les unes des autres.
L’analyse de régression est une méthode de modélisation qui étudie la relation entre un résultat et une ou plusieurs variables indépendantes.3 La plupart des modèles de régression se caractérisent par la façon dont la variable de résultat est modélisée. Par exemple, dans la régression logistique, le résultat est dichotomique (par exemple, succès/échec), dans la régression linéaire, il est continu et dans l’analyse de survie, considéré comme un temps par événement.1,3,10
Alors qu’un modèle de régression logistique simple présente un résultat binaire et un prédicteur, un modèle de régression logistique multiple ou multivariable trouve l’équation qui prédit le mieux la valeur de réussite de la variable de réponse binaire Y π(x)=P(Y=1|X=x) pour les valeurs de plusieurs variables X (prédicteurs). Comme le montre l’équation 1, le coefficient β représente la quantité de changement dans le logit (log-odds) par changement d’une unité de X (prédicteur) pour un modèle de régression logistique simple.
(1)
Au contraire, un modèle de régression logistique multivariable ou multiple prendrait la forme
(2)
où π(x)=P(Y=1|X=x) est une variable indépendante binaire Y avec deux catégories, X est un prédicteur unique dans le modèle de régression simple, et X1, X2,…,Xn sont les prédicteurs dans le modèle multivariable. Il existe également des situations où la variable de résultat catégorique a plus de deux niveaux (c’est-à-dire une variable polytomique avec plus de deux catégories qui peuvent être soit ordinales, soit nominales).3 Comme l’ont déjà expliqué Hidalgo et Goodman1, les modèles de régression linéaire et à risques proportionnels peuvent être simples ou multivariables. Chacune de ces structures de modèle comporte une seule variable de résultat et une ou plusieurs variables indépendantes ou prédicteurs.
Dans de nombreuses analyses statistiques, les données de résultat sont multivariées ou corrélées car elles sont souvent issues d’études longitudinales (c’est-à-dire des observations répétées sur le même sujet d’étude), et il est intéressant d’avoir un modèle qui conserve une interprétation logistique marginale pour les résultats individuels tout en tenant compte de manière appropriée de la structure de dépendance10.
Un modèle de régression logistique multivarié aurait la forme
(3)
où les relations entre les multiples variables dépendantes – mesures des multiples observations répétées j au sein du cluster i – et un ensemble de variables prédictives (ie, Xs) sont examinées. Pour cette équation, un effet aléatoire, α i, est souvent supposé suivre une distribution normale avec une moyenne de zéro et une variance constante (ie, αi∼N(0,σα2)).10
En comprenant la distinction entre les modèles de régression multivariés et multivariables, le public des articles peut mieux apprécier les objectifs et les résultats de l’étude. En outre, il s’agit d’une divergence notable non seulement pour contourner la confusion parmi le public des articles scientifiques, mais aussi pour informer plus précisément les chercheurs novices qui cherchent à publier leurs manuscrits dans des revues à comité de lecture de haut rang.
Matériel supplémentaire
Un formulaire de contribution détaillant l’implication spécifique de chaque auteur dans ce contenu, ainsi que toutes les données supplémentaires, sont disponibles en ligne à l’adresse https://academic.oup.com/ntr.
Reconnaissances
Nous remercions le professeur David W. Hosmer pour ses précieux commentaires sur cette lettre.
Financement
Aucune déclaration.
Déclaration d’intérêts
Aucune déclaration.
,
.
;
(
):
–
.
.
.
;
(
):
–
.
,
,
,
. 2e éd.
:
;
.
,
,
, et al.
.
;
(
):
–
.
,
,
.
.
;
(
):
–
.
,
,
, et al.
.
;
(
):
–
.
,
,
, et al.
.
;
(
):
–
.
,
,
,
.
.
;
(
):
–
.
,
,
,
.
.
;
(
):
–
.
Jr
,
,
.
:
;
.
.