Articles

Distinction entre deux termes statistiques : Régression logistique multivariable et multivariée

Cher éditeur,

Deux termes statistiques, multivarié et multivariable, sont utilisés de manière répétée et interchangeable dans la littérature, alors qu’ils correspondent en fait à deux approches méthodologiques distinctes.1 Alors que le modèle multivariable est utilisé pour l’analyse avec un résultat (dépendant) et plusieurs variables indépendantes (alias, Alors que le modèle multivariable est utilisé pour l’analyse avec un résultat (dépendant) et de multiples variables indépendantes (alias prédicteurs ou explicatifs),2,3 le modèle multivarié est utilisé pour l’analyse avec plus d’un résultat (par exemple, mesures répétées) et de multiples variables indépendantes.1 Cependant, les termes sont parfois utilisés de manière interchangeable dans la littérature car peu de chercheurs sont attentifs à la distinction. La différence entre ces deux termes a été mise en évidence par Hidalgo et Goodman en 2013.1 Pourtant, certains chercheurs continuent de les utiliser de manière interchangeable. Par exemple, dans un article récent publié dans Nicotine and Tobacco Research4, bien que l’approche d’analyse des données soit détaillée, ils ont utilisé le terme de modèles de  » régression logistique multivariée  » alors que leur analyse était basée sur une  » régression logistique multivariable  » ; cela a été souligné dans la légende du tableau 2 du même article. Cela s’est également produit dans d’autres articles publiés à Nicotine and Tobacco Research5,6 et ailleurs.7-9 Par conséquent, nous profitons de cette occasion pour souligner une distinction claire et identifier les nuances qui rendent ces types d’analyses différentes les unes des autres.

L’analyse de régression est une méthode de modélisation qui étudie la relation entre un résultat et une ou plusieurs variables indépendantes.3 La plupart des modèles de régression se caractérisent par la façon dont la variable de résultat est modélisée. Par exemple, dans la régression logistique, le résultat est dichotomique (par exemple, succès/échec), dans la régression linéaire, il est continu et dans l’analyse de survie, considéré comme un temps par événement.1,3,10

Alors qu’un modèle de régression logistique simple présente un résultat binaire et un prédicteur, un modèle de régression logistique multiple ou multivariable trouve l’équation qui prédit le mieux la valeur de réussite de la variable de réponse binaire Y π(x)=P(Y=1|X=x) pour les valeurs de plusieurs variables X (prédicteurs). Comme le montre l’équation 1, le coefficient β représente la quantité de changement dans le logit (log-odds) par changement d’une unité de X (prédicteur) pour un modèle de régression logistique simple.

logit=log(π(x)1-π(x))=β0+β1x

(1)

Au contraire, un modèle de régression logistique multivariable ou multiple prendrait la forme

log(πi1-πi)=β0+β1X1+β2X2+…+βnXn

(2)

où π(x)=P(Y=1|X=x) est une variable indépendante binaire Y avec deux catégories, X est un prédicteur unique dans le modèle de régression simple, et X1, X2,…,Xn sont les prédicteurs dans le modèle multivariable. Il existe également des situations où la variable de résultat catégorique a plus de deux niveaux (c’est-à-dire une variable polytomique avec plus de deux catégories qui peuvent être soit ordinales, soit nominales).3 Comme l’ont déjà expliqué Hidalgo et Goodman1, les modèles de régression linéaire et à risques proportionnels peuvent être simples ou multivariables. Chacune de ces structures de modèle comporte une seule variable de résultat et une ou plusieurs variables indépendantes ou prédicteurs.

Dans de nombreuses analyses statistiques, les données de résultat sont multivariées ou corrélées car elles sont souvent issues d’études longitudinales (c’est-à-dire des observations répétées sur le même sujet d’étude), et il est intéressant d’avoir un modèle qui conserve une interprétation logistique marginale pour les résultats individuels tout en tenant compte de manière appropriée de la structure de dépendance10.

Un modèle de régression logistique multivarié aurait la forme

log(πij1-πij)=β0+β1X1+β2X2+…+βnXn+αi

(3)

où les relations entre les multiples variables dépendantes – mesures des multiples observations répétées j au sein du cluster i – et un ensemble de variables prédictives (ie, Xs) sont examinées. Pour cette équation, un effet aléatoire, α i, est souvent supposé suivre une distribution normale avec une moyenne de zéro et une variance constante (ie, αi∼N(0,σα2)).10

En comprenant la distinction entre les modèles de régression multivariés et multivariables, le public des articles peut mieux apprécier les objectifs et les résultats de l’étude. En outre, il s’agit d’une divergence notable non seulement pour contourner la confusion parmi le public des articles scientifiques, mais aussi pour informer plus précisément les chercheurs novices qui cherchent à publier leurs manuscrits dans des revues à comité de lecture de haut rang.

Matériel supplémentaire

Un formulaire de contribution détaillant l’implication spécifique de chaque auteur dans ce contenu, ainsi que toutes les données supplémentaires, sont disponibles en ligne à l’adresse https://academic.oup.com/ntr.

Reconnaissances

Nous remercions le professeur David W. Hosmer pour ses précieux commentaires sur cette lettre.

Financement

Aucune déclaration.

Déclaration d’intérêts

Aucune déclaration.

Hidalgo
B

,

Goodman
M

.

Régression multivariée ou multivariable ?
Am J Public Health.
2013

;

103

(

1

):

39

40

.

Katz
MH

.

L’analyse multivariable : un abécédaire pour les lecteurs de la recherche médicale

.

Ann Intern Med.
2003

;

138

(

8

):

644

650

.

Van Belle
G

,

Fisher
LD

,

Heagerty
PJ

,

Lumley
T.
Biostatistiques : Une méthodologie pour les sciences de la santé

. 2e éd.

Hoboken, NJ

:

John Wiley & Sons

;

2004

.

Jiang
N

,

Siman
N

,

Cleland
CM

, et al.

Effectivité des conseils de sevrage tabagique dispensés par des agents de santé villageois au Vietnam

.

Nicotine Tob Res.
2019

;

21

(

11

):

1524

1530

.

McCabe
SE

,

West
BT

,

McCabe
VV

.

Associations entre l’apparition précoce de l’utilisation de la E-cigarette et le tabagisme et la consommation d’autres substances chez les adolescents américains : une étude nationale

.

Nicotine Tob Res.
2018

;

20

(

8

):

923

930

.

Coleman
BN

,

Apelberg
BJ

,

Ambrose
BK

, et al.

Association entre l’utilisation de la cigarette électronique et l’ouverture à la cigarette chez les jeunes adultes américains

.

Nicotine Tob Res.
2015

;

17

(

2

):

212

218

.

Rendle
KA

,

Sarma
EA

,

Quaife
SL

, et al.

La reconnaissance des symptômes du cancer et les retards anticipés dans la recherche de soins chez les adultes américains

.

Am J Prev Med.
2019

;

57

(

1

):

e1

e9

.

Mazurek
JM

,

White
GE

,

Moorman
JE

,

Storey
E

.

Vaccination contre la grippe chez les personnes souffrant d’asthme lié au travail

.

Am J Prev Med.
2014

;

47

(

2

):

203

211

.

Byron
MJ

,

Jeong
M

,

Abrams
DB

,

Brewer
NT

.

Perception erronée du public selon laquelle les cigarettes à très faible teneur en nicotine sont moins cancérigènes

.

Tob Control.
2018

;

27

(

6

):

712

714

.

Hosmer

Jr

DW

,

Lemeshow
S

,

Sturdivant
RX.
Régression logistique appliquée

.

Hoboken, NJ

:

John Wiley & Sons

;

2013

.

© The Author(s) 2020. Publié par Oxford University Press au nom de la Société pour la recherche sur la nicotine et le tabac. Tous droits réservés.Pour toute autorisation, veuillez envoyer un courriel à : [email protected].
Cet article est publié et distribué selon les termes du modèle de publication des revues standard d’Oxford University Press (https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *