Unterscheidung zwischen zwei statistischen Begriffen: Multivariable und multivariate logistische Regression
Liebe Redaktion,
Zwei statistische Begriffe, multivariat und multivariabel, werden in der Literatur immer wieder austauschbar verwendet, obwohl sie eigentlich für zwei unterschiedliche methodische Ansätze stehen.1 Während das multivariable Modell für die Analyse mit einer Ergebnis- (abhängigen) und mehreren unabhängigen (a.k.a., Während das multivariable Modell für die Analyse mit einem Ergebnis (abhängig) und mehreren unabhängigen (auch Prädiktor- oder erklärenden) Variablen verwendet wird,2,3 wird das multivariate Modell für die Analyse mit mehr als einem Ergebnis (z. B. wiederholte Messungen) und mehreren unabhängigen Variablen verwendet.1 Die Begriffe werden in der Literatur jedoch manchmal synonym verwendet, da nicht viele Forscher auf die Unterscheidung achten. Auf den Unterschied zwischen diesen beiden Begriffen wurde von Hidalgo und Goodman im Jahr 2013 aufmerksam gemacht.1 Dennoch verwenden einige Forscher diese Begriffe weiterhin austauschbar. In einem kürzlich in der Fachzeitschrift Nicotine and Tobacco Research veröffentlichten Artikel4 beispielsweise verwendeten sie, obwohl der Ansatz der Datenanalyse detailliert beschrieben wurde, den Begriff „multivariate logistische Regressionsmodelle“, während ihre Analyse auf der „multivariablen logistischen Regression“ basierte; dies wurde in der Legende von Tabelle 2 im selben Artikel hervorgehoben. Dies ist auch in anderen Artikeln aufgetreten, die in Nicotine and Tobacco Research5,6 und anderswo veröffentlicht wurden.7-9 Daher nutzen wir diese Gelegenheit, um eine klare Unterscheidung hervorzuheben und die Nuancen zu identifizieren, die diese Arten von Analysen voneinander unterscheiden.
Die Regressionsanalyse ist eine Modellierungsmethode, die die Beziehung zwischen einem Ergebnis und einer oder mehreren unabhängigen Variablen untersucht.3 Die meisten Regressionsmodelle werden in Bezug auf die Art und Weise charakterisiert, wie die Ergebnisvariable modelliert wird. Bei der logistischen Regression ist das Ergebnis z. B. dichotom (z. B. Erfolg/Misserfolg), bei der linearen Regression ist es kontinuierlich und bei der Überlebensanalyse wird es als Zeit-Ereignis betrachtet.1,3,10
Während ein einfaches logistisches Regressionsmodell ein binäres Ergebnis und einen Prädiktor hat, findet ein multiples oder multivariables logistisches Regressionsmodell die Gleichung, die den Erfolgswert der binären Antwortvariablen Y für die Werte mehrerer X-Variablen (Prädiktoren) am besten vorhersagt π(x)=P(Y=1|X=x). Wie in Gleichung 1 gezeigt, stellt der β-Koeffizient den Betrag der Änderung des Logits (Log-Ods) pro Einheitsänderung in X (Prädiktor) für ein einfaches logistisches Regressionsmodell dar.
(1)
Anstatt, würde ein multivariables oder multiples logistisches Regressionsmodell die Form
(2)
wobei π(x)=P(Y=1|X=x) eine binäre unabhängige Variable Y mit zwei Kategorien ist, X ist ein einzelner Prädiktor im einfachen Regressionsmodell, und X1, X2,…,Xn sind die Prädiktoren im multivariablen Modell. Es gibt auch Situationen, in denen die kategoriale Ergebnisvariable mehr als zwei Stufen hat (d. h. eine polytome Variable mit mehr als zwei Kategorien, die entweder ordinal oder nominal sein können).3 Wie bereits von Hidalgo und Goodman1 erörtert, können lineare und proportionale Hazard-Regressionsmodelle einfach oder multivariabel sein. Jede dieser Modellstrukturen hat eine einzelne Ergebnisvariable und eine oder mehrere unabhängige oder Prädiktorvariablen.
In vielen statistischen Analysen sind die Ergebnisdaten multivariat oder korreliert, da sie oft aus Längsschnittstudien stammen (d.h. wiederholte Beobachtungen am gleichen Studienteilnehmer), und es ist ansprechend, ein Modell zu haben, das eine marginale logistische Interpretation für die einzelnen Ergebnisse beibehält und gleichzeitig die Abhängigkeitsstruktur angemessen berücksichtigt.10
Ein multivariates logistisches Regressionsmodell hätte die Form
(3)
wobei die Beziehungen zwischen mehreren abhängigen Variablen – Messungen von mehrfach wiederholten Beobachtungen j innerhalb des Clusters i – und einem Satz von Prädiktorvariablen (d.h., Xs) untersucht werden. Für diese Gleichung wird oft angenommen, dass ein zufälliger Effekt, α i, einer Normalverteilung mit Mittelwert Null und konstanter Varianz folgt (d. h. αi∼N(0,σα2)).10
Durch das Verständnis der Unterscheidung zwischen multivariaten und multivariablen Regressionsmodellen kann das Publikum von Artikeln die Ziele und Ergebnisse der Studie besser einschätzen. Darüber hinaus ist dies eine bemerkenswerte Diskrepanz, nicht nur um Verwirrung beim Publikum wissenschaftlicher Artikel zu vermeiden, sondern auch um unerfahrene Forscher, die versuchen, ihre Manuskripte in hochrangigen peer-reviewed Zeitschriften zu veröffentlichen, genauer zu informieren.
Ergänzendes Material
Ein Mitwirkungsformular, das die spezifische Beteiligung jedes Autors an diesem Inhalt detailliert beschreibt, sowie alle ergänzenden Daten sind online verfügbar unter https://academic.oup.com/ntr.
Danksagungen
Wir danken Prof. David W. Hosmer für seine wertvollen Kommentare zu diesem Brief.
Förderung
Keine angegeben.
Interessenbekundung
Keine angegeben.
,
.
;
(
):
–
.
.
.
;
(
):
–
.
,
,
,
. 2nd ed.
:
;
.
,
,
, et al.
.
;
(
):
–
.
,
,
.
.
;
(
):
–
.
,
,
, et al.
.
;
(
):
–
.
,
,
, et al.
.
;
(
):
–
.
,
,
,
.
.
;
(
):
–
.
,
,
,
.
.
;
(
):
–
.
Jr
,
,
.
:
;
. © The Author(s) 2020. Veröffentlicht von Oxford University Press im Auftrag der Society for Research on Nicotine and Tobacco. All rights reserved.For permissions, please e-mail: [email protected].
veröffentlicht und verbreitet.