Distinction Between Two Statistical Terms: Multivariate and Multivariate Logistic Regression
Dear Editor,
Twee statistische termen, multivariate en multivariabele, worden in de literatuur herhaaldelijk en door elkaar gebruikt, terwijl ze in feite staan voor twee verschillende methodologische benaderingen.1 Terwijl het multivariabele model wordt gebruikt voor de analyse met één uitkomst (afhankelijk) en meerdere onafhankelijke (a.k.a., voorspellende of verklarende) variabelen,2,3 wordt multivariaat gebruikt voor de analyse met meer dan één uitkomst (bv. herhaalde metingen) en meerdere onafhankelijke variabelen.1 De termen worden in de literatuur echter soms door elkaar gebruikt omdat niet veel onderzoekers aandacht hebben voor het onderscheid. Het verschil tussen deze twee termen werd in 2013 onder de aandacht gebracht door Hidalgo en Goodman.1 Toch blijven sommige onderzoekers deze termen door elkaar heen rapporteren. Bijvoorbeeld, in een recent artikel gepubliceerd in Nicotine and Tobacco Research,4 hoewel de aanpak van de gegevensanalyse gedetailleerd was, gebruikten ze de term “multivariate logistische regressie”-modellen terwijl hun analyse was gebaseerd op “multivariabele logistische regressie”; dit werd benadrukt in de legenda van tabel 2 in hetzelfde artikel. Dit is ook gebeurd in andere artikelen gepubliceerd in Nicotine and Tobacco Research5,6 en elders.7-9 Daarom maken we van deze gelegenheid gebruik om een duidelijk onderscheid te benadrukken en de nuances aan te geven die deze soorten analyses van elkaar doen verschillen.
Regressieanalyse is een modelleringsmethode die de relatie onderzoekt tussen een uitkomst en onafhankelijke variabele(n).3 De meeste regressiemodellen worden gekarakteriseerd in termen van de manier waarop de uitkomstvariabele wordt gemodelleerd. Bijvoorbeeld, in logistische regressie is de uitkomst dichotoom (bijv. succes/falen), in lineaire regressie is deze continu, en in overlevingsanalyse beschouwd als een tijd-tot-gebeurtenis.1,3,10
Terwijl een eenvoudig logistisch regressiemodel een binaire uitkomst en één voorspeller heeft, vindt een meervoudig of multivariabel logistisch regressiemodel de vergelijking die de succeswaarde van de π(x)=P(Y=1|X=x) binaire responsvariabele Y het best voorspelt voor de waarden van verscheidene X variabelen (voorspellers). Zoals uit vergelijking 1 blijkt, vertegenwoordigt de β-coëfficiënt de mate van verandering in de logit (log-odds) per verandering van één eenheid in X (voorspeller) voor een eenvoudig logistisch regressiemodel.
(1)
In plaats daarvan, zou een multivariabel of meervoudig logistisch regressiemodel de vorm
(2)
waar π(x)=P(Y=1|X=x) een binaire onafhankelijke variabele Y met twee categorieën is, X een enkele voorspeller is in het eenvoudige regressiemodel, en X1, X2,…,Xn de voorspellers zijn in het multivariabele model. Ook zijn er situaties waarin de categorische uitkomstvariabele meer dan twee niveaus heeft (d.w.z. polytome variabele met meer dan twee categorieën die ordinaal of nominaal kunnen zijn).3 Zoals eerder besproken door Hidalgo en Goodman,1 kunnen lineaire en proportionele hazards regressiemodellen eenvoudig of multivariabel zijn. Elk van deze modelstructuren heeft een enkele uitkomstvariabele en een of meer onafhankelijke of voorspellende variabelen.
In veel statistische analyses zijn uitkomstgegevens multivariaat of gecorreleerd omdat ze vaak afkomstig zijn van longitudinale studies (d.w.z. herhaalde waarnemingen bij dezelfde proefpersoon), en het is aantrekkelijk om een model te hebben dat een marginale logistische interpretatie voor de individuele uitkomsten behoudt en tegelijkertijd op de juiste wijze rekening houdt met de afhankelijkheidsstructuur.10
Een multivariaat logistisch regressiemodel zou de vorm
(3)
waarbij de relaties tussen meerdere afhankelijke variabelen – metingen van meerdere herhaalde waarnemingen j binnen cluster i – en een reeks voorspellende variabelen (d.w.z, Xs) worden onderzocht. Voor deze vergelijking wordt vaak aangenomen dat een willekeurig effect, α i, een normale verdeling volgt met gemiddelde nul en constante variantie (d.w.z. αi∼N(0,σα2)).10
Door het onderscheid tussen multivariate en multivariabele regressiemodellen te begrijpen, kan het publiek van artikelen de doelstellingen en bevindingen van de studie beter inschatten. Bovendien is dit een opmerkelijke discrepantie, niet alleen om verwarring bij het publiek van wetenschappelijke artikelen te voorkomen, maar ook om beginnende onderzoekers die hun manuscripten in hoog aangeschreven peer-reviewed tijdschriften willen publiceren, nauwkeuriger te informeren.
Aanvullend materiaal
Een Contributorship Form waarin de specifieke betrokkenheid van elke auteur bij deze inhoud wordt gedetailleerd, evenals eventuele aanvullende gegevens, zijn online beschikbaar op https://academic.oup.com/ntr.
Aankondigingen
Wij danken Prof. David W. Hosmer voor zijn onschatbare commentaar op deze brief.
Financiering
Niet aangegeven.
Belangenverklaringen
Niets verklaard.
,
.
;
(
):
–
.
.
.
;
(
):
–
.
,
,
,
. 2nd ed.
:
;
.
,
,
, et al.
.
;
(
):
–
.
,
,
.
.
;
(
):
–
.
,
,
, et al.
.
;
(
):
–
.
,
,
, et al.
.
;
(
):
–
.
,
,
,
.
.
;
(
):
–
.
,
,
,
.
.
;
(
):
–
.
Jr
,
,
.
:
;
. © De auteur(s) 2020. Gepubliceerd door Oxford University Press namens de Society for Research on Nicotine and Tobacco. Alle rechten voorbehouden.Voor toestemmingen kunt u mailen naar: [email protected].