Distinção Entre Dois Termos Estatísticos: Regressão Logística Multivariável e Multivariável
Dear Editor,
Dois termos estatísticos, multivariados e multivariados, são repetidamente e intercambiáveis na literatura, quando na realidade representam duas abordagens metodológicas distintas.1 Enquanto o modelo multivariável é utilizado para a análise com um resultado (dependente) e múltiplos independentes (a.k.a.), preditor ou explicativo,2,3 variáveis multivariadas são utilizadas para a análise com mais de 1 resultado (por exemplo, medidas repetidas) e múltiplas variáveis independentes.1 No entanto, os termos são por vezes utilizados de forma intercambiável na literatura, uma vez que não há muitos investigadores que estejam atentos à distinção. A diferença entre estes dois termos foi trazida à atenção por Hidalgo e Goodman em 2013.1 No entanto, alguns investigadores continuam a relatar estes termos de forma intercambiável. Por exemplo, num artigo recente publicado na Nicotine and Tobacco Research,4 embora a abordagem de análise de dados fosse detalhada, utilizaram o termo “regressão logística multivariada” enquanto a sua análise se baseava na “regressão logística multivariada”; isto foi enfatizado na lenda do Quadro 2 no mesmo artigo. Isto também ocorreu noutros artigos publicados na Nicotine and Tobacco Research5,6 e noutros locais.7-9 Por conseguinte, aproveitamos esta oportunidade para destacar uma distinção clara e identificar as nuances que tornam estes tipos de análises diferentes umas das outras.
Análise de regressão é um método de modelização que investiga a relação entre um resultado e uma variável(s) independente(s).3 A maioria dos modelos de regressão são caracterizados em termos da forma como a variável de resultado é modelada. Por exemplo, na regressão logística, o resultado é dicotómico (por exemplo, sucesso/falha), na regressão linear é contínuo, e na análise de sobrevivência é considerado como um tempo para o evento.1,3,10
Enquanto um modelo de regressão logística simples tem um resultado binário e um preditor, um modelo de regressão logística múltipla ou multivariável encontra a equação que melhor prevê o valor de sucesso da variável de resposta binária Y π(x)=P(Y=1|X=x) para os valores de várias variáveis X (preditores). Como mostrado na equação 1, o coeficiente β representa a quantidade de mudança no logit (log-odds) por mudança de uma unidade em X (preditor) para um modelo de regressão logística simples.
(1)
em vez disso, um modelo de regressão logística multivariável ou múltipla assumiria a forma
(2)
where π(x)=P(Y=1|X=x) é uma variável Y binária independente com duas categorias, X é um único preditor no modelo de regressão simples, e X1, X2,…,Xn são os preditores no modelo multivariável. Também há situações em que a variável de resultado categórica tem mais de dois níveis (ou seja, variável politomatosa com mais de duas categorias que podem ser ordinais ou nominais).3 Como anteriormente discutido por Hidalgo e Goodman,1 os modelos de regressão de perigos lineares e proporcionais podem ser simples ou multivariáveis. Cada uma destas estruturas modelo tem uma única variável de resultado e uma ou mais variáveis independentes ou preditoras.
Em muitas análises estatísticas, os dados de resultados são multivariados ou correlacionados porque são frequentemente derivados de estudos longitudinais (ou seja, observações repetidas sobre o mesmo assunto de estudo), e é apelativo ter um modelo que mantenha uma interpretação logística marginal para os resultados individuais, ao mesmo tempo que contabiliza adequadamente a estrutura de dependência.10
Um modelo de regressão logística multivariada teria a forma
(3)
onde as relações entre múltiplas variáveis dependentes – medidas de múltiplas observações repetidas j dentro do cluster i – e um conjunto de variáveis preditoras (ou seja, Xs) são examinados. Para esta equação, assume-se frequentemente um efeito aleatório, α i, que segue uma distribuição normal com média zero e variância constante (ou seja, αi∼N(0,σα2).10
Ao compreender a distinção entre modelos de regressão multivariados e multivariados, o público dos artigos pode avaliar melhor os objectivos e resultados do estudo. Além disso, esta é uma discrepância notável não só para contornar a confusão entre o público de artigos científicos, mas também para informar com mais precisão os investigadores novatos que procuram publicar os seus manuscritos em revistas de alto nível revistas por pares.
Material Suplementar
Um Formulário de Contribuição detalhando o envolvimento específico de cada autor com este conteúdo, bem como quaisquer dados suplementares, estão disponíveis online em https://academic.oup.com/ntr.
Agradecimentos
Agradecemos ao Prof. David W. Hosmer pelos seus comentários inestimáveis sobre esta carta.
Funding
Nenhum declarado.
Declaração de Interesses
Nenhum declarado.
,
.
;
(
):
–
.
.
.
;
(
):
–
.
,
,
,
. 2ª ed.
:
;
.
,
,
, et al.
.
;
(
):
–
.
,
,
.
.
;
(
):
–
.
,
,
, et al.
.
;
(
):
–
.
,
,
, et al.
.
;
(
):
->div>e9
.
,
,
,
.
.
;
(
):
–
.
,
,
,
.
.
;
(
):
–
.
Jr
,
,
.
:
;
.