Articles

Entender los resultados de un análisis

Estadística descriptiva de las variables

NLREG imprime una variedad de estadísticas al final de cada análisis. Para cada variable, NLREG muestra el valor mínimo, el valor máximo, el valor medio y la desviación estándar. Debe confirmar que estos valores están dentro de los rangos que espera.

Estimaciones de parámetros

Para cada parámetro, NLREG muestra la estimación inicial del parámetro (que usted especificó en la declaración PARAMETER, o 1 por defecto), la estimación final (máxima verosimilitud), el error estándar del valor del parámetro estimado, el estadístico «t» comparando el valor del parámetro estimado con cero, y la importancia del estadísticot. Se muestran nueve dígitos significativos para las estimaciones de los parámetros. Si necesita determinar los parámetros con mayor precisión, utilice la sentenciaPOUTPUT.

Los valores finales de los parámetros estimados son los resultados del análisis. Sustituyendo estos valores en la ecuación que especificó para ser ajustada a los datos, tendrá una función que puede ser utilizada para predecir el valor de la variable dependiente basada en un conjunto de valores para las variables independientes. Por ejemplo, si la ecuación que se ajusta es

y = p0 + p1*x

y las estimaciones finales son 1,5 para p0 y 3 para p1, entonces la ecuación

y = 1.5 + 3*x

es la mejor ecuación de esta forma que predice el valor de y basado en el valor de x.

Estadística t

La estadística «t» se calcula dividiendo el valor estimado del parámetro por su error estándar. Este estadístico es una medida de la probabilidad de que el valor real del parámetro no sea cero. Cuanto mayor sea el valor absoluto de t, menor será la probabilidad de que el valor real del parámetro sea cero.

Prob(t)

El valor «Prob(t)» es la probabilidad de obtener el valor estimado del parámetro si el valor real del parámetro es cero. Cuanto menor sea el valor de Prob(t), más significativo será el parámetro y menos probable será que el valor real del parámetro sea cero. Por ejemplo, supongamos que el valor estimado de un parámetro es 1,0 y su error estándar es 0,7. Entonces el valor de t sería 1,43 (1,0/0,7). Si el valor de Prob(t) calculado es 0,05, esto indica que sólo hay un 0,05 (5%) de posibilidades de que el valor real del parámetro sea cero. Si el valor de Prob(t) era 0,001, esto indica que sólo hay una posibilidad entre 1000 de que el parámetro sea cero. Si Prob(t) fuera 0,92 esto indica que hay un 92% de probabilidad de que el valor real del parámetro pueda ser cero; esto implica que el término de la ecuación de regresión que contiene el parámetro puede ser eliminado sin afectar significativamente la precisión de la regresión.

Una cosa que puede causar que Prob(t) sea 1,00 (o cerca de 1,00) es tener parámetros redundantes. Si al final de un análisis varios parámetros tienen valores de Prob(t) de 1,00, compruebe la función cuidadosamente para ver si uno o más de los parámetros pueden ser eliminados.Intente también utilizar una sentencia DOUBLE para establecer uno o más de los parámetros a un valor fijo razonable; si los otros parámetros se vuelven repentinamente significativos (es decir, Prob(t) mucho menos de 1,00) entonces los parámetros son mutuamente dependientes y uno o más deben ser eliminados.

La probabilidad de la estadística t se calcula utilizando una prueba de dos caras. La sentencia CONFIDENCE puede utilizarse para que NLREG imprima intervalos de confianza para los valores de los parámetros. La regresión SQUARE.NLRexample incluye un parámetro extraño (p0) cuyo valor estimado es mucho menor que su error estándar; el valor de Prob(t) es 0,99982 indicando que hay una alta probabilidad de que el valor sea cero.

Suma final de desviaciones al cuadrado

Además de los valores de las variables y los parámetros, NLREG muestra varios estadísticos que indican lo bien que la ecuación se ajusta a los datos. La «Suma final de desviaciones al cuadrado» es la suma de las diferencias al cuadrado entre el valor real de la variable dependiente para cada observación y el valor predicho por la función, utilizando las estimaciones finales de los parámetros.

Desviación media y máxima

La «Desviación media» es la media de todas las observaciones del valor absoluto de la diferencia entre el valor real de la variable dependiente y su valor predicho.

La «Desviación máxima para cualquier observación» es la diferencia máxima (sin tener en cuenta el signo) entre el valor real y el valor predicho de la variable dependiente para cualquier observación.

Proporción de la varianza explicada

La «Proporción de la varianza explicada (R2)» indica cuánto mejor predice la función la variable dependiente que si sólo se utiliza el valor medio de la variable dependiente. También se conoce como «coeficiente de determinación múltiple». Se calcula de la siguiente manera: Supongamos que no ajustamos una ecuación a los datos e ignoramos toda la información sobre las variables independientes en cada observación. Entonces, la mejor predicción del valor de la variable dependiente para cualquier observación sería el valor medio de la variable dependiente sobre todas las observaciones. La «varianza» es la suma de las diferencias al cuadrado entre el valor del tema y el valor de la variable dependiente para cada observación. Ahora, si utilizamos nuestra función ajustada para predecir el valor de la variable dependiente, en lugar de utilizar el valor medio, se puede calcular un segundo tipo de varianza tomando la suma de la diferencia al cuadrado entre el valor de la variable dependiente predicho por la función y el valor real. Es de esperar que la varianza calculada utilizando los valores predichos por la función sea mejor (es decir, un valor menor) que la varianza calculada utilizando el valor medio. La «Proporción de varianza explicada» se calcula como 1 – (varianza utilizando el valor predicho / varianza utilizando la media). Si la función predice perfectamente los datos observados, el valor de este estadístico será 1,00 (100%). Si la función no predice mejor la variable dependiente que utilizando la media, el valor será 0,00.

Coeficiente de determinación múltiple ajustado

El «coeficiente de determinación múltiple ajustado (Ra2)» es una estadística R2 ajustada por el número de parámetros en la ecuación y el número de observaciones de datos. Es una estimación más conservadora del porcentaje de varianza explicada, especialmente cuando el tamaño de la muestra es pequeño en comparación con el número de parámetros.

Estadística de Durbin-Watson

La «prueba de autocorrelación de Durbin-Watson» es una estadística que indica la probabilidad de que los valores de desviación (error) de la regresión tengan un componente de autorregresión de primer orden. Los modelos de regresión asumen que las desviaciones de error no están correlacionadas.

En los negocios y la economía, muchas aplicaciones de regresión implican datos de series temporales.

Si una función no periódica, como una línea recta, se ajusta a datos periódicos, las desviaciones tienen una forma periódica y están correlacionadas positivamente a lo largo del tiempo; se dice que estas desviaciones están «autocorrelacionadas» o «correlacionadas en serie». Las desviaciones autocorrelacionadas también pueden indicar que la forma de la función que se ajusta es inadecuada para los valores de los datos (por ejemplo, una ecuación lineal ajustada a datos cuadráticos).

Si las desviaciones están autocorrelacionadas, puede haber una serie de consecuencias para los resultados calculados: 1) Los coeficientes de regresión estimados ya no tienen la propiedad de varianza mínima; 2) el error cuadrático medio (MSE) puede subestimar seriamente la varianza de los términos de error; 3) el error estándar calculado de los valores de los parámetros estimados puede subestimar el verdadero error estándar, en cuyo caso los valores t y los intervalos de confianza pueden ser incorrectos. Tenga en cuenta que si se ajusta una función periódica adecuada a los datos periódicos, las desviaciones de la regresión no estarán correlacionadas porque el ciclo de los valores de los datos se tiene en cuenta en la función ajustada.

Los valores pequeños del estadístico Durbin-Watson indican la presencia de autocorrelación. Consulte las tablas de significación en un buen libro de estadística para obtener interpretaciones exactas; sin embargo, un valor inferior a 0,80 suele indicar que la autocorrelación es probable. Si el estadístico Durbin-Watson indica que los valores residuales están autocorrelacionados, se recomienda utilizar las sentencias RPLOT y/o NPLOT para mostrar un gráfico de los valores residuales.

Si los datos tienen un componente regular y periódico, puede intentar incluir un término sin en su función. El ejemplo TREND.NLR ajusta una función con un término sin a los datos que tienen un crecimiento lineal con un componente sin superpuesto. Con el término sin, la función tiene un valor residual de 29,39 y un valor de Durbin-Watson de 2,001; sin el término sin (es decir, ajustando sólo una función lineal) el valor residual es de 119,16 y el valor de Durbin-Watson es de 0,624, lo que indica una fuerte autocorrelación. La forma general del término asin es

amplitud * sin(2*pi*(x-fase)/periodo)

donde la amplitud es un parámetro que determina la magnitud del componente sin, el periodo determina el periodo de la oscilación, y la fase determina la fase relativa al valor inicial. Si conoce el período (por ejemplo, 12 para datos mensuales con un ciclo anual) debe especificarlo en lugar de que NLREG intente determinarlo.

Si se utiliza una sentencia NPLOT para producir un gráfico de probabilidad normal de los residuos, la correlación entre los residuos y sus valores esperados (suponiendo que se distribuyen normalmente) se imprime en el listado. Si los residuos se distribuyen normalmente, la correlación debería estar cerca de 1,00. Una correlación inferior a 0,94 sugiere que los residuos no se distribuyen normalmente.

Tabla de análisis de la varianza

Una tabla de «análisis de la varianza» proporciona estadísticas sobre la significación global del modelo ajustado.

Valor F y Prob(F)

Los estadísticos «Valor F» y «Prob(F)» prueban la significación global del modelo de regresión. En concreto, prueban la hipótesis nula de que todos los coeficientes de regresión son iguales a cero. Se compara el modelo completo con un modelo sin variables y en el que la estimación de la variable dependiente es la media de los valores de la variable dependiente. El valor F es el cociente de la suma de cuadrados de la regresión media dividido por la suma de cuadrados del error medio. Su valor oscilará entre cero y un número arbitrariamente grande.

El valor de Prob(F) es la probabilidad de que la hipótesis nula para el modelo completo sea verdadera (es decir, que todos los coeficientes de regresión sean cero). Por ejemplo, si Prob(F) tiene un valor de 0,01000, entonces hay 1 posibilidad entre 100 de que todos los parámetros de regresión sean cero. Este valor tan bajo implicaría que al menos algunos de los parámetros de regresión son cero y que la ecuación de regresión tiene cierta validez en el ajuste de los datos (es decir, las variables independientes no son puramente aleatorias con respecto a la variable dependiente).

Matriz de correlación

La sentencia CORRELATE se puede utilizar para hacer que NLREG imprima una matriz de correlación. Un «coeficiente de correlación» es un valor que indica si existe una relación lineal entre dos variables. El valor absoluto del coeficiente de correlación estará en el rango de 0 a 1. Un valor de 0 indica que no hay relación, mientras que un valor de 1 indica que hay una correlación perfecta y que las dos variables varían juntas. El signo del coeficiente de correlación será negativo si existe una relación inversa entre las variables (es decir, cuando una aumenta, la otra disminuye).

Por ejemplo, considere un estudio que mide la altura y el peso de un grupo de individuos. El coeficiente de correlación entre la altura y el peso probablemente tendrá un valor positivo algo inferior a uno porque las personas altas tienden a pesar más que las bajas. Un estudio que compare el número de cigarrillos fumados con la edad al morir probablemente tendrá un valor de correlación negativo.

Una matriz de correlación muestra la correlación entre cada par de variables. La diagonal de la matriz tiene valores de 1,00 porque una variable siempre tiene una correlación perfecta consigo misma. La matriz es simétrica sobre la diagonal porque X correlacionado con Y es lo mismo que Y correlacionado conX.

Los problemas ocurren en el análisis de regresión cuando se especifica una función que tiene múltiples variables independientes que están altamente correlacionadas. La interpretación común de los parámetros de regresión calculados como la medición del cambio en el valor esperado de la variable dependiente cuando la variable independiente correspondiente varía mientras todas las demás variables independientes se mantienen constantes no es totalmente aplicable cuando existe un alto grado de correlación. Esto se debe al hecho de que con variables independientes altamente correlacionadas es difícil atribuir los cambios en la variable dependiente a una de las variables independientes en lugar de a otra. Los siguientes son los efectos de ajustar una función con variables independientes altamente correlacionadas:

1. Pueden producirse grandes cambios en los parámetros de regresión estimados cuando se añade o elimina una variable, o cuando se añade o elimina una observación.

2. Las pruebas individuales de los parámetros de regresión pueden mostrar que los parámetros no son significativos.

3. Los parámetros de regresión pueden tener el signo algebraico opuesto al esperado por consideraciones teóricas o prácticas.

4. Los intervalos de confianza para parámetros de regresión importantes pueden ser mucho más amplios de lo que sería el caso. La solución a estos problemas puede ser seleccionar la más significativa de las variables correlacionadas y utilizarla sólo en la función.

Nota: los coeficientes de correlación indican el grado de asociación lineal entre las variables.Las variables pueden estar altamente relacionadas de forma no lineal y aún así tener un coeficiente de correlación cercano a 0.

Página principal de NLREG

Dejar una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *