Comprendre les résultats d'une régression

Statistiques descriptives des variables

NLREG imprime une variété de statistiques à la fin de chaque analyse. Pour chaque variable, NLREG liste la valeur minimale, la valeur maximale,la valeur moyenne et l’écart type. Vous devez confirmer que ces valeurs se situent dans les fourchettes attendues.

Estimations des paramètres

Pour chaque paramètre, NLREGaffiche l’estimation initiale du paramètre (que vous avez spécifiée dans l’instruction PARAMETER, ou 1 par défaut), l’estimation finale (maximum de vraisemblance), l’erreur standard de la valeur estimée du paramètre, la statistique »t » comparant la valeur estimée du paramètre à zéro, et la signification de la statistique »t ». Neuf chiffres significatifs sont affichés pour les estimations des paramètres. Si vous avez besoin de déterminer les paramètres avec plus de précision, utilisez l’instructionPOUTPUT.

Les valeurs finales des paramètres estimés sont les résultats de l’analyse. En substituant ces valeurs dans l’équation que vous avez spécifiée pour être adaptée aux données, vous disposerez d’une fonction qui pourra être utilisée pour prédire la valeur de la variable dépendante en fonction d’un ensemble de valeurs pour les variables indépendantes. Par exemple, si l’équation à ajuster est

y = p0 + p1*x

et que les estimations finales sont 1,5 pour p0 et 3 pour p1, alors l’équation

y = 1.5 + 3*x

est la meilleure équation de cette forme qui permettra de prédire la valeur de y en fonction de la valeur de x.

Statistique t

La statistique « t » est calculée en divisant la valeur estimée du paramètre par son erreur standard. Cette statistique est une mesure de la probabilité que la valeur réelle du paramètre ne soit pas nulle. Plus la valeur absolue de t est grande, moins il est probable que la valeur réelle du paramètre soit nulle.

Prob(t)

La valeur « Prob(t) » est la probabilité d’obtenir la valeur estimée du paramètre si la valeur réelle du paramètre est nulle. Plus la valeur de Prob(t) est petite, plus le paramètre est significatif et moins il est probable que la valeur réelle du paramètre soit nulle. Par exemple, supposons que la valeur estimée d’un paramètre soit de 1,0 et que son erreur standard soit de 0,7. La valeur de t serait alors de 1,43 (1,0/0,7). Si la valeur de la Prob(t) calculée était de 0,05, cela indique qu’il n’y a que 0,05 (5 %) de chance que la valeur réelle du paramètre soit nulle. Si la Prob(t) était de 0,001, cela indique qu’il n’y a qu’une chance sur 1000 que le paramètre soit nul. Si Prob(t) était de 0,92, cela indique qu’il y a une probabilité de 92 % que la valeur réelle du paramètre puisse être nulle ; cela implique que le terme de l’équation de régression contenant leparamètre peut être éliminé sans affecter de manière significative la précision de cette régression.

Une chose qui peut faire que Prob(t) soit de 1,00 (ou proche de 1,00)est d’avoir des paramètres redondants. Si à la fin d’une analyse, plusieurs paramètres ont des valeurs de Prob(t) de 1,00, vérifiez attentivement la fonction pour voir si un ou plusieurs des paramètres peuvent être supprimés.Essayez également d’utiliser une instruction DOUBLE pour définir un ou plusieurs des paramètres à une valeur fixe raisonnable ; si les autres paramètres deviennent soudainement significatifs (c’est-à-dire une Prob(t) bien inférieure à 1,00), alors les paramètres sont mutuellement dépendants et un ou plusieurs doivent être supprimés.

La probabilité de la statistique t est calculée en utilisant un test bilatéral. L’instructionCONFIDENCE peut être utilisée pour que NLREG imprime des intervalles de confiance pour les valeurs des paramètres. La régression SQUARE.NLRexemple comprend un paramètre étranger (p0) dont la valeur estimée est beaucoup plus petite que son erreur standard ; la valeur Prob(t) est de 0,99982, ce qui indique qu’il existe une forte probabilité que la valeur soit nulle.

Somme finale des écarts quadratiques

En plus des valeurs des variables et des paramètres, NLREGaffiche plusieurs statistiques qui indiquent dans quelle mesure l’équation s’adapte aux données. La « Somme finale des écarts au carré » est la somme des différences au carré entre la valeur réelle de la variable dépendante pour chaque observation et la valeur prédite par la fonction, en utilisant les estimations finales des paramètres.

Ecart moyen et maximum

L’écart moyen » est la moyenne sur toutes les observations de la valeur absolue de la différence entre la valeur réelle de la variable dépendante et sa valeur prédite.

L’écart maximal pour toute observation » est la différence maximale (sans tenir compte du signe) entre la valeur réelle et la valeur prédite de la variable dépendante pour toute observation.

Proportion de la variance expliquée

La « Proportion de la variance expliquée (R2) » indique à quel point la fonction prédit mieux la variable dépendante que la simple utilisation de la valeur moyenne de la variable dépendante. Il est également connu sous le nom de « coefficient de détermination multiple ». Il se calcule comme suit : Supposons que nous n’ayons pas ajusté d’équation aux données et que nous ayons ignoré toutes les informations sur les variables indépendantes dans chaque observation. Alors, la meilleure prédiction de la valeur de la variable dépendante pour toute observation serait la valeur moyenne de la variable dépendante sur toutes les observations. La « variance » est la somme des différences au carré entre la valeur moyenne et la valeur de la variable dépendante pour chaque observation. Maintenant, si nous utilisons notre fonction ajustée pour prédire la valeur de la variable dépendante, plutôt que d’utiliser la valeur moyenne, un deuxième type de variance peut être calculé en prenant la somme des différences au carré entre la valeur de la variable dépendante prédite par la fonction et la valeur réelle. Avec un peu de chance, la variance calculée en utilisant les valeurs prédites par la fonction est meilleure (c’est-à-dire une valeur plus petite) que la variance calculée en utilisant la valeur moyenne. La « Proportion de la variance expliquée » est calculée comme suit : 1 – (variance utilisant la valeur prédite / variance utilisant la moyenne). Si la fonction prédit parfaitement les données observées, la valeur de cette statistique sera de 1,00 (100%). Si la fonction ne fait pas un meilleur travail de prédiction de la variable dépendante que l’utilisation de la moyenne, la valeur sera de 0,00.

Coefficient ajusté de détermination multiple

Le « coefficient ajusté de détermination multiple (Ra2) » est une statistique R2ajustée pour le nombre de paramètres dans l’équation et le nombre d’observations de données. Il s’agit d’une estimation plus prudente du pourcentage de variance expliquée, notamment lorsque la taille de l’échantillon est faible par rapport au nombre de paramètres.

Statistique de Durbin-Watson

Le « test de Durbin-Watson pour l’autocorrélation » est une statistique qui indique la probabilité que les valeurs de déviation (erreur) de la régression aient une composante autorégressive de premier ordre. Les modèles de régression supposent que les écarts d’erreur ne sont pas corrélés.

Dans le commerce et l’économie, de nombreuses applications de régression impliquent des données de séries chronologiques.

Si une fonction non périodique, telle qu’une ligne droite, est ajustée à des données périodiques, les écarts ont une forme périodique et sont positivement corrélés dans le temps ; ces écarts sont dits » autocorrélés » ou » corrélés en série « . » Les écarts autocorrélés peuvent également indiquer que la forme (shape) de la fonction ajustée est inappropriée pour les valeurs des données (par exemple, une équation linéaire ajustée à des données quadratiques).

Si les déviations sont autocorrélées, il peut y avoir un certain nombre de conséquences sur les résultats calculés : 1) Les coefficients de régression estimés n’ont plus la propriété de variance minimale ; 2) l’erreur quadratique moyenne (EQM) peut sérieusement sous-estimer la variance des termes d’erreur ; 3) l’erreur standard calculée des valeurs des paramètres estimés peut sous-estimer l’erreur standard réelle, auquel cas les valeurs t et les intervalles de confiance peuvent être incorrects. Notez que si une fonction périodique appropriée est ajustée à des données périodiques, les écarts par rapport à cette régression seront non corrélés car le cycle des valeurs de données est pris en compte par la fonction ajustée.

De petites valeurs de la statistique de Durbin-Watson indiquent la présence d’autocorrélation. Consultez les tableaux de significativité dans un bon livre de statistiques pour des interprétations exactes ;cependant, une valeur inférieure à 0,80 indique généralement que l’autocorrélation est probable. Si la statistique de Durbin-Watsonindique que les valeurs résiduelles sont autocorrélées, il est recommandé d’utiliser les instructions RPLOT et/ou NPLOT pour afficher un graphique des valeurs résiduelles.

Si les données ont une composante régulière et périodique, vous pouvez essayer d’inclure un terme sin dans votre fonction. L’exemple TREND.NLR ajuste une fonction avec un terme sin aux données qui ont une croissance linéaire avec une composante sin superposée. Avec le terme sin, la fonction présente une valeur résiduelle de 29,39 et une valeur de Durbin-Watson de 2,001 ; sans le terme sin (c’est-à-dire en ajustant uniquement une fonction linéaire), la valeur résiduelle est de 119,16 et la valeur de Durbin-Watson est de 0,624, ce qui indique une forte autocorrélation. La forme générale du terme asin est

amplitude * sin(2*pi*(x-phase)/période)

où l’amplitude est un paramètre qui détermine la magnitude de la composante sin, la période détermine la période de l’oscillation et la phase détermine la phase par rapport à la valeur de départ. Si vous connaissez lapériode (par exemple, 12 pour des données mensuelles avec un cycle annuel), vous devez la spécifier plutôt que de laisser NLREG tenter de la déterminer.

Si une instruction NPLOT est utilisée pour produire un graphique de probabilité normale des résidus, la corrélation entre les résidus et leurs valeurs attendues (en supposant qu’ils soient normalement distribués) est imprimée dans le listing. Si les résidus sont normalement distribués, la corrélation devrait être proche de 1,00. Une corrélation inférieure à0,94 suggère que les résidus ne sont pas normalement distribués.

Tableau d’analyse de la variance

Un tableau d »analyse de la variance »fournit des statistiques sur la signification globale du modèle ajusté.

Valeur F et Prob(F)

Les statistiques »Valeur F » et »Prob(F) » testent la signification globale du modèle de régression. Plus précisément, elles testent l’hypothèse nulle selon laquelle tous les coefficients de régression sont égaux à zéro. Elle teste le modèle complet par rapport à un modèle sans variables, l’estimation de la variable dépendante étant la moyenne des valeurs de la variable dépendante. La valeur F est le rapport de la somme des carrés de la régression moyenne divisée par la somme des carrés de l’erreur moyenne. Sa valeur sera comprise entre zéro et un nombre arbitrairement grand.

La valeur de Prob(F) est la probabilité que l’hypothèse nulle du modèle complet soit vraie (c’est-à-dire que tous les coefficients de régression soient nuls). Par exemple, siProb(F) a une valeur de 0,01000, il y a 1 chance sur 100 que tous les paramètres de régression soient nuls. Une valeur aussi faible impliquerait qu’au moins certains des paramètres de régression sont nuls et que l’équation de régression a une certaine validité dans l’ajustement des données (c’est-à-dire que les variables indépendantes ne sont pas purement aléatoires par rapport à la variable dépendante).

Matrice de corrélation

L’instruction CORRELATE peut être utilisée pour que NLREG imprime une matrice de corrélation. Un « coefficient de corrélation » est une valeur qui indique s’il existe une relation linéaire entre deux variables. La valeur absolue du coefficient de corrélation sera comprise entre 0 et 1. Une valeur de 0 indique qu’il n’y a pas de relation alors qu’une valeur de 1 indique qu’il y a une corrélation parfaite et que les deux variables varient ensemble. Le signe ducoefficient de corrélation sera négatif s’il existe une relation inverse entre lesvariables (c’est-à-dire que plus l’une augmente, plus l’autre diminue).

Par exemple, considérons une étude mesurant la taille et le poids d’un groupe d’individus. Le coefficient de corrélation entre la taille et le poids aura probablement une valeur positive un peu inférieure à un, car les personnes de grande taille ont tendance à peser plus que les personnes de petite taille. Une étude comparant le nombre de cigarettes fumées avec l’âge au décès aura probablement une valeur de corrélation négative.

Une matrice de corrélation montre la corrélation entre chaque paire de variables. La diagonale de la matrice a des valeurs de 1,00 car une variable a toujours une corrélation parfaite avec elle-même. La matrice est symétrique autour de la diagonale parce que X corrélé avec Y est le même que Y corrélé avecX.

Des problèmes surviennent dans l’analyse de régression lorsqu’une fonction est spécifiée et qu’elle comporte plusieurs variables indépendantes qui sont fortement corrélées. L’interprétation courante des paramètres de régression calculés comme mesurant le changement de la valeur attendue de la variable dépendante lorsque la variable indépendante correspondante varie alors que toutes les autres variables indépendantes sont maintenues constantes n’est pas entièrement applicable lorsqu’il existe un degré élevé de corrélation. Cela est dû au fait qu’avec des variables indépendantes fortement corrélées, il est difficile d’attribuer les changements de la variable dépendante à l’une des variables indépendantes plutôt qu’à une autre. Voici les effets de l’ajustement d’une fonction avec des variables indépendantes fortement corrélées :

1. De grands changements dans les paramètres de régression estimés peuvent survenir lorsqu’une variable est ajoutée ou supprimée, ou lorsqu’une observation est ajoutée ou supprimée.

2. Les tests individuels sur les paramètres de régression peuvent montrer que lesparamètres ne sont pas significatifs.

3. Les paramètres de régression peuvent avoir le signe algébrique opposé à celui attendu à partir de considérations théoriques ou pratiques.

4. Les intervalles de confiance pour les paramètres de régression importants peuvent être beaucoup plus larges que ce qui serait autrement le cas. La solution à ces problèmes peut être de sélectionner la plus significative des variables corrélées et de n’utiliser qu’elle dans la fonction.

Note : les coefficients de corrélation indiquent le degré d’association linéaire entre les variables.Les variables peuvent être fortement liées de manière non linéaire et avoir quand même un coefficient de corrélation proche de 0.

Page d’accueil de NLREG

Comprendre les résultats d’une analyse