Die Ergebnisse einer Regression verstehen

Deskriptive Statistik für Variablen

NLREG gibt am Ende jeder Analyse eine Vielzahl von Statistiken aus. Für jede Variable listet NLREG den Minimalwert, den Maximalwert, den Mittelwert und die Standardabweichung auf. Sie sollten sich vergewissern, dass diese Werte innerhalb der von Ihnen erwarteten Bereiche liegen.

Parameterschätzungen

Für jeden Parameter zeigt NLREG die anfängliche Parameterschätzung (die Sie in der PARAMETER-Anweisung angegeben haben, oder standardmäßig 1), die endgültige (maximale Wahrscheinlichkeit) Schätzung, den Standardfehler des geschätzten Parameterwerts, die „t“-Statistik, die den geschätzten Parameterwert mit Null vergleicht, und die Signifikanz der t-Statistik an. Neun signifikante Stellen werden für die Parameterschätzungen angezeigt. Wenn Sie die Parameter genauer bestimmen müssen, verwenden Sie die AnweisungPOUTPUT.

Die endgültigen Parameterschätzwerte sind die Ergebnisse der Analyse. Wenn Sie diese Werte in die Gleichung einsetzen, die Sie zur Anpassung an die Daten angegeben haben, erhalten Sie eine Funktion, mit der Sie den Wert der abhängigen Variable auf der Grundlage eines Satzes von Werten für die unabhängigen Variablen vorhersagen können. Wenn die angepasste Gleichung beispielsweise

y = p0 + p1*x

ist und die endgültigen Schätzungen 1,5 für p0 und 3 für p1 sind, dann ist die Gleichung

y = 1.5 + 3*x

die beste Gleichung dieser Form, die den Wert von y basierend auf dem Wert von x vorhersagt.

t-Statistik

Die „t“-Statistik wird berechnet, indem der geschätzte Wert des Parameters durch seinen Standardfehler geteilt wird. Diese Statistik ist ein Maß für die Wahrscheinlichkeit, dass der tatsächliche Wert des Parameters nicht Null ist. Je größer der absolute Wert von t ist, desto unwahrscheinlicher ist es, dass der tatsächliche Wert des Parameters Null ist.

Prob(t)

Der Wert „Prob(t)“ ist die Wahrscheinlichkeit, den geschätzten Wert des Parameters zu erhalten, wenn der tatsächliche Parameterwert Null ist. Je kleiner der Wert von Prob(t) ist, desto signifikanter ist der Parameter und desto unwahrscheinlicher ist es, dass der tatsächliche Parameterwert Null ist. Nehmen Sie zum Beispiel an, dass der geschätzte Wert eines Parameters 1,0 ist und sein Standardfehler 0,7 beträgt. Dann würde der t-Wert 1,43 (1,0/0,7) betragen. Wenn der berechnete Prob(t)-Wert 0,05 war, bedeutet dies, dass nur eine Wahrscheinlichkeit von 0,05 (5 %) besteht, dass der tatsächliche Wert des Parameters null sein könnte. Wenn Prob(t) 0,001 war, bedeutet dies, dass es nur eine Chance von 1 zu 1000 gibt, dass der Parameter null sein könnte. Wenn Prob(t) 0,92 war, bedeutet dies, dass es eine 92%ige Wahrscheinlichkeit gibt, dass der tatsächliche Wert des Parameters Null sein könnte; dies impliziert, dass der Term der Regressionsgleichung, der den Parameter enthält, eliminiert werden kann, ohne die Genauigkeit der Regression signifikant zu beeinflussen.

Eine Sache, die dazu führen kann, dass Prob(t) 1,00 (oder fast 1,00) ist, sind redundante Parameter. Wenn am Ende einer Analyse mehrere Parameter einen Prob(t)-Wert von 1,00 haben, überprüfen Sie die Funktion sorgfältig, um zu sehen, ob einer oder mehrere der Parameter entfernt werden können.

Versuchen Sie auch, eine DOUBLE-Anweisung zu verwenden, um einen oder mehrere der Parameter auf einen vernünftigen festen Wert zu setzen; wenn die anderen Parameter plötzlich signifikant werden (d. h. Prob(t) viel kleiner als 1,00), dann sind die Parameter voneinander abhängig und einer oder mehrere sollten entfernt werden.

Die statistische Wahrscheinlichkeit t wird mithilfe eines zweiseitigen Tests berechnet. Mit der AnweisungCONFIDENCE kann NLREG veranlasst werden, Konfidenzintervalle für Parameterwerte auszugeben. Die SQUARE.NLRexample-Regression enthält einen Fremdparameter (p0), dessen geschätzter Wert viel kleiner als sein Standardfehler ist; der Prob(t)-Wert ist 0,99982, was bedeutet, dass der Wert mit hoher Wahrscheinlichkeit Null ist.

Endgültige Summe der quadratischen Abweichungen

Zusätzlich zu den Variablen- und Parameterwerten zeigt NLREG mehrere Statistiken an, die angeben, wie gut die Gleichung zu den Daten passt. Die „Endsumme der quadratischen Abweichungen“ ist die Summe der quadrierten Differenzen zwischen dem tatsächlichen Wert der abhängigen Variable für jede Beobachtung und dem durch die Funktion vorhergesagten Wert unter Verwendung der endgültigen Parameterschätzungen.

Durchschnittliche und maximale Abweichung

Die „Durchschnittliche Abweichung“ ist der Durchschnitt über alle Beobachtungen des absoluten Werts der Differenz zwischen dem tatsächlichen Wert der abhängigen Variable und ihrem vorhergesagten Wert.

Die „Maximale Abweichung für jede Beobachtung“ ist die maximale Differenz (ohne Vorzeichen) zwischen dem tatsächlichen und dem vorhergesagten Wert der abhängigen Variable für jede Beobachtung.

Anteil der erklärten Varianz

Der „Anteil der erklärten Varianz (R2)“ gibt an, wie viel besser die Funktion die abhängige Variable vorhersagt, als wenn sie nur den Mittelwert der abhängigen Variable verwendet. Dies wird auch als „Koeffizient der multiplen Bestimmung“ bezeichnet. Es wird wie folgt berechnet: Angenommen, wir passen keine Gleichung an die Daten an und ignorieren alle Informationen über die unabhängigen Variablen in jeder Beobachtung. Dann wäre die beste Vorhersage für den Wert der abhängigen Variable für jede Beobachtung der Mittelwert der abhängigen Variable über alle Beobachtungen. Die „Varianz“ ist die Summe der quadrierten Differenzen zwischen dem Mittelwert und dem Wert der abhängigen Variable für jede Beobachtung. Wenn wir nun unsere angepasste Funktion verwenden, um den Wert der abhängigen Variable vorherzusagen, anstatt den Mittelwert zu verwenden, kann eine zweite Art von Varianz berechnet werden, indem die Summe der quadratischen Differenz zwischen dem von der Funktion vorhergesagten Wert der abhängigen Variable und dem tatsächlichen Wert genommen wird. Es ist zu hoffen, dass die unter Verwendung der von der Funktion vorhergesagten Werte berechnete Varianz besser (d. h. ein kleinerer Wert) ist als die unter Verwendung des Mittelwerts berechnete Varianz. Der „Anteil der erklärten Varianz“ wird berechnet als 1 – (Varianz unter Verwendung des vorhergesagten Wertes / Varianz unter Verwendung des Mittelwertes). Wenn die Funktion die beobachteten Daten perfekt vorhersagt, ist der Wert dieser Statistik 1,00 (100 %). Wenn die Funktion die abhängige Variable nicht besser vorhersagt als der Mittelwert, ist der Wert 0,00.

Angepasstes Bestimmtheitsmaß

Das „angepasste Bestimmtheitsmaß (Ra2)“ ist eine R2-Statistik, die um die Anzahl der Parameter in der Gleichung und die Anzahl der Datenbeobachtungen angepasst wird. Es ist eine konservativere Schätzung des Prozentsatzes der erklärten Varianz, insbesondere wenn die Stichprobengröße im Vergleich zur Anzahl der Parameter klein ist.

Durbin-Watson-Statistik

Der „Durbin-Watson-Test auf Autokorrelation“ ist eine Statistik, die die Wahrscheinlichkeit angibt, dass die Abweichungswerte (Fehler) für die Regression eine Autoregressionskomponente erster Ordnung haben. Die Regressionsmodelle gehen davon aus, dass die Fehlerabweichungen unkorreliert sind.

In der Betriebs- und Volkswirtschaft betreffen viele Regressionsanwendungen Zeitreihendaten.

Wird eine nicht-periodische Funktion, wie z. B. eine gerade Linie, an periodische Daten angepasst, haben die Abweichungen eine periodische Form und sind über die Zeit positiv korreliert; diese Abweichungen werden als „autokorreliert“ oder „seriell korreliert“ bezeichnet. Autokorrelierte Abweichungen können auch darauf hinweisen, dass die Form (Gestalt) der angepassten Funktion für die Datenwerte ungeeignet ist (z. B. eine lineare Gleichung, die an quadratische Daten angepasst wird).

Wenn die Abweichungen autokorreliert sind, kann das eine Reihe von Konsequenzen für die berechneten Ergebnisse haben: 1) Die geschätzten Regressionskoeffizienten haben nicht mehr die Eigenschaft der minimalen Varianz; 2) der mittlere quadratische Fehler (MSE) kann die Varianz der Fehlerterme ernsthaft unterschätzen; 3) der berechnete Standardfehler der geschätzten Parameterwerte kann den wahren Standardfehler unterschätzen, in welchem Fall die t-Werte und Konfidenzintervalle inkorrekt sein können. Beachten Sie, dass, wenn eine geeignete periodische Funktion an periodische Daten angepasst wird, die Abweichungen von der Regression unkorreliert sind, da der Zyklus der Datenwerte durch die angepasste Funktion berücksichtigt wird.

Kleine Werte der Durbin-Watson-Statistik zeigen das Vorhandensein von Autokorrelation an. Konsultieren Sie Signifikanztabellen in einem guten Statistikbuch für genaue Interpretationen; ein Wert kleiner als 0,80 zeigt jedoch in der Regel an, dass eine Autokorrelation wahrscheinlich ist. Wenn die Durbin-Watson-Statistik darauf hinweist, dass die Residuen autokorreliert sind, empfiehlt es sich, die Anweisungen RPLOT und/oder NPLOT zu verwenden, um die Residuen grafisch darzustellen.

Wenn die Daten eine regelmäßige, periodische Komponente aufweisen, können Sie versuchen, einen sin-Term in Ihre Funktion aufzunehmen. Das Beispiel TREND.NLR passt eine Funktion mit einem sin-Term an Daten an, die ein lineares Wachstum mit einer überlagerten sinc-Komponente aufweisen. Mit dem sin-Term hat die Funktion einen Residualwert von 29,39 und einen Durbin-Watson-Wert von 2,001; ohne den sin-Term (d. h. bei Anpassung nur einer linearen Funktion) beträgt der Residualwert 119,16 und der Durbin-Watson-Wert 0,624, was auf eine starke Autokorrelation hinweist. Die allgemeine Form des Sinus-Terms ist

Amplitude * sin(2*pi*(x-Phase)/Periode)

wobei die Amplitude ein Parameter ist, der die Größe der Sinus-Komponente bestimmt, die Periode die Schwingungsdauer und die Phase die Phase relativ zum Ausgangswert. Wenn Sie die Periode kennen (z. B. 12 für monatliche Daten mit einem jährlichen Zyklus), sollten Sie sie angeben, anstatt NLREG versuchen zu lassen, sie zu bestimmen.

Wenn eine NPLOT-Anweisung verwendet wird, um eine Normalwahrscheinlichkeitsdarstellung der Residuen zu erzeugen, wird die Korrelation zwischen den Residuen und ihren erwarteten Werten (unter der Annahme, dass sie normalverteilt sind) im Listing gedruckt. Wenn die Residuen normalverteilt sind, sollte die Korrelation nahe bei 1,00 liegen. Eine Korrelation von weniger als 0,94 deutet darauf hin, dass die Residuen nicht normalverteilt sind.

Varianzanalysetabelle

Eine „Varianzanalysetabelle“ liefert Statistiken über die allgemeine Signifikanz des angepassten Modells.

F-Wert und Prob(F)

Die Statistiken „F-Wert“ und „Prob(F)“ testen die Gesamtsignifikanz des Regressionsmodells. Insbesondere testen sie die Nullhypothese, dass alle Regressionskoeffizienten gleich Null sind. Sie testet das vollständige Modell gegen ein Modell ohne Variablen, wobei die Schätzung der abhängigen Variable der Mittelwert der Werte der abhängigen Variable ist. Der F-Wert ist das Verhältnis der mittleren Regressionsquadratsumme geteilt durch die mittlere Fehlerquadratsumme. Sein Wert reicht von Null bis zu einer willkürlich großen Zahl.

Der Wert von Prob(F) ist die Wahrscheinlichkeit, dass die Nullhypothese für das vollständige Modell wahr ist (d. h., dass alle Regressionskoeffizienten Null sind). WennProb(F) z. B. einen Wert von 0,01000 hat, besteht eine Chance von 1 zu 100, dass alle Regressionsparameter Null sind. Dieser niedrige Wert würde bedeuten, dass zumindest einige der Regressionsparameter Null sind und dass die Regressionsgleichung eine gewisse Gültigkeit bei der Anpassung der Daten hat (d.h. die unabhängigen Variablen sind nicht rein zufällig in Bezug auf die abhängige Variable).

Korrelationsmatrix

Mit der Anweisung CORRELATE kann NLREG eine Korrelationsmatrix ausgeben. Ein „Korrelationskoeffizient“ ist ein Wert, der angibt, ob ein linearer Zusammenhang zwischen zwei Variablen besteht. Der absolute Wert des Korrelationskoeffizienten liegt im Bereich von 0 bis 1. Ein Wert von 0 zeigt an, dass keine Beziehung besteht, während ein Wert von 1 anzeigt, dass eine perfekte Korrelation besteht und die beiden Variablen zusammen variieren. Das Vorzeichen des Korrelationskoeffizienten ist negativ, wenn eine inverse Beziehung zwischen den Variablen besteht (d. h., wenn eine Variable zunimmt, nimmt die andere ab).

Betrachten Sie zum Beispiel eine Studie, in der die Größe und das Gewicht einer Gruppe von Personen gemessen werden. Der Korrelationskoeffizient zwischen Größe und Gewicht wird wahrscheinlich einen positiven Wert haben, der etwas kleiner als eins ist, weil große Menschen dazu neigen, mehr zu wiegen als kleine Menschen. Eine Studie, die die Anzahl der gerauchten Zigaretten mit dem Sterbealter vergleicht, wird wahrscheinlich einen negativen Korrelationswert haben.

Eine Korrelationsmatrix zeigt die Korrelation zwischen den einzelnen Paaren von Variablen. Die Diagonale der Matrix hat den Wert 1,00, weil eine Variable immer eine perfekte Korrelation mit sich selbst hat. Die Matrix ist um die Diagonale symmetrisch, da X mit Y korreliert ist und Y mit X korreliert ist.

Probleme treten bei der Regressionsanalyse auf, wenn eine Funktion spezifiziert wird, die mehrere unabhängige Variablen hat, die stark korreliert sind. Die übliche Interpretation der berechneten Regressionsparameter als Messung der Änderung des Erwartungswerts der abhängigen Variable, wenn die entsprechende unabhängige Variable variiert wird, während alle anderen unabhängigen Variablen konstant gehalten werden, ist nicht vollständig anwendbar, wenn ein hoher Korrelationsgrad vorliegt. Das liegt daran, dass es bei hoch korrelierten unabhängigen Variablen schwierig ist, Änderungen in der abhängigen Variable einer der unabhängigen Variablen zuzuordnen. Im Folgenden sind die Auswirkungen der Anpassung einer Funktion mit hochkorrelierten unabhängigen Variablen aufgeführt:

1. Große Änderungen in den geschätzten Regressionsparametern können auftreten, wenn eine Variable hinzugefügt oder gelöscht wird, oder wenn eine Beobachtung hinzugefügt oder gelöscht wird.

2. Einzelne Tests auf die Regressionsparameter können zeigen, dass die Parameter nicht signifikant sind.

3. Regressionsparameter können das entgegengesetzte Vorzeichen haben, als aus theoretischen oder praktischen Überlegungen zu erwarten wäre.

4. Die Konfidenzintervalle für wichtige Regressionsparameter können viel breiter sein, als es sonst der Fall wäre. Die Lösung für diese Probleme kann darin bestehen, die signifikanteste der korrelierten Variablen auszuwählen und nur diese in der Funktion zu verwenden.

Hinweis: Die Korrelationskoeffizienten zeigen den Grad der linearen Assoziation zwischen Variablen an.Variablen können in hohem Maße auf nichtlineare Weise miteinander verbunden sein und trotzdem einen Korrelationskoeffizienten nahe 0 haben.

NLREG-Startseite

Die Ergebnisse einer Analyse verstehen