Zrozumienie wyników analizy regresji

Statystyki opisowe dla zmiennych

NLREG wypisuje różne statystyki na końcu każdej analizy. Dla każdej zmiennej NLREG wypisuje wartość minimalną, maksymalną, średnią i odchylenie standardowe. Powinieneś potwierdzić, że wartości te mieszczą się w oczekiwanych przez Ciebie przedziałach.

Oszacowania parametrów

Dla każdego parametru NLREG wyświetla początkowe oszacowanie parametru (określone w instrukcji PARAMETER lub domyślnie 1), końcowe oszacowanie (maksymalne prawdopodobieństwo), błąd standardowy oszacowanej wartości parametru, statystykę „t” porównującą oszacowaną wartość parametru z zerem oraz istotność statystyki „t”. Dla oszacowań parametrów wyświetlane jest dziewięć cyfr znaczących. Jeśli konieczne jest bardziej precyzyjne określenie parametrów, należy użyć poleceniaPOUTPUT.

Ostatnie szacunkowe wartości parametrów są wynikami analizy. Po podstawieniu tych wartości do równania, które zostało określone w celu dopasowania do danych, otrzymujemy funkcję, która może być użyta do przewidywania wartości zmiennej zależnej na podstawie zestawu wartości zmiennych niezależnych. Na przykład, jeśli dopasowywane równanie ma postać

y = p0 + p1*x

i ostateczne oszacowania wynoszą 1.5 dla p0 i 3 dla p1, to równanie

y = 1.5 + 3*x

jest najlepszym równaniem w tej postaci, które pozwoli przewidzieć wartość y na podstawie wartości x.

Statystyka t

Statystykę „t” oblicza się dzieląc oszacowaną wartość parametru przez jego błąd standardowy. Statystyka ta jest miarą prawdopodobieństwa, że rzeczywista wartość parametru nie jest równa zero. Im większa wartość bezwzględna t, tym mniejsze prawdopodobieństwo, że rzeczywista wartość parametru może być równa zero.

Prob(t)

Wartość „Prob(t)” jest prawdopodobieństwem uzyskania szacowanej wartości parametru, jeżeli rzeczywista wartość parametru jest równa zero. Im mniejsza wartość Prob(t), tym większe znaczenie parametru i tym mniejsze prawdopodobieństwo, że rzeczywista wartość parametru wynosi zero. Na przykład, załóżmy, że szacowana wartość parametru wynosi 1,0, a jego błąd standardowy 0,7. Wówczas wartość t wyniosłaby 1,43 (1,0/0,7). Jeżeli obliczona wartość Prob(t) wynosi 0,05 to oznacza to, że istnieje tylko 0,05(5%) szansy, że rzeczywista wartość parametru może wynosić zero. Jeżeli Prob(t) wyniosło 0.001 oznacza to, że istnieje tylko 1 szansa na 1000, że parametr może być równy zero. Jeśli Prob(t) wyniosło 0.92, oznacza to, że istnieje 92% prawdopodobieństwo, że rzeczywista wartość parametru może być równa zero; oznacza to, że człon równania regresji zawierający parametr może być wyeliminowany bez znaczącego wpływu na dokładność regresji.

Jedną z rzeczy, która może spowodować, że Prob(t) wyniesie 1.00 (lub blisko 1.00) jest posiadanie zbędnych parametrów. Jeśli pod koniec analizy kilka parametrów ma wartość Prob(t) równą 1.00, należy dokładnie sprawdzić funkcję, aby zobaczyć, czy jeden lub więcej parametrów może zostać usuniętych. PolecenieCONFIDENCE może być użyte, aby spowodować, że NLREG wydrukuje przedziały ufności dla wartości parametrów. Regresja SQUARE.NLRexample zawiera obcy parametr (p0), którego szacowana wartość jest znacznie mniejsza niż jego błąd standardowy; wartość Prob(t) wynosi 0.99982, co oznacza, że istnieje duże prawdopodobieństwo, że wartość ta wynosi zero.

Final Sum ofSquared Deviations

Oprócz wartości zmiennych i parametrów, NLREG wyświetla kilka statystyk, które wskazują, jak dobrze równanie pasuje do danych. Końcowa suma odchyleń kwadratowych” jest sumą kwadratów różnic między rzeczywistą wartością zmiennej zależnej dla każdej obserwacji a wartością przewidywaną przez funkcję, przy użyciu ostatecznych oszacowań parametrów.

Odchylenie średnie i maksymalne

Odchylenie średnie” jest średnią dla wszystkich obserwacji wartości bezwzględnej różnicy między rzeczywistą wartością zmiennej zależnej a jej wartością przewidywaną.

„Maksymalne odchylenie dla dowolnej obserwacji” to maksymalna różnica (ignorując znak) między rzeczywistą i przewidywaną wartością zmiennej zależnej dla dowolnej obserwacji.

Proportion of Variance Explained

„Proportion ofvariance explained (R2)” wskazuje, o ile lepiej funkcja przewiduje zmienną zależną niż tylko przy użyciu średniej wartości zmiennej zależnej. Jest to również znane jako „współczynnik wielokrotnej determinacji”. Oblicza się go w następujący sposób: Załóżmy, że nie dopasowaliśmy równania do danych i zignorowaliśmy wszystkie informacje o zmiennych niezależnych w każdej obserwacji. Wtedy najlepszym przewidywaniem wartości zmiennej zależnej dla każdej obserwacji byłaby średnia wartość zmiennej zależnej dla wszystkich obserwacji. Wariancja” jest sumą kwadratów różnic pomiędzy wartością średnią a wartością zmiennej zależnej dla każdej obserwacji. Teraz, jeśli używamy naszej dopasowanej funkcji do przewidywania wartości zmiennej zależnej, zamiast używać wartości średniej, drugi rodzaj wariancji może być obliczony poprzez wzięcie sumy kwadratów różnic pomiędzy wartością zmiennej zależnej przewidywanej przez funkcję i wartością rzeczywistą. Miejmy nadzieję, że wariancja obliczona przy użyciu wartości przewidywanych przez funkcję jest lepsza (tj. mniejsza) niż wariancja obliczona przy użyciu wartości średniej. Proporcja wyjaśnionej wariancji” jest obliczana jako 1 – (wariancja przy użyciu wartości przewidywanej / wariancja przy użyciu średniej). Jeżeli funkcja doskonale przewiduje obserwowane dane, wartość tej statystyki będzie wynosić 1.00 (100%). Jeżeli funkcja nie przewiduje zmiennej zależnej lepiej niż przy użyciu średniej, wartość tej statystyki wyniesie 0.00.

Skorygowany współczynnik wielokrotnej determinacji

„Skorygowany współczynnik wielokrotnej determinacji (Ra2)” jest statystyką R2 skorygowaną o liczbę parametrów w równaniu i liczbę obserwacji danych. Jest to bardziej konserwatywne oszacowanie procentu wyjaśnionej wariancji, szczególnie gdy wielkość próby jest mała w porównaniu z liczbą parametrów.

Statystyka Durbina-Watsona

Test Durbina-Watsona dla autokorelacji” jest statystyką, która wskazuje prawdopodobieństwo, że wartości odchylenia (błędu) dla regresji mają komponent autokorelacji pierwszego rzędu. W modelach regresji zakłada się, że odchylenia błędów są nieskorelowane.

W biznesie i ekonomii wiele zastosowań regresji dotyczy danych szeregów czasowych.

Jeśli funkcja nieokresowa, taka jak linia prosta, jest dopasowana do danych okresowych, odchylenia mają postać okresową i są dodatnio skorelowane w czasie; odchylenia te określa się jako „autokorelacyjne” lub „skorelowane szeregowo”. Odchylenia autokorelacyjne mogą również wskazywać, że forma (kształt) dopasowywanej funkcji jest nieodpowiednia dla wartości danych (np. równanie liniowe dopasowane do danych kwadratowych).

Jeśli odchylenia są autokorelacyjne, może wystąpić szereg konsekwencji dla obliczonych wyników: 1) oszacowane współczynniki regresji nie mają już własności minimalnej wariancji; 2) błąd średniokwadratowy (MSE) może poważnie zaniżać wariancję warunków błędu; 3) obliczony błąd standardowy oszacowanych wartości parametrów może zaniżać prawdziwy błąd standardowy, w którym to przypadku wartości t i przedziały ufności mogą być nieprawidłowe. Należy zauważyć, że jeżeli odpowiednia funkcja okresowa jest dopasowana do danych okresowych, odchylenia od progresji będą nieskorelowane, ponieważ cykl wartości danych jest uwzględniany przez dopasowaną funkcję.

Małe wartości statystyki Durbina-Watsona wskazują na występowanie autokorelacji. Dokładne interpretacje można znaleźć w tabelach istotności w dobrej książce statystycznej; jednakże wartość mniejsza niż 0,80 zazwyczaj wskazuje, że autokorelacja jest prawdopodobna. Jeśli statystyka Durbina-Watsona wskazuje, że wartości reszt są autokorelowane, zaleca się użycie poleceń RPLOT i/lub NPLOT w celu wyświetlenia wykresu wartości reszt.

Jeśli dane mają regularny, okresowy składnik, można spróbować włączyć termin sin do funkcji. Przykład TREND.NLR dopasowuje funkcję z członem sin do danych, które mają liniowy wzrost z nałożonym członem sin. Z terminem sin funkcja ma wartość rezydualną 29,39 i wartość Durbina-Watsona 2,001; bez terminu sin (tj. dopasowując tylko funkcję liniową) wartość rezydualna wynosi 119,16, a wartość Durbina-Watsona 0,624, wskazując na silną korelację neutronową. Ogólna postać wyrażenia asin to

amplituda * sin(2*pi*(x-faza)/okres)

gdzie amplituda jest parametrem określającym wielkość składowej sin, okres określa okres oscylacji, a faza określa fazę względem wartości początkowej. Jeśli znasz okres (np. 12 dla danych miesięcznych z cyklem rocznym), powinieneś go określić, zamiast zlecać NLREG próbę jego wyznaczenia.

Jeśli instrukcja NPLOT jest użyta do utworzenia normalnego wykresu prawdopodobieństwa reszt, korelacja pomiędzy resztami i ich wartościami oczekiwanymi (zakładając, że są one normalnie rozłożone) jest wypisana na listingu. Jeśli reszty są normalnie rozłożone, korelacja powinna być bliska 1,00. Korelacja mniejsza niż 0.94 sugeruje, że reszty nie są normalnie rozłożone.

Tabela analizy wariancji

Tabela „Analiza wariancji” dostarcza statystyki na temat ogólnej istotności dopasowanego modelu.

Wartość F i Prob(F)

Statystyki „Wartość F” i „Prob(F)” badają ogólną istotność modelu regresji. W szczególności testują one hipotezę zerową, że wszystkie współczynniki regresji są równe zeru. Testuje pełny model w porównaniu z modelem bez zmiennych i z estymatą zmiennej zależnej będącą średnią wartości zmiennej zależnej. Wartość F jest stosunkiem średniej sumy kwadratów regresji podzielonej przez średnią sumę kwadratów błędu. Jej wartość będzie się wahać od zera do arbitralnie dużej liczby.

Wartość Prob(F) jest prawdopodobieństwem, że hipoteza zerowa dla pełnego modelu jest prawdziwa (tj. że wszystkie współczynniki regresji są równe zero). Na przykład, jeśli Prob(F) ma wartość 0.01000 to istnieje 1 szansa na 100, że wszystkie parametry regresji są zerowe. Tak niska wartość sugerowałaby, że przynajmniej niektóre parametry regresji są niezerowe i że równanie regresji ma pewną ważność w dopasowaniu danych (tzn. zmienne niezależne nie są czysto losowe w odniesieniu do zmiennej zależnej).

Macierz korelacji

Konstrukcja CORRELATE może być użyta do spowodowania, że NLREG wydrukuje macierz korelacji. Współczynnik korelacji” jest wartością, która wskazuje, czy istnieje liniowa zależność między dwiema zmiennymi. Wartość bezwzględna współczynnika korelacji będzie się zawierać w przedziale od 0 do 1. Wartość 0 wskazuje, że nie ma żadnego związku, podczas gdy wartość 1 wskazuje, że istnieje doskonała korelacja i dwie zmienne zmieniają się razem. Znak współczynnika korelacji będzie ujemny, jeśli istnieje odwrotna zależność między zmiennymi (tzn. gdy jedna z nich wzrasta, druga maleje).

Na przykład, rozważ badanie mierzące wzrost i wagę grupy osób. Współczynnik korelacji między wzrostem a wagą prawdopodobnie będzie miał wartość dodatnią nieco mniejszą niż jeden, ponieważ wysocy ludzie mają tendencję do ważenia więcej niż ludzie niscy. Badanie porównujące liczbę wypalanych papierosów z wiekiem w chwili śmierci będzie prawdopodobnie miało ujemną wartość korelacji.

Macierz korelacji pokazuje korelację między każdą parą zmiennych. Przekątna macierzy ma wartość 1,00, ponieważ zmienna zawsze jest doskonale skorelowana sama ze sobą. Macierz jest symetryczna względem przekątnej, ponieważ X skorelowany z Y jest taki sam jak Y skorelowany zX.

Problemy pojawiają się w analizie regresji, gdy określona jest funkcja, która ma wiele zmiennych niezależnych, które są wysoce skorelowane. Wspólna interpretacja obliczonych parametrów regresji jako mierzących zmianę w oczekiwanej wartości zmiennej zależnej, gdy odpowiednia zmienna niezależna jest zmienna, podczas gdy wszystkie inne zmienne niezależne są utrzymywane na stałym poziomie, nie jest w pełni możliwa do zastosowania, gdy istnieje wysoki stopień korelacji. Wynika to z faktu, że przy wysoko skorelowanych zmiennych niezależnych trudno jest przypisać zmiany w zmiennej zależnej jednej ze zmiennych niezależnych, a nie innej. Poniżej przedstawiono skutki dopasowania funkcji z wysoko skorelowanymi zmiennymi niezależnymi:

1. Duże zmiany w szacowanych parametrach regresji mogą wystąpić, gdy zmienna zostanie dodana lub usunięta, lub gdy obserwacja zostanie dodana lub usunięta.

2. Pojedyncze testy parametrów regresji mogą wykazać, żeparametry są nieistotne.

3. Parametry regresji mogą mieć przeciwny znak algebraiczny niż oczekiwany na podstawie rozważań teoretycznych lub praktycznych.

4. Przedziały ufności dla ważnych parametrów regresji mogą być znacznie szersze niż w innym przypadku. Rozwiązaniem tych problemów może być wybranie najbardziej znaczącej ze skorelowanych zmiennych i wykorzystanie tylko jej w funkcji.

Uwaga: współczynniki korelacji wskazują stopień liniowego powiązania między zmiennymi.Zmienne mogą być silnie powiązane w sposób nieliniowy i nadal mieć współczynnik korelacji bliski 0.

Strona główna NLREG