Articles

De resultaten van een analyse begrijpen

Descriptieve statistieken voor variabelen

NLREG drukt aan het eind van elke analyse een aantal statistieken af. Voor elke variabele geeft NLREG de minimumwaarde, de maximumwaarde, de gemiddelde waarde en de standaardafwijking. U moet controleren of deze waarden binnen het bereik liggen dat u verwacht.

Parameterschattingen

Voor elke parameter toont het NLREG de aanvankelijke parameterschatting (die u in het PARAMETER-statement hebt opgegeven, of standaard 1), de uiteindelijke schatting (maximale waarschijnlijkheid), de standaardfout van de geschatte parameterwaarde, de “t”-statistiek die de geschatte parameterwaarde met nul vergelijkt, en de significantie van de “t”-statistiek. Er worden negen significante cijfers weergegeven voor de parameterschattingen. Als u de parameters nauwkeuriger wilt bepalen, gebruikt u hetPOUTPUT -statement.

De uiteindelijke geschatte parameterwaarden zijn de resultaten van de analyse. Door deze waarden te substitueren in de vergelijking die u hebt gespecificeerd om aan de gegevens te worden aangepast, hebt u een functie die kan worden gebruikt om de waarde van de afhankelijke variabele te voorspellen op basis van een reeks waarden voor de onafhankelijke variabelen. Als de vergelijking bijvoorbeeld

y = p0 + p1*x

en de uiteindelijke schattingen zijn 1,5 voor p0 en 3 voor p1, dan is de vergelijking

y = 1.5 + 3*x

is de beste vergelijking van deze vorm die de waarde van y voorspelt op basis van de waarde van x.

t Statistic

De ”t” statistic wordt berekend door de geschatte waarde van de parameter te delen door zijn standaardfout. Deze statistiek is een maat voor de waarschijnlijkheid dat de werkelijke waarde van de parameter niet nul is. Hoe groter de absolute waarde van t, hoe kleiner de kans dat de werkelijke waarde van de parameter nul is.

Prob(t)

De waarde “Prob(t)” is de kans dat de geschatte waarde van de parameter wordt verkregen als de werkelijke waarde van de parameter nul is. Hoe kleiner de waarde van Prob(t), hoe significanter de parameter en hoe kleiner de kans dat de werkelijke parameterwaarde nul is. Stel bijvoorbeeld dat de geschatte waarde van een parameter 1,0 is en dat de standaardfout 0,7 is. Dan zou de t-waarde 1,43 (1,0/0,7) zijn. Als de berekende Prob(t)-waarde 0,05 was, dan betekent dit dat er slechts een kans van 0,05 (5%) is dat de werkelijke waarde van de parameter nul zou kunnen zijn. Indien Prob(t) 0,001 was, betekent dit dat er slechts 1 kans op 1000 is dat de parameter nul zou kunnen zijn. Als Prob(t) 0,92 was, geeft dit aan dat er een kans van 92% is dat de werkelijke waarde van de parameter nul zou kunnen zijn; dit impliceert dat de term van de regressievergelijking die de parameter bevat, kan worden geëlimineerd zonder de nauwkeurigheid van de vergelijking significant te beïnvloeden.

Een ding dat ertoe kan leiden dat Prob(t) 1,00 (of bijna 1,00) is, is het hebben van redundante parameters. Als aan het eind van een analyse verschillende parameters Prob(t)-waarden van 1,00 hebben, controleer de functie dan zorgvuldig om te zien of een of meer van de parameters kunnen worden verwijderd.Probeer ook een DOUBLE statement te gebruiken om een of meer van de parameters op een redelijke vaste waarde te zetten; als de andere parameters plotseling significant worden (d.w.z. Prob(t) veel minder dan 1,00), dan zijn de parameters onderling afhankelijk en moeten een of meer parameters worden verwijderd.

De t-statistische waarschijnlijkheid wordt berekend met behulp van een tweezijdige test. HetCONFIDENCE -statement kan worden gebruikt om NLREG betrouwbaarheidsintervallen voor parameterwaarden te laten afdrukken. De SQUARE.NLRexample regressie bevat een vreemde parameter (p0) waarvan de geschatte waarde veel kleiner is dan de standaardfout; de Prob(t) waarde is 0.99982 wat aangeeft dat er een hoge waarschijnlijkheid is dat de waarde nul is.

Eindsom vankwadraatafwijkingen

Naast de variabele en parameterwaarden geeft NLREG verschillende statistieken weer die aangeven hoe goed de vergelijking bij de gegevens past. De “Uiteindelijke som van gekwadrateerde afwijkingen” is de som van de gekwadrateerde verschillen tussen de werkelijke waarde van de afhankelijke variabele voor elke waarneming en de door de functie voorspelde waarde, met behulp van de uiteindelijke parameterschattingen.

Gemiddelde en maximale afwijking

De “Gemiddelde afwijking” is het gemiddelde over alle waarnemingen van de absolute waarde van het verschil tussen de werkelijke waarde van de afhankelijke variabele en de voorspelde waarde.

De “Maximale afwijking voor elke waarneming” is het maximale verschil (zonder teken) tussen de werkelijke en de voorspelde waarde van de afhankelijke variabele voor elke waarneming.

Verhouding van verklaarde variantie

De “Verhouding van verklaarde variantie (R2)” geeft aan hoeveel beter de functie de afhankelijke variabele voorspelt dan alleen met behulp van de gemiddelde waarde van de afhankelijke variabele. Dit wordt ook wel de “coëfficiënt van meervoudige determinatie” genoemd. Hij wordt als volgt berekend: Stel dat we geen vergelijking op de gegevens hebben toegepast en alle informatie over de onafhankelijke variabelen in elke waarneming buiten beschouwing hebben gelaten. Dan zou de beste voorspelling voor de waarde van de afhankelijke variabele voor elke waarneming de gemiddelde waarde van de afhankelijke variabele over alle waarnemingen zijn. De “variantie” is de som van de gekwadrateerde verschillen tussen de themanwaarde en de waarde van de afhankelijke variabele voor elke waarneming. Indien wij nu onze aangepaste functie gebruiken om de waarde van de afhankelijke variabele te voorspellen, in plaats van de gemiddelde waarde te gebruiken, kan een tweede soort variantie worden berekend door de som te nemen van het gekwadrateerde verschil tussen de door de functie voorspelde waarde van de afhankelijke variabele en de werkelijke waarde. Hopelijk is de variantie die wordt berekend met behulp van de door de functie voorspelde waarden beter (d.w.z. een kleinere waarde) dan de variantie die wordt berekend met behulp van de gemiddelde waarde. De “proportie verklaarde variantie” wordt berekend als 1 – (variantie met behulp van voorspelde waarde / variantie met behulp van gemiddelde). Als de functie de waargenomen gegevens perfect voorspelt, zal de waarde van deze statistiek 1,00 (100%) zijn. Als de functie de afhankelijke variabele niet beter voorspelt dan met behulp van het gemiddelde, is de waarde 0,00.

Aangepaste meervoudige determinatiecoëfficiënt

De “aangepaste meervoudige determinatiecoëfficiënt (Ra2)” is een R2-statistiek gecorrigeerd voor het aantal parameters in de vergelijking en het aantal dataobservaties. Het is een meer conservatieve schatting van het percentage verklaarde variantie, vooral wanneer de steekproefgrootte klein is vergeleken met het aantal parameters.

Durbin-Watson-statistiek

De Durbin-Watson-test voor autocorrelatie is een statistiek die aangeeft hoe waarschijnlijk het is dat de deviatie(fout)waarden voor de regressie een eerste-orde autoregressiecomponent hebben. De regressiemodellen gaan ervan uit dat de foutafwijkingen niet gecorreleerd zijn.

In het bedrijfsleven en de economie hebben veel regressietoepassingen betrekking op tijdreeksgegevens.

Als een niet-periodieke functie, zoals een rechte lijn, wordt ingepast in periodieke gegevens, hebben de afwijkingen een periodieke vorm en zijn zij positief gecorreleerd in de tijd; deze afwijkingen worden “autocorrelatief” of “serieel gecorreleerd” genoemd. Autocorrelatie van de afwijkingen kan er ook op wijzen dat de vorm van de passende functie niet geschikt is voor de gegevenswaarden (b.v. een lineaire vergelijking bij kwadratische gegevens).

Als de afwijkingen autocorrelatief zijn, kan dat een aantal gevolgen hebben voor de berekende resultaten: 1) de geschatte regressiecoëfficiënten hebben niet langer de eigenschap van de minimale variantie; 2) de gemiddelde kwadratuurfout (MSE) kan de variantie van de foutentermen ernstig onderschatten; 3) de berekende standaardafwijking van de geschatte parameterwaarden kan de werkelijke standaardafwijking onderschatten, in welk geval de t-waarden en betrouwbaarheidsintervallen onjuist kunnen zijn. Merk op dat, als een geschikte periodieke functie op periodieke gegevens wordt gepast, de afwijkingen van degressie ongecorreleerd zullen zijn omdat de cyclus van de gegevenswaarden door de gepaste functie wordt verwerkt.

Kleine waarden van de Durbin-Watson-statistiek wijzen op de aanwezigheid van autocorrelatie. Raadpleeg de significantietabellen in een goed statistiekboek voor exacte interpretaties; een waarde van minder dan 0,80 geeft echter meestal aan dat autocorrelatie waarschijnlijk is. Als de Durbin-Watson-statistiek aangeeft dat de residuele waarden autocorrelatief zijn, is het raadzaam de RPLOT- en/of NPLOT-opdrachten te gebruiken om een plot van de residuele waarden weer te geven.

Als de gegevens een regelmatige, periodieke component hebben, kunt u proberen een sin-term in uw functie op te nemen. Het voorbeeld TREND.NLR past een functie met een sin-term toe op gegevens die een lineaire groei hebben met een bovenopliggende sincomponent. Met de sin term heeft de functie een restwaarde van 29.39 en een Durbin-Watson waarde van 2.001; zonder de sin term (d.w.z. alleen aanpassing aan een lineaire functie) is de restwaarde 119.16 en de Durbin-Watson waarde 0.624, wat wijst op sterkeautocorrelatie. De algemene vorm van de sin-term is

amplitude * sin(2*pi*(x-fase)/period)

waarbij amplitude een parameter is die de grootte van de sin-component bepaalt, period de periode van de oscillatie bepaalt, en phase de fase ten opzichte van de beginwaarde. Als u de periode weet (b.v. 12 voor maandelijkse gegevens met een jaarlijkse cyclus) moet u deze opgeven in plaats van het NLREG te laten proberen deze te bepalen.

Als een NPLOT-instructie wordt gebruikt om een normale waarschijnlijkheidsplot van de residuen te maken, wordt de correlatie tussen de residuen en hun verwachte waarden (aangenomen dat ze normaal verdeeld zijn) in de listing afgedrukt. Als de residuen normaal verdeeld zijn, moet de correlatie dicht bij 1,00 liggen. Een correlatie kleiner dan 0,94 suggereert dat de residuen niet normaal verdeeld zijn.

Analysis of Variance Table

Een “Analysis of Variance”-tabel geeft statistische gegevens over de algemene significantie van het model dat wordt toegepast.

F-waarde en Prob(F)

De statistieken ”F-waarde” en ”Prob(F)” testen de algemene significantie van het regressiemodel. Zij testen met name de nulhypothese dat alle regressiecoëfficiënten gelijk zijn aan nul. Hiermee wordt het volledige model getoetst aan een model zonder variabelen, waarbij de schatting van de afhankelijke variabele gelijk is aan het gemiddelde van de waarden van de afhankelijke variabele. De F-waarde is de verhouding van de gemiddelde regressiesom van de kwadraten gedeeld door de gemiddelde foutensom van de kwadraten. De waarde varieert van nul tot een willekeurig groot getal.

De waarde van Prob(F) is de kans dat de volledige hypothese voor het volledige model waar is (d.w.z. dat alle regressiecoëfficiënten nul zijn). Bijvoorbeeld, indien Prob(F) een waarde heeft van 0.01000 dan is er 1 kans op 100 dat al de regressieparameters nul zijn. Zo’n lage waarde zou betekenen dat ten minste enkele van de regressieparameters nul zijn en dat de regressievergelijking wel enige validiteit heeft bij het passen van de gegevens (d.w.z. dat de onafhankelijke variabelen niet puur willekeurig zijn ten opzichte van de afhankelijke variabele).

Correlatiematrix

Het CORRELATE commando kan worden gebruikt om NLREG een correlatiematrix te laten afdrukken. Een “correlatiecoëfficiënt” is een waarde die aangeeft of er een lineair verband bestaat tussen twee variabelen. De absolute waarde van de correlatiecoëfficiënt ligt in het bereik van 0 tot 1. Een waarde van 0 geeft aan dat er geen verband is, terwijl een waarde van 1 aangeeft dat er een perfecte correlatie is en dat de twee variabelen samen variëren. Het teken van de correlatiecoëfficiënt is negatief als er een omgekeerd evenredig verband tussen de variabelen bestaat (d.w.z. als de een toeneemt, neemt de ander af)

Bedenk bijvoorbeeld een onderzoek waarin de lengte en het gewicht van een groep individuen worden gemeten. De correlatiecoëfficiënt tussen lengte en gewicht zal waarschijnlijk iets minder dan één positief zijn, omdat lange mensen doorgaans meer wegen dan korte mensen. Een studie die het aantal gerookte sigaretten vergelijkt met de leeftijd bij overlijden zal waarschijnlijk een negatieve correlatiewaarde hebben.

Een correlatiematrix toont de correlatie tussen elk pairof variabelen. De diagonaal van de matrix heeft waarden van 1,00 omdat een variabele altijd perfect met zichzelf correleert. De matrix is symmetrisch over de diagonaal omdat X gecorreleerd met Y hetzelfde is als Y gecorreleerd metX.

Problemen doen zich voor bij regressieanalyse wanneer een functie wordt gespecificeerd die meerdere onafhankelijke variabelen heeft die sterk gecorreleerd zijn. De gebruikelijke interpretatie van de berekende regressieparameters als de meting van de verandering in de verwachte waarde van de afhankelijke variabele wanneer de overeenkomstige onafhankelijke variabele wordt gevarieerd terwijl alle andere onafhankelijke variabelen constant worden gehouden, is niet volledig toepasbaar wanneer er een hoge mate van correlatie bestaat. Dit is te wijten aan het feit dat het bij sterk gecorreleerde onafhankelijke variabelen moeilijk is veranderingen in de afhankelijke variabele toe te schrijven aan een van de onafhankelijke variabelen in plaats van aan een andere. Hieronder volgen de effecten van de aanpassing van een functie met sterk gecorreleerde onafhankelijke variabelen:

1. Grote veranderingen in de geschatte regressieparameters kunnen optreden wanneer een variabele wordt toegevoegd of verwijderd, of wanneer een waarneming wordt toegevoegd of verwijderd.

2. Afzonderlijke tests van de regressieparameters kunnen uitwijzen dat de parameters niet significant zijn.

3. Regressieparameters kunnen een tegengesteld algebraïsch teken hebben dan op grond van theoretische of praktische overwegingen verwacht wordt.

4. De betrouwbaarheidsintervallen voor belangrijke regressieparameters kunnen veel groter zijn dan anders het geval zou zijn. De oplossing voor deze problemen kan zijn om de meest significante van de gecorreleerde variabelen te selecteren en alleen die in de functie te gebruiken.

Notitie: de correlatiecoëfficiënten geven de mate van lineair verband tussen variabelen aan.Variabelen kunnen sterk samenhangen op een niet-lineaire manier en toch een correlatiecoëfficiënt in de buurt van 0 hebben.

NLREG home page

Laat een antwoord achter

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *