Articles

Comprendere i risultati di un’analisi

Statistiche descrittive per le variabili

NLREG stampa una serie di statistiche alla fine di ogni analisi. Per ogni variabile, NLREG elenca il valore minimo, il valore massimo, il valore medio e la deviazione standard. Dovreste confermare che questi valori sono all’interno delle gamme che vi aspettate.

Stime dei parametri

Per ogni parametro, NLREG visualizza la stima iniziale del parametro (che avete specificato nell’istruzione PARAMETER, o 1 per default), la stima finale (massima verosimiglianza), l’errore standard del valore stimato del parametro, la statistica “t” che confronta il valore stimato del parametro con zero, e la significatività della statistica t. Nove cifre significative sono visualizzate per le stime dei parametri. Se avete bisogno di determinare i parametri con maggiore precisione, usate la dichiarazionePOUTPUT.

I valori finali dei parametri stimati sono i risultati dell’analisi. Sostituendo questi valori nell’equazione che avete specificato per essere adattata ai dati, avrete una funzione che può essere utilizzata per prevedere il valore della variabile dipendente sulla base di un insieme di valori per le variabili indipendenti. Per esempio, se l’equazione da adattare è

y = p0 + p1*x

e le stime finali sono 1,5 per p0 e 3 per p1, allora l’equazione

y = 1.5 + 3*x

è la migliore equazione di questa forma che prevede il valore di y in base al valore di x.

t Statistica

La statistica “t” è calcolata dividendo il valore stimato del parametro per il suo errore standard. Questa statistica è una misura della probabilità che il valore reale del parametro non sia zero. Più grande è il valore assoluto di t, meno probabile è che il valore effettivo del parametro sia zero.

Prob(t)

Il valore “Prob(t)” è la probabilità di ottenere il valore stimato del parametro se il valore effettivo del parametro è zero. Più piccolo è il valore di Prob(t), più significativo è il parametro e meno probabile è che il valore effettivo del parametro sia zero. Per esempio, supponiamo che il valore stimato di un parametro sia 1,0 e il suo errore standard sia 0,7. Allora il valore t sarebbe 1,43 (1,0/0,7). Se il valore di Prob(t) calcolato era 0,05 allora questo indica che c’è solo una probabilità dello 0,05 (5%) che il valore reale del parametro possa essere zero. Se Prob(t) era 0,001 questo indica che c’è solo 1 possibilità su 1000 che il parametro possa essere zero. Se Prob(t) era 0,92 questo indica che c’è il 92% di probabilità che il valore effettivo del parametro possa essere zero; questo implica che il termine dell’equazione di regressione che contiene il parametro può essere eliminato senza influenzare significativamente l’accuratezza della regressione.

Una cosa che può causare che Prob(t) sia 1,00 (o quasi 1,00) è avere parametri ridondanti. Se alla fine di un’analisi diversi parametri hanno valori di Prob(t) di 1.00, controllate attentamente la funzione per vedere se uno o più parametri possono essere rimossi.Provate anche a usare un’istruzione DOUBLE per impostare uno o più parametri su un valore fisso ragionevole; se gli altri parametri diventano improvvisamente significativi (cioè, Prob(t) molto meno di 1.00) allora i parametri sono reciprocamente dipendenti e uno o più dovrebbero essere rimossi.

La statistica t probability è calcolata usando un test a due lati. L’istruzioneCONFIDENCE può essere usata per indurre NLREG a stampare gli intervalli di confidenza per i valori dei parametri. La regressione SQUARE.NLRexample include un parametro estraneo (p0) il cui valore stimato è molto più piccolo del suo errore standard; il valore di Prob(t) è 0,99982 e indica che c’è un’alta probabilità che il valore sia zero.

Somma finale degli scarti quadratici

Oltre ai valori delle variabili e dei parametri, NLREG visualizza diverse statistiche che indicano quanto bene l’equazione si adatti ai dati. La “Somma finale delle deviazioni quadrate” è la somma delle differenze al quadrato tra il valore effettivo della variabile dipendente per ogni osservazione e il valore previsto dalla funzione, usando le stime finali dei parametri.

Deviazione media e massima

La “Deviazione media” è la media su tutte le osservazioni del valore assoluto della differenza tra il valore effettivo della variabile dipendente e il suo valore previsto.

La “Deviazione massima per qualsiasi osservazione” è la differenza massima (ignorando il segno) tra il valore effettivo e quello previsto della variabile dipendente per qualsiasi osservazione.

Proporzione di varianza spiegata

La “Proporzione di varianza spiegata (R2)” indica quanto meglio la funzione predice la variabile dipendente rispetto al solo utilizzo del valore medio della variabile dipendente. Questo è anche conosciuto come “coefficiente di determinazione multipla”. Si calcola come segue: Supponiamo di non adattare un’equazione ai dati e di ignorare tutte le informazioni sulle variabili indipendenti in ogni osservazione. Allora, la migliore previsione del valore della variabile dipendente per ogni osservazione sarebbe il valore medio della variabile dipendente su tutte le osservazioni. La “varianza” è la somma delle differenze al quadrato tra il valore del tema e il valore della variabile dipendente per ogni osservazione. Ora, se usiamo la nostra funzione adattata per prevedere il valore della variabile dipendente, invece di usare il valore medio, un secondo tipo di varianza può essere calcolato prendendo la somma delle differenze al quadrato tra il valore della variabile dipendente previsto dalla funzione e il valore reale. Si spera che la varianza calcolata usando i valori predetti dalla funzione sia migliore (cioè un valore più piccolo) della varianza calcolata usando il valore medio. La “Percentuale di varianza spiegata” è calcolata come 1 – (varianza usando il valore predetto / varianza usando la media). Se la funzione predice perfettamente i dati osservati, il valore di questa statistica sarà 1,00 (100%). Se la funzione non fa un lavoro migliore ofpredicting la variabile dipendente che usando la media, il valore sarà 0.00.

Coefficiente aggiustato di determinazione multipla

Il “coefficiente aggiustato di determinazione multipla (Ra2)” è una statistica R2 corretta per il numero di parametri nell’equazione e il numero di dataobservations. È una stima più conservativa della percentuale di varianza spiegata, specialmente quando la dimensione del campione è piccola rispetto al numero di parametri.

Statistica Durbin-Watson

Il “test Durbin-Watson per l’autocorrelazione” è una statistica che indica la probabilità che i valori di deviazione (errore) della regressione abbiano una componente di autoregressione di primo ordine. I modelli di regressione assumono che le deviazioni di errore non siano correlate.

In economia e commercio, molte applicazioni di regressione coinvolgono dati di serie temporali.

Se una funzione non periodica, come una linea retta, è adattata a dati periodici, le deviazioni hanno una forma periodica e sono correlate positivamente nel tempo; queste deviazioni sono dette “autocorrelate” o “correlate in serie”. Le deviazioni autocorrelate possono anche indicare che la forma della funzione adattata è inappropriata per i valori dei dati (ad esempio, un’equazione lineare adattata a dati quadratici).

Se le deviazioni sono autocorrelate, ci possono essere diverse conseguenze per i risultati calcolati: 1) I coefficienti di regressione stimati non hanno più la proprietà della varianza minima; 2) l’errore quadratico medio (MSE) può sottostimare seriamente la varianza dei termini di errore; 3) l’errore standard calcolato dei valori dei parametri stimati può sottostimare il vero errore standard, nel qual caso i valori t e gli intervalli di confidenza possono essere errati. Si noti che se una funzione periodica appropriata è adattata a dati periodici, le deviazioni dalla regressione non saranno correlate perché il ciclo dei valori dei dati è coperto dalla funzione adattata.

I valori piccoli della statistica di Durbin-Watson indicano la presenza di autocorrelazione. Consultare le tabelle di significatività in un buon libro di statistica per interpretazioni esatte; comunque, un valore inferiore a 0.80 di solito indica che l’autocorrelazione è probabile. Se la statistica Durbin-Watson indica che i valori residui sono autocorrelati, si raccomanda di usare le istruzioni RPLOT e/o NPLOT per visualizzare un grafico dei valori residui.

Se i dati hanno una componente regolare e periodica, potete provare a includere un termine sin nella vostra funzione. L’esempio TREND.NLR adatta una funzione con un termine asin ai dati che hanno una crescita lineare con una componente sinc sovrapposta. Con il termine sin la funzione ha un valore residuo di 29,39 e un valore Durbin-Watson di 2,001; senza il termine sin (cioè, adattando solo una funzione lineare) il valore residuo è 119,16 e il valore Durbin-Watson è 0,624 che indica una strongautocorrelazione. La forma generale del termine asin è

ampiezza * sin(2*pi*(x-fase)/periodo)

dove l’ampiezza è un parametro che determina la grandezza della componente sin, il periodo determina il periodo dell’oscillazione e la fase determina la fase relativa al valore iniziale. Se conoscete il periodo (ad esempio, 12 per dati mensili con un ciclo annuale) dovreste specificarlo piuttosto che far tentare a NLREG di determinarlo.

Se si usa un’istruzione NPLOT per produrre un grafico di probabilità normale dei residui, la correlazione tra i residui e i loro valori attesi (assumendo che siano distribuiti normalmente) viene stampata nell’elenco. Se i residui sono distribuiti normalmente, la correlazione dovrebbe essere vicina a 1,00. Una correlazione inferiore a 0.94 suggerisce che i residui non sono normalmente distribuiti.

Tabella dell’analisi della varianza

Una tabella di “Analisi della varianza” fornisce statistiche sulla significatività complessiva del modello che è stato calcolato.

Valore F e Prob(F)

Le statistiche “Valore F” e “Prob(F)” verificano la significatività complessiva del modello di regressione. In particolare, testano l’ipotesi nulla che tutti i coefficienti di regressione siano uguali a zero. Questo prova il modello completo contro un modello senza variabili e con la stima della variabile dipendente che è la media dei valori della variabile dipendente. Il valore F è il rapporto tra la somma dei quadrati della regressione media divisa per la somma dei quadrati dell’errore medio. Il suo valore varia da zero a un numero arbitrariamente grande.

Il valore di Prob(F) è la probabilità che l’ipotesi nulla per il modello completo sia vera (cioè, che tutti i coefficienti di regressione siano zero). Per esempio, se Prob(F) ha un valore di 0,01000 allora c’è 1 possibilità su 100 che tutti i parametri di regressione siano zero. Un valore così basso implicherebbe che almeno alcuni dei parametri di regressione sono nulli e che l’equazione di regressione ha qualche validità nell’adattamento dei dati (cioè, le variabili indipendenti non sono puramente casuali rispetto alla variabile dipendente).

Matrice di correlazione

L’istruzione CORRELATE può essere usata per far sì che NLREG stampi una matrice di correlazione. Un “coefficiente di correlazione” è un valore che indica se c’è una relazione lineare tra due variabili. Il valore assoluto del coefficiente di correlazione sarà compreso tra 0 e 1. Un valore di 0 indica che non c’è relazione, mentre un valore di 1 indica che c’è una perfetta correlazione e le due variabili variano insieme. Il segno del coefficiente di correlazione sarà negativo se c’è una relazione inversa tra le variabili (cioè, se una aumenta l’altra diminuisce).

Per esempio, consideriamo uno studio che misura l’altezza e il peso di un gruppo di individui. Il coefficiente di correlazione tra altezza e peso avrà probabilmente un valore positivo leggermente inferiore a uno, perché le persone alte tendono a pesare di più di quelle basse. Uno studio che confronta il numero di sigarette fumate con l’età alla morte avrà probabilmente un valore di correlazione negativo.

Una matrice di correlazione mostra la correlazione tra ogni coppia di variabili. La diagonale della matrice ha valori di 1,00 perché una variabile ha sempre una perfetta correlazione con se stessa. La matrice è simmetrica sulla diagonale perché X correlato con Y è uguale a Y correlato conX.

I problemi si presentano nell’analisi di regressione quando viene specificata una funzione che ha più variabili indipendenti che sono altamente correlate. L’interpretazione comune dei parametri di regressione calcolati come misurazione del cambiamento nel valore atteso della variabile dipendente quando la variabile indipendente corrispondente è variata mentre tutte le altre variabili indipendenti sono tenute costanti non è completamente applicabile quando esiste un alto grado di correlazione. Questo è dovuto al fatto che con variabili indipendenti altamente correlate è difficile attribuire i cambiamenti nella variabile dipendente a una delle variabili indipendenti piuttosto che a un’altra. I seguenti sono effetti dell’adattamento di una funzione con variabili indipendenti altamente correlate:

1. Grandi cambiamenti nei parametri di regressione stimati possono verificarsi quando una variabile viene aggiunta o eliminata, o quando un’osservazione viene aggiunta o eliminata.

2. I test individuali sui parametri di regressione possono mostrare che i parametri non sono significativi.

3. I parametri di regressione possono avere il segno algebrico opposto a quello previsto da considerazioni teoriche o pratiche.

4. Gli intervalli di confidenza per importanti parametri di regressione possono essere molto più ampi di quanto sarebbe altrimenti il caso. La soluzione a questi problemi può essere quella di selezionare la più significativa delle variabili correlate e usare solo quella nella funzione.

Nota: i coefficienti di correlazione indicano il grado di associazione lineare tra le variabili.Le variabili possono essere altamente correlate in modo non lineare e avere ancora un coefficiente di correlazione vicino a 0.

NLREG home page

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *