分析結果を理解する
変数の記述統計
NLREGは、各分析の最後にさまざまな統計情報を表示します。 各変数について、NLREGは最小値、最大値、平均値、標準偏差を表示します。 これらの値が期待した範囲内であることを確認してください。
パラメータ推定値
各パラメータについて、NLREGは初期パラメータ推定値(PARAMETERstatementで指定したもの、またはデフォルトでは1)、最終(最尤)推定値、推定パラメータ値の標準誤差、推定パラメータ値をゼロと比較した「t」統計量、およびt統計量の有意性を表示します。 パラメータ推定値には有効数字9桁が表示されます。
最終的に推定されたパラメータ値が解析の結果となります。 この値を、データに適合するように指定した式に代入することで、独立変数の値に基づいて従属変数の値を予測する関数ができあがります。 たとえば、フィッティングされる方程式が
y = p0 + p1*x
であり、最終的な推定値がp0で1.5、p1で3である場合、方程式は
y = 1.5 + 3*x
は、xの値に基づいてyの値を予測する、この形式の最適な方程式です。
t統計
「t」統計は、パラメータの推定値をその標準誤差で割ることによって計算されます。 この統計量は、パラメータの実際の値がゼロではない可能性の尺度となります。
Prob(t)
Prob(t)とは、パラメータの実際の値がゼロの場合に、そのパラメータの推定値が得られる確率のことである。 Prob(t)」の値が小さいほど、そのパラメータの重要性が高く、実際のパラメータ値がゼロになる可能性が低いことを意味します。 例えば、あるパラメータの推定値が1.0で、その標準誤差が0.7だとします。 この場合、t値は1.43(1.0/0.7)となります。 計算されたProb(t)の値が0.05だった場合、パラメータの実際の値がゼロになる可能性は0.05(5%)しかないことを示しています。 Prob(t)が0.001だった場合、パラメータがゼロになる可能性は1000分の1しかないことを示しています。
Prob(t)が0.92の場合、パラメータの実際の値がゼロになる確率が92%であることを示しています。これは、パラメータを含む回帰式の項を削除しても、その回帰の精度に大きな影響を与えないことを意味します。 また、DOUBLEステートメントを使用して、1つまたは複数のパラメータを妥当な固定値に設定してみてください。他のパラメータが突然有意になった場合(つまり、Prob(t)が1.00よりはるかに小さい場合)、パラメータは相互に依存しており、1つまたは複数を削除する必要があります。 CONFIDENCEステートメントを使用すると、NLREGにパラメータ値の信頼区間を表示させることができます。 SQUARE.NLRexample回帰には、推定値がその標準誤差よりもはるかに小さい外部パラメータ(p0)が含まれており、Prob(t)値は0.99982で、値がゼロである可能性が高いことを示しています。
最終平方偏差和
変数およびパラメータ値に加えて、NLREGは方程式がデータにどの程度フィットしているかを示すいくつかの統計値を表示します。
平均偏差と最大偏差
「平均偏差」は、従属変数の実際の値とその予測値との差の絶対値の全観測点における平均です。
「任意の観測に対する最大偏差」は、任意の観測における従属変数の実際の値と予測値の間の最大の差(符号を無視)です。
Proportion of Variance Explained
「Proportion ofvariance explained (R2)」は、従属変数の平均値を使用するよりも、関数がどれだけうまく従属変数を予測するかを示します。 これは別名「重決定係数」と呼ばれています。 計算方法は以下の通りです。 仮に、データに方程式を当てはめず、各観測における独立変数の情報をすべて無視したとします。 そうすると,任意の観測における従属変数の値の最良の予測は,すべての観測における従属変数の平均値となる. 分散」とは、各観測におけるテーマアン値と従属変数の値の二乗差の合計です。 ここで、平均値を使用する代わりに、従属変数の値を予測するためにフィットした関数を使用する場合、関数によって予測された従属変数の値と実際の値の間の二乗差の合計を取ることによって、2番目の種類の分散を計算することができます。 うまくいけば,関数によって予測された値を用いて計算された分散は,平均値を用いて計算された分散よりも良い(すなわち,より小さい値)となる. 説明された分散の割合」は、1 – (予測値を用いた分散 / 平均値を用いた分散) として計算されます。 関数が観察されたデータを完全に予測している場合,この統計値は1.00(100%)になります.
調整済み重決定係数
「調整済み重決定係数(Ra2)」とは、方程式のパラメータ数とデータ観測数で調整されたR2統計量です。 特に、サンプルサイズがパラメータの数に比べて小さい場合は、説明される分散の割合をより保守的に見積もることができます。
Durbin-Watson Statistic
「Durbin-Watson testfor autocorrelation」は、回帰の偏差(誤差)の値が一次の自己回帰成分を持つ可能性を示す統計です。
ビジネスや経済の分野では、回帰のアプリケーションの多くは時系列データを含みます。
直線のような非周期的な関数を周期的なデータにフィットさせた場合、偏差は周期的な形をしており、時間的に正の相関を持っています。 また、自己相関のある偏差は、フィットした関数の形がデータの値に合っていないことを示している場合もあります。
偏差が自己相関している場合、計算結果にいくつかの影響があります。 1) 推定回帰係数が最小分散特性を持たなくなる、2) 平均二乗誤差(MSE)が誤差項の分散を著しく過小評価する、3) 推定パラメータ値の計算された標準誤差が真の標準誤差を過小評価する可能性があり、その場合、t値と信頼区間が正しくない可能性がある。
Durbin-Watson統計の値が小さければ、自己相関があることを示しています。
Durbin-Watson統計の値が小さいと、自己相関があることを示しています。正確な解釈は、優れた統計学の本にある有意性の表を参照してください。
データに規則的、周期的な成分がある場合、関数にsin項を入れてみることができます。 TREND.NLRの例では、sin項を持つ関数を、sin成分が重畳された線形成長のデータにフィットさせています。 sin項がある場合、関数の残差値は29.39、Durbin-Watson値は2.001となります。sin項がない場合(つまり、線形関数のみをフィットさせた場合)、残差値は119.16、Durbin-Watson値は0.624となり、ガット相関が強いことがわかります。 ASIN項の一般的な形は
amplitude * sin(2*pi*(x-phase)/period)
ここでamplitudeはsin成分の大きさを決定するパラメータ、periodは振動の周期、phaseは開始値に対する位相を決定します。
残差の正規確率プロットを作成するためにNPLOT文を使用した場合、残差とその期待値(正規分布していると仮定した場合)との間の相関がリストに表示されます。 残差が正規分布している場合、相関は1.00に近い値になります。
Analysis of Variance Table
「Analysis of Variance」テーブルは、適合されたモデルの全体的な有意性に関する統計を提供します。
F値とProb(F)
「F値」と「Prob(F)」の統計は、回帰モデルの全体的な有意性を検証します。 具体的には、すべての回帰係数がゼロに等しいという帰無仮説を検証します。 このテストでは、変数を持たず、従属変数の推定値を従属変数の値の平均とするモデルに対して、完全なモデルをテストします。 F値は、平均回帰二乗和を平均誤差二乗和で割った比率です。
Prob(F)の値は、フルモデルの帰無仮説が真である(すなわち、すべての回帰係数がゼロである)確率です。 例えば、Prob(F)の値が0.01000であれば、100分の1の確率ですべての回帰パラメータがゼロとなります。
相関行列
CORRELATEステートメントを使用して、NLREGに相関行列を表示させることができます。 相関係数」とは、2つの変数の間に線形関係があるかどうかを示す値です。 相関係数の絶対値は0から1の範囲になります。 0は関係がないことを示し、1は完全な相関関係があり、2つの変数は一緒に変化することを示します。
例えば、あるグループの身長と体重を測定した場合、身長と体重の相関係数は負の値になります。
例えば、身長と体重を測定した研究では、身長の高い人は低い人よりも体重が多い傾向があるため、身長と体重の相関係数は1よりもやや小さい正の値になるでしょう。
相関行列は、各変数間の相関を示すものです。 相関行列の対角線は1.00で、これはある変数が常に自分自身と完全な相関を持っているためです。
回帰分析で問題となるのは、相関性の高い複数の独立変数を持つ関数を指定した場合です。 計算された回帰パラメータは、他の独立変数を一定に保ったまま、対応する独立変数を変化させたときの従属変数の期待値の変化を測定するものであるという一般的な解釈は、高度な相関関係が存在する場合には完全には適用できません。 これは、相関性の高い独立変数では、従属変数の変化を独立変数のいずれかに帰属させることが困難であるためです。 相関性の高い独立変数で関数をフィッティングした場合、以下のような影響があります。
2.
3.
4. 重要な回帰パラメータの信頼区間が、そうでない場合よりもはるかに広い場合があります。
注意: 相関係数は、変数間の線形関係の度合いを示します。
NLREGのホームページ