アルゴリズム(線形多重回帰)Multi-Regression-Algorithm
線形多重回帰モデル
線形多重回帰モデル
多重線形回帰は、単純な線形回帰の拡張で、複数の独立変数が存在します。これは、従属変数yにおける複数の独立変数の影響を評価する際に使います。指定したデータセットに対して、多重回帰はデータセットをモデルにフィットします。
ここで はy切片で、パラメータ , , ..., は、部分計数です。
行列形式で記述することができます。
ここで
は、かつにおける正規確率変数として、独立かつ一様に分布していると仮定します。
について、を最小にするには、次の関数を使います。
結果は、ベクターデータ Bの最小二乗推定値値は、線形方程式の解で、次の様に表すことができます。
ここで、X'は、Xの転置で、与えられたXに対するYの推定値は次のようになります。
(4)にを置換して、行列を定義することができます。
残差は次のように定義されます。
残差平方和は、次の通りです。
フィット制御
誤差を重みとする
フィッティング処理で、それぞれのに重みを与えることができます。yEr±誤差列は、それぞれのについて重みとして取り扱われます。yEr±が無いとき、は、全てのについて1になります。
重み付けフィッティングのとき、解は、次のように表すことができます。
ここで
重み付けなし
エラーバーは、計算では重みとして取り扱われません。
直接重み付け
機械的重み付け
切片固定
固定切片は、y切片を設定して、値を固定します。また、 固定切片のため、全ての自由度は、n*=n-1となります。
sqrt(補正カイ二乗値)のスケールエラー
sqrt(補正カイ二乗値)のスケールエラーは、重みを付けたフィットで、使用することができます。このオプションは、フィット処理で出力されるパラメータの誤差だけに影響し、フィット処理やデータには影響しません。
デフォルトで、これにはチェックが入っており、の分散は、 パラメータ誤差の計算を考慮しているか、 あるいは、分散は、誤差計算を考慮していません。
共分散行列を例に挙げます。
sqrt(補正カイ二乗値)のスケールエラー
sqrt(補正カイ二乗値)のスケールエラーでは無い
重み付けフィットには、の代わりに、を使います。
フィット結果
フィットパラメータ
フィット値
式(4)
パラメータの標準誤差
各パラメータにおいて、標準誤差は以下のように得られます。
ここで、は、j番目のの対角要素です。( は、重み付けフィットに使われます。) は、次式で計算される残差標準偏差です。 (「std dev」、「推定の標準誤差」、「root MSE」のようにも呼びます。)
は、 の分散であるの推定です。
Note:自由度(df) についての詳細は、ANOVA 表をご覧ください。
|
t値と信頼水準
回帰の仮定が成り立つ場合、帰無仮説と対立仮説を使用して回帰係数のt検定を実行できます。
t値は、次の式で計算できます。
計算されたt値を使って、対応する帰無仮説を棄却するかどうかを決めることができます。通常、与えられたパラメータの信頼水準 について、 のときは、 を棄却できます。さらに、 p-値は より小さくなります。
Prob>|t|
t 検定の が真である確率
ここで、 は、値|t|におけるスチューデントt分布の累積分布関数を、誤差の自由度 で計算します。
LCLとUCL
t値から各パラメータの 信頼区間を次式で計算することができます。
ここでとは、それぞれ上側信頼区間と下側信頼区間のことです。
CI 半幅
信頼区間の半値幅は以下の通りです。
フィット統計
いくつかのフィット統計式をここに要約します。
自由度
(誤差)の変数に対する自由度。詳細は ANOVA表を参照してください。
自由度あたりカイ二乗
残差平方和
残差平方和。式(8)を参照。
R二乗(COD)
フィットの良さは、 決定係数(COD) で評価でき、次の式になります。
補正R二乗
補正 は、自由度の 値を調整するのに使用されます。これは次式のように計算されます。
R値
相関係数 R値は、 の平方根を使って計算できます。
Root MSE(SD)
誤差の平均平方の平方根または、残差標準偏差は、次式に等しくなります。
残差のノルム
RSSの平方根に等しい。
ANOVA表
The ANOVA table of linear fitting is:
|
df
|
平方和
|
平均平方
|
F値
|
Prob > F
|
モデル
|
k
|
|
|
|
p-値
|
誤差
|
n* - k
|
|
|
|
|
合計
|
n*
|
|
|
|
|
Note: 切片がモデルに含まれてる場合、 n*=n-1です。それ以外は、 n*=n で平方和の合計は未補正となります。
|
ここで、平方和の合計TSSは、
F値で、フィットモデルがモデル「y=一定」と、有意に異なるかどうかを検定します。
また、p値、または、有意水準は、F検定と一緒に出力されます。p値が、フィットモデルがモデル「y=一定」と有意に異なっていることを意味するよりも小さい場合、帰無仮説を棄却できます。
ある値に切片を固定している場合、F検定のp値には意味が無く、切片一定としない線形多重回帰とは異なります。
適合度検定表
不適合度を実行するには、連結フィットモードが選択されている場合に、少なくともX値がデータセット内や複数データセット内で反復できるように、反復観測、つまり、「複製データ」が必要になります。
複製データでフィットに使われている表記:
残差平方和は、次の通りです。
非線形フィッティングの適合度検定表:
|
DF
|
平方和
|
平均平方
|
F Value
|
Prob > F
|
不適合度
|
c-k-1
|
LFSS
|
MSLF = LFSS / (c - k - 1)
|
MSLF / MSPE
|
p-value
|
純誤差
|
n - c
|
PESS
|
MSPE = PESS / (n - c)
|
|
|
誤差
|
n*-k
|
RSS
|
|
|
|
Note:
切片がモデルに含まれてる場合、 n*=n-1 です。それ以外は、 n*=n で平方和の合計は未補正となります。勾配が固定の場合、 = 0です。
cは、明確なx値の数を示します。切片が固定である場合、適合度検定のDFは、c-kになります。
|
共分散行列と相関行列
多重線形回帰の共分散行列は以下によって計算されます。
2つのパラメータ間の相関は、
残差解析
は、標準残差から成っています。
正規化
スチューデント化
内部スチューデント化残差とも呼ばれます。
スチューデント化削除
外部スチューデント化残差とも呼ばれます。
スチューデント化とスチューデント化削除の残差の数式で、は、行列 のi 番目の対角要素です。
は、分散がi番目を除いた全てのポイントに基づいて計算されていることを意味します。
プロット
部分レバレッジプロット
多重回帰では、独立変数と1つの従属変数間の関係を調べるために部分回帰プロットを使うことができます。プロットでは、Yの偏残差がXの偏残差または切片に対してプロットされます。特定の変数の偏残差は、その変数がモデルで省略された回帰残差です。
モデル を例にとると、 に対する偏回帰プロットは、 の回帰残差を の残差に対してプロットすることで作成されます。
残差タイプ
作図するには、標準、正規化、スチューデント化、スチューデント化残差から1つの残差タイプを選択します。
残差と独立変数
残差散布図 vs.独立変数では、それぞれのプロットは別のグラフに配置されます。
残差vs.予測値
残差散布図 vs. フィット結果
残差vs.データ順序
vs. 順番
残差のヒストグラム
残差のヒストグラム
残差のラグプロット
残差 vs. ラグ残差
正規残差確率プロット
残差の正規確率プロットは、分散が正規分布しているかどうかを調べるのに使用します。結果のプロットはおおよそ線形で、誤差範囲は正規分布していると仮定することができます。プロットはパーセンタイル対順序化された残差をベースにしており、パーセンタイルは次のように仮定されます。
ここで、n はデータセットの合計数で、i はi 番目のデータです。なお、正規確率プロットとQ-Qプロットについてをご覧ください。
|