R二乗に関する追加情報

フィットの良さは、どのように決まるのでしょうか?1つの明確な基準は、フィット曲線が実際のデータポイントにどの程度近いのかということです。前のセクションから、残差二乗和 (RSS) または既約カイ二乗値が、このような距離を評価するのに使用できる定量的な値であることが分かっています。しかし、残差二乗和(RSS) の値は、データセットによって異なり、この値を一定の範囲で再スケールする必要があります。一方、データの特徴を説明するために y 値の平均を使いたいこともあります。このような場合、フィット曲線は水平線 $y=\overline{y}$ になり、予測変数 x は線形的に y 値を予測できません。これを確認するには、最初に、次のような式でデータポイントとその平均との差、平均についての二乗和を計算します。

$TSS=\sum_{i=1}^n(y_i-\overline{y})^2 \,\!$

最小二乗フィッティングでは、TSS を回帰によって明らかになる変化量と回帰によって明らかにならない変化量の2つの部分に分けることができます。

回帰の二乗和 SSreg は、回帰モデルで明らかになる変化量の一部です。	$SSreg=\sum_{i=1}^n(\widehat{y_i}-\overline{y})^2 \,\!$
残差の二乗和 RSS は、回帰モデルで明らかにならない変化量の一部です。	$RSS=\sum_{i=1}^n(y_i-\widehat{y_i})^2 \,\!$

明らかに、データポイントはフィット曲線に近いほどば、RSS が小さくなり、SSregで表される合計変化量の比率は大きくなります。つまり、TSSに対する SSreg の比は、回帰モデルの性質の1つの尺度として使うことができます。この量は、決定係数と呼ばれ、次の式で計算されます。

$R^2=\frac{SSreg}{TSS}=1-\frac{RSS}{TSS} \,\!$

上記の式から、良いフィットモデルを使うと、 $R^2$ は0から1の間で変化するということが分かります。1に近い値は、フィットが良いものだということを示しています。

数学的には、自由度が $R^2$ に影響します。それは、モデルに変数を追加すると、 $R^2$ が大きくなりますが、これはフィットが良くなったことを示しているわけではありません。この影響を避けるため、調整 $R^2$ を見ることができます。

$\overline{R}^2=1-\frac{RSS/df_{Error}}{TSS/df_{Total}} \,\!$

数式から、補正 $R^2$ が $R^2$ の増加に勝っていることが分かります。特に複数の予測変数 (k) モデルでサンプルサイズ (n) が小さいフィットの場合にそうなります。通常、決定係数を「R二乗値」と呼びますが、実際には R値の二乗ではありません。ほとんどの場合、その値は0から1の間になりますが、フィット結果が良くないときにはR^2 は負の値になることもあります。これは、 $R^2$ を計算する数式が $R^2 = 1 - RSS / TSS$ であるために起こります。悪いモデルが使われた場合、2番目の項が1より大きくなります。