練習で使ったデータは必ず保存するようにしましょう。
一方の変数の値から他方の変数の値を予測する直線を単回帰直線といいます。
対になったデータ $x_i$ と $y_i$ ($i = 1,2,_\cdots ,n$) から単回帰式 $y = a + bx$ ($a$ : 切片、$b$ : 回帰係数) を求めるには以下の数式を用います。
\begin{align} ①\ \ b = \frac{S(xy)}{S(xx)} = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2} \end{align} \begin{align} ②\ \ a=\bar{y}-b\bar{x} \end{align}
回帰式は完全に 2 変数 $x$ と $y$ の関係を表せているとは限りません。 得られたデータ $x$ 、 $y$ の関係をできうる限り的確に表すために直線 $y = a + bx$ と各データの距離を考えます。
$i$番目のデータ ($x_i$, $y_i$) とこの直線との距離を $Q_i$ とすると、以下の数式になります。
\begin{align} Q_i = \{(a+bx_i)-y_i\}^2 \end{align}
この $Q_i$ の合計 $\sigma Q_i$ を最小にすることによって、2 変数 $x$ と $y$ の関係を表すのに最も適した直線式を求めることができます。 $\sigma Q_i$ が最小の時に上記①式と②式から得られる $b$ と $a$ がそれぞれ回帰係数と切片になります。
次のデータは、A国とB国の軍事支出を示したものです。 A国の軍事支出($x$)からB国の軍事支出($y$)を予測する次のような 1 次の回帰式を求めてください。
表 1 : A国とB国の軍事支出
有意水準 $\alpha$ = 0.05とします。
① まず、表1を参考にデータをExcelに入力します。
② [データ]リボン - [分析]タブ - [データ分析]をクリックします。
③ [分析ツール] - [回帰分析] - [OK]をクリックします。
④ 入力Y範囲にB国のデータ C2:C20
、入力X範囲にA国のデータ B2:B20
をそれぞれ選択します。
⑤ 出力先は、[出力オプション] - [一覧の出力先]より適当な所(今回はB25)を選択してください。
出力結果
出力結果から回帰式を求めます。
$y = a + bx$ の$a$(切片)は切片の係数 = 74.14119、$b$(傾き)はX値1の係数 = 0.587361と結果から読み取れます。
よって出力結果から、回帰式 $y = 74.14119 + 0.587361x$ が求まりました。
回帰式によって予測した $y$ の値と、実際のyの値との差を残差(誤差)といいます。 この残差を用いて、作った回帰式に統計的な意味があるかどうかの検定を行うことができます。
目的変数yの変動のうち、説明変数xによって説明できる割合を寄与率 $R^2$ 、もしくは決定係数 $R^2$ といいます。
\begin{align} 0 \leq 寄与率 R_2 \leq 1 \end{align}
有意水準 $\alpha$ と比較する確率 $p$ 値を計算します。 $p$ 値はF分布において、$F$以上の値が発生する確率です。
$p$ 値 $=$ 有意Fの値 $= 3.59 \times 10^{-9} = 0.00000000359 <$ 有意水準 $\alpha = 0.05$より、帰無仮説$H_0$ は棄却されます。 従って、回帰式は統計的に意味があることになります。
上で求めた回帰式を相関分析の項を参考にして、グラフで表してみましょう。