本講の目的
  • 2つの変数の関係を表す式を学ぶ
  • 回帰分析を用いて、実際に回帰式を求めてみる

回帰分析

変数の関係を探る流れ

単回帰分析
$y = a + bx \rightarrow$ $x$から$y$を予測
重回帰分析
2 次以上は重回帰分析を用いる(今回は省略)
$y = a + bx + cx^2$

単回帰分析

一方の変数の値から他方の変数の値を予測する直線を単回帰直線といいます。

単回帰式の求め方

対になったデータ $x_i$ と $y_i$ ($i = 1,2,_\cdots ,n$) から単回帰式 $y = a + bx$ ($a$ : 切片、$b$ : 回帰係数) を求めるには以下の数式を用います。

\begin{align} ①\ \ b = \frac{S(xy)}{S(xx)} = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sum (x_i-\bar{x})^2} \end{align} \begin{align} ②\ \ a=\bar{y}-b\bar{x} \end{align}

最小 2 乗法

回帰式は完全に 2 変数 $x$ と $y$ の関係を表せているとは限りません。 得られたデータ $x$ 、 $y$ の関係をできうる限り的確に表すために直線 $y = a + bx$ と各データの距離を考えます。

$i$番目のデータ ($x_i$, $y_i$) とこの直線との距離を $Q_i$ とすると、以下の数式になります。

\begin{align} Q_i = \{(a+bx_i)-y_i\}^2 \end{align}

この $Q_i$ の合計 $\sigma Q_i$ を最小にすることによって、2 変数 $x$ と $y$ の関係を表すのに最も適した直線式を求めることができます。 $\sigma Q_i$ が最小の時に上記①式と②式から得られる $b$ と $a$ がそれぞれ回帰係数と切片になります。

練習問題

次のデータは、A国とB国の軍事支出を示したものです。 A国の軍事支出($x$)からB国の軍事支出($y$)を予測する次のような 1 次の回帰式を求めてください。

表 1 : A国とB国の軍事支出

A国とB国の軍事支出

仮説の設定

有意水準 $\alpha$ の設定

有意水準 $\alpha$ = 0.05とします。

Excelの操作

① まず、表1を参考にデータをExcelに入力します。

データの入力

② [データ]リボン - [分析]タブ - [データ分析]をクリックします。

③ [分析ツール] - [回帰分析] - [OK]をクリックします。

データ分析ツールの説明
回帰分析1

④ 入力Y範囲にB国のデータ C2:C20、入力X範囲にA国のデータ B2:B20 をそれぞれ選択します。

⑤ 出力先は、[出力オプション] - [一覧の出力先]より適当な所(今回はB25)を選択してください。

回帰分析2

出力結果

回帰分析の出力結果

出力結果から回帰式を求めます。

$y = a + bx$ の$a$(切片)は切片の係数 = 74.14119、$b$(傾き)はX値1の係数 = 0.587361と結果から読み取れます。

よって出力結果から、回帰式 $y = 74.14119 + 0.587361x$ が求まりました。

回帰式の吟味

回帰式によって予測した $y$ の値と、実際のyの値との差を残差(誤差)といいます。 この残差を用いて、作った回帰式に統計的な意味があるかどうかの検定を行うことができます。

回帰の平方和 $S_R$ と残差の平方和 $S_e$ の計算
$S_R$ と $S_e$ はそれぞれ以下の数式で求めることができます。
\begin{align} S_R=\frac{(S(xy))^2}{S(xx)} \end{align} \begin{align} S_e=S(yy)-S_R \end{align}
回帰の分散 $V_R$ と残差の分散 $V_e$ の計算
$V_R$ と $V_e$ はそれぞれ以下の数式で求めることができます。
\begin{align} V_R=\frac{S_R}{1}=S_R \end{align} \begin{align} V_e=\frac{S_e}{n-2} \end{align}
検定統計量$F$値の計算
今回、検定統計量$F$値は以下の数式で求めることができます。
\begin{align} F=\frac{V_R}{V_e} \end{align}

寄与率

目的変数yの変動のうち、説明変数xによって説明できる割合を寄与率 $R^2$ 、もしくは決定係数 $R^2$ といいます。

\begin{align} 0 \leq 寄与率 R_2 \leq 1 \end{align}

$p$値の算出

有意水準 $\alpha$ と比較する確率 $p$ 値を計算します。 $p$ 値はF分布において、$F$以上の値が発生する確率です。

出力結果から

出力結果

$p$ 値 $=$ 有意Fの値 $= 3.59 \times 10^{-9} = 0.00000000359 <$ 有意水準 $\alpha = 0.05$より、帰無仮説$H_0$ は棄却されます。 従って、回帰式は統計的に意味があることになります。

課題

上で求めた回帰式を相関分析の項を参考にして、グラフで表してみましょう。

上に戻る