練習で使ったデータは必ず保存するようにしましょう。
本講の授業内容に関する【説明動画】が1つあります。
注意:大人数が一斉に動画を再生すると動画が再生されないことがあります。時間をずらして視聴してください。
扱う統計データは対応のないデータと対応のあるデータの2つに分けることができます。 データを統計的に処理する場合、この対応のあるなしが重要な要素となってきます。
データを見る際には注意して見ましょう。
一方のグループのデータが、もう一方のグループのデータとは無関係な場合のデータです。 グループ内のデータの順番を入れ替えることができます。
例 : 2つの病棟間の最高血圧、2つのクラスの得点など
この対応のないデータの場合は、まず、等分散性の検定を行います。その後に差の検定を行います。
一方のグループのデータともう一方のグループのデータがペアになっている場合のデータです。 グループ内のデータの順番を入れ替えることができません。
例 : 最高血圧と最低血圧、前期と後期の得点など
こちらは、等分散性の検定を行わず、検定を行うことができます。
複数の変数を用いて、分析を行う場合、目的変数と説明変数という概念が必要になってくる場合があります。
ある学校のA組とB組のテスト結果について調べたところ、以下のような結果が得られました。 A組とB組ではクラスの平均点に差があるといえるでしょうか。
表 1 : ある学校のテスト結果(点)
有意水準 $\alpha$ = 0.05 とします。
共通分散 $V$ は以下の数式で求めることができます。
\begin{align} V=\frac{S_A+S_B}{\phi_A+\phi_B} \end{align}
$S_A,\ S_B$ = 各グループの平方和、 $n_A,\ n_B$ = 各グループのデータ数、 $\varphi_A = n_A-1,\ \varphi_B = n_B-1$
今回は、以下の数式で検定統計量 $t$ 値は求まります。
\begin{align} t=\frac{\bar{x}_A - \bar{x}_B}{\sqrt{V(\frac{1}{n_A}+\frac{1}{n_B})}} \end{align}
有意水準と比較する確率 $p$ 値を求めます。 $p$ 値は、自由度 $\varphi_A + \varphi_B$ のt分布において、$|t|$ 以上の値が発生する確率です。
$p$ 値 $<$ 有意水準 $\alpha \rightarrow$ 帰無仮説$H_0$ を棄却する。
$p$ 値 $>$ 有意水準 $\alpha \rightarrow$ 帰無仮説$H_0$ を棄却できない。
Excelを用いて、練習問題1 に取り掛かりましょう。
① まず、表 1 を入力しましょう。
② 次に、2つのデータが等分散しているかどうかを検定します。[データ] リボンの [データ分析] をクリックし、[F検定 : 2標本を使った分散の検定]を選択します。
③ 変数1、2にそれぞれA組・B組のデータ範囲を入力します。出力先は同じシート中のどこか(今回はM4)を選択するとよいでしょう。
④ [OK]をクリックすると出力結果が表示されます。
$p$ 値等が ##
となってしまう場合はセルが小さすぎる可能性があります。横幅を広げてみましょう。
$p$ 値 = 0.430614 $>$ 有意水準 $\alpha$ = 0.05であるので、このデータには等分散性があるといえます。
⑤ したがって、検定を行うにはstudentのt検定を用います。データ分析から今度は[t検定 : 等分散を仮定した2標本による検定]を選択します。
⑥ さきほどと同じように、変数1,2にはデータの範囲を入力します。出力先は先ほどのF検定の結果に上書きしないよう注意しましょう。今回はM16を選択しました。
出力結果
$p$ 値 = 0.030929 が求まりました。 設定した有意水準 $\alpha$ は 0.05 です。 よって、$p$ 値 = 0.030929 $<$ 有意水準 $\alpha$ = 0.05 であるので、帰無仮説$H_0$ は棄却されます。 したがって、A組とB組で点数の母平均には差があると判断します。
ある学校のC組とD組のテスト結果について調べたところ、以下のような結果が得られました。 C組とD組ではクラスの平均点に差があるといえるでしょうか。
表 2 : ある学校のテスト結果(点)
有意水準 $\alpha$ = 0.05 とします。
今回は、以下の数式で検定統計量 $t$ 値を求めます。
\begin{align} t_0=\frac{\bar{x}_A-\bar{x}_B}{\sqrt{\frac{V_A}{n_A}+\frac{V_B}{n_B}}} \end{align}
以下の数式で、等価自由度 $\varphi^*$ を求めます。
\begin{align} \phi^*=\frac{(\frac{V_A}{n_A}+\frac{V_B}{n_B})^2}{(\frac{V_A}{n_A})^2\frac{1}{n_A-1}+(\frac{V_B}{n_B})^2\frac{1}{n_B-1}} \end{align}
有意水準と比較する確率$p$値を求めます。 $p$ 値は、自由度 $\varphi^*$ において、$|t|$ 以上の値が発生する確率です。
$p$ 値 $<$ 有意水準 $\alpha$ → 帰無仮説$H_0$ を棄却する。
$p$ 値 $>$ 有意水準 $\alpha$ → 帰無仮説$H_0$ を棄却できない。
Excelを用いて、練習問題2 に取り掛かりましょう。
① まず、表 2 を入力しましょう。練習問題1と同じようにデータ分析のF検定を用い、等分散性の検定を行います。
② $p$ 値 = 0.01824 $<$ 有意水準 $\alpha$ = 0.05より等分散性があるとは言えません。 したがって、今回のt検定では[t検定 : 分散が等しくないと仮定した2標本による検定]を用います。
③ 出力結果
$p$ 値 = 0.024411 が求まりました。 よって、$p$ 値 = 0.024411 $<$ 有意水準 $\alpha$ = 0.05 であるので、C組とD組では点数の母平均に違いがあると判断されたことになります。
次のデータはある通年授業における、大学生 12 人の前期試験と後期試験の評点を示したものです。 後期試験の成績(B)は、前期試験の成績(A)と比べて変化したと考えられるでしょうか。
表 3 : 試験の評点(点)
有意水準 $\alpha$ = 0.05 とします。
前期の評点と後期の評点を1つのペアとして扱います。
$d_i = x_{A_i} - x_{B_i}$
この式から、各ペアごとの差を求めます。さらに、差 $d_i$ の平均値 $\bar{d}$ と 分散 $V_d$ の算出を行います。
今回は、以下の式で検定統計量 $t$ 値が求まります。
\begin{align} t=\frac{\bar{d}}{\sqrt{\frac{V_d}{n}}} \end{align}
有意水準と比較する確率 $p$ 値を求めます。 $p$ 値は、自由度 $\varphi = n-1$ のt分布において、$|t|$ 以上の値が発生する確率です。
$p$ 値 $<$ 有意水準 $\alpha \rightarrow$ 帰無仮説$H_0$ を棄却する。
$p$ 値 $>$ 有意水準 $\alpha \rightarrow$ 帰無仮説$H_0$ を棄却できない。
Excelを用いて、練習問題3 に取り掛かりましょう。
① まず、表 3 を入力します。対応のあるデータでは等分散性を検定する必要はありません。 [データ分析]から[t検定 : 一対の標本による平均の検定]
② 変数1,2にそれぞれのデータ範囲を入力します。
出力結果
$p$ 値 = 0.023102 が求まりました。 よって、$p$ 値 = 0.023102 $<$ 有意水準 $\alpha$ = 0.05 であるので、帰無仮説$H_0$ は棄却されます。 前期の平均点 63.5833 と後期の平均点 69.75 には有意差があることがわかり、後期試験の成績(B)は、前期試験の成績(A)と比べて変化したと考えられます。
A、Bの両地方で収穫した同種の大豆のタンパク質の含有率を調べたところ、次の結果が得られました。 含有率の正規性を仮定して、地方差が認められるか、有意水準 5 %で検定してください。
表 4 : A、B地方の大豆のタンパク質含有率(%)
次のデータはA市内のあるレストランとB市内のあるレストランのアルバイトの時給を示しています。 2地域のレストランのアルバイトの時給に差はあるでしょうか。
表 5 : A市、B市のあるレストランのアルバイトの時給(円)
次のデータは 7 人があるダイエット法によりダイエットを行った前後の体重を表しています。 このダイエット法で体重の変化は見られたと言って良いでしょうか。
表 6 : あるダイエット法の前後の体重(kg)