練習で使ったデータは必ず保存するようにしましょう。
本講の授業内容に関する【説明動画】が1つあります。
注意:大人数が一斉に動画を再生すると動画が再生されないことがあります。時間をずらして視聴してください。
数値化されたデータを得るためには、対象(universe)がもつ特性である事象に数値(数字や記号)を割り当てる処理、すなわち、測定(measurement)が必要になります。例えば、全世界の人間(対象)の性別(特性)を数値で表す場合、性別を測定していることになります。測定は尺度(scale of measurement)と呼ばれる規則に基づいて実施しますが、測定したい事象に応じて4つの尺度を適切に使う必要があります。
量的データの尺度を基本的に連続尺度(continuous scale)といいます。連続尺度には以下の二種類があります。
なお、絶対温度(K)は原子の動いていない状態を0(基点)としているため比例尺度ですが、摂氏の温度(℃)は水の凝固点に便宜上0を割り当てたものであり、その0は"温度がない=無の値"を表している基点ではないため、間隔尺度となります。
また、統計を使って分析されることの多いデータのひとつにアンケートの回答があります。分析の際に回答へ「1:悪い」「2:普通」「3:良い」といった数値を割り当てることがありますが、人によって「普通」という評価が「悪い」に近い場合と「良い」に近い場合とがありえます。このことから、等間隔とはいえませんが、順序だけは明確であるため、順序尺度であるといえます。しかし、実際に分析を行う際には、割り当てた数値を基に平均や分散、偏差などを求めることがあります。このときは、間隔尺度として扱っているといえます。
名義尺度・順序尺度の場合に求められる統計量には、各カテゴリーあるいは階級(class)のデータ数(度数、frequency)とその度数が全体のデータ数(総度数)に占める割合(相対度数、relative frequency)とがあります。連続尺度の場合に求められる主要な要約統計量には、分位数、平均値、中央値、最頻値、範囲、分散、標準偏差、歪度、尖度などがあります。
それぞれの統計量の意味は以下のとおりです。
測定値が得られていない項目がある場合、有効でないことが明らかな値を入力します。Excelでは空白のままにしたり、マイナス記号(-)を入力したりすることが多いようです。
欠損値以外の測定値の数です。COUNTA
関数を用いることで、求められます。
欠損値以外の測定値の合計値です。
$\displaystyle \left( x_1 + x_2 + \dots + x_N \right) = \sum_{i = 1}^N x_i$
$x_i$は標本の$i$番目の測定値、$N$は標本の大きさです。例えば標本に1,3,4,6,7の5個の測定値があったとき、合計は1 + 3 + 4 + 6 + 7 = 21です。
SUM
関数を用いることで、求められます。
測定値の算術平均を表します。合計を標本の大きさ$N$で割った値です。
$\displaystyle \bar{x}=\frac{1}{N}\left ( x_1+x_2+_\cdots+x_N \right )$
$N$は標本の大きさ、$x_i$は標本の$i$番目の測定値です。例えば1,3,4,6,7であれば、平均は21 ÷ 5 = 4.2です。
AVERAGE
関数を用いることで、求められます。
欠損値を除く測定値の最大値です。例えば1,3,4,6,7であれば7が最大値です。
MAX
関数を用いることで、求められます。
欠損値を除く測定値の最小値です。例えば1,3,4,6,7であれば1が最小値です。
MIN
関数を用いることで、求められます。
測定値が分布する範囲を示します。範囲R = 最大値 - 最小値で求めることができます。例えば1,3,4,6,7であれば範囲R = 7 - 1 = 6です。
分位点とも呼びます。測定値を大きさの順に並べ、測定値の個数が等しくなるように複数のグループに分割した時のグループ間の境界値のことを言います。どの値までが全体のどれくらいの割合を占めるかの見当をつけるのに用います。特に、100グループに分割する場合は百分位数(パーセンタイル、percentile)、4グループに分割する場合は四分位数(quartile)と呼びます。第1四分位数(first quartile)は小さいほうから25%に当たる値、第3四分位数(third quartile)は大きいほうから25%に当たる値になります。四分位数はQUARTILE.EXC
関数を用いることで、求められます。
50パーセンタイル、第2四分位数とも言い、測定値を大きさの順に並べたときに全体の中央に位置する値です。例えば1,3,4,6,7であれば4が中央値です。
MEDIAN
関数を用いることで、求められます。
測定値の中で最大の度数を持つ値です。例えば1,3,4,4,6,7であれば4の数が最も多いので、4が最頻値になります。
MODE.SNGL
関数を用いることで、求められます。
Excelでは不偏分散(unbiased variance)を指し、各測定値と平均との差である偏差(deviation)を2乗することで符号を消し、その合計(偏差平方和(sum of squared deviations))を$n - 1$で割ったものです。平均値からのデータの散らばり具合を把握するのに用います。
$\displaystyle V = \frac{ \sum_{i = 1}^N {\left( x_i - \bar{x} \right)}^2 }{n - 1}$
$V$は母分散の不偏推定値である不偏分散、$n$は標本の大きさ、$x_i$は標本の$i$番目の測定値、$\bar{x}$は平均です。例えば1,3,4,6,7であれば分散は{(1 - 4.2)2 + (3 - 4.2)2 + (4 - 4.2)2 + (6 - 4.2)2 + (7 - 4.2)2} ÷ (5 - 1) = 5.7となります。母集団(対象全体に対して測定したデータ、例えば日本人全員の身長など)の平均(母平均)が未知であることを前提としていて、(標本)平均$\bar{x}$を用いて母分散を求めるため、自由度$n - 1$で割ります。
VAR.S
関数を用いることで、求められます。
Excelでは不偏分散$V$の平方根をとった値で、分散と同じく散らばり具合の尺度になります。単位と次数とが偏差と同じです。
$\hat{\sigma} = \sqrt{V} = \sqrt{\frac{1}{n-1}\sum ^{N}_{i=1}{(x_i-\bar{x})^2}}$
$\hat{\sigma}$ は母標準偏差の不偏推定値である標準偏差(不偏)です。例えば1,3,4,6,7であれば標準偏差(不偏)は分散の平方根をとって、2.387467...になります。
STDEV.S
関数を用いることで、求められます。
測定値の分布の非対称性を測る尺度です。
SKEW
関数を用いることで、求められます。
測定値の分布の裾の長さを測る尺度です。
KURT
関数を用いることで、求められます。
標準偏差を平均で割った値で、平均を考慮した上で散らばり具合を相対的に比較するのに便利な指標です。
$s / \bar{x}$
$s$は標準偏差、$\bar{x}$は平均です。
標準偏差を標本の大きさ$N$の平方根で割った値で、平均に関する検定や推定で用いられます。平均の標準誤差とも呼ばれます。
$s / \sqrt{N}$
$s$は標準偏差、$N$は標本の大きさです。
実際に練習問題を通して、それぞれの基本統計量について学んでいきましょう。
Excelを用いて次のデータを入力し、基本統計量を求めてみましょう。
以下の表は、ある学年の国語と算数のテストの結果の一部です。この結果から、学年の結果の推定値を求めます。
① Excelを開き,以下のようにデータを入力してください。
① 合計を計算します。"C2"セルに =A2+B2
と半角で入力します。
② オートフィルを使って、全ての合計を出します。選択したセルの右下にある[■]の上にカーソルを持って行き、一気に"C21"まで引き延ばします。
③ 合計が計算できました。
Excelの関数を利用して基本統計量を求めてみましょう。
① "F2" に =AVERAGE(A2:A21)
と入力し,国語の平均点を計算します。
② 同様に,以下のように入力します。
=STDEV(A2:A21)/SQRT(COUNT(A2:A21))
(標準誤差)=MEDIAN(A2:A21)
(中央値)=MODE(A2:A21)
(最頻値)=STDEV(A2:A21)
(標準偏差)=VAR(A2:A21)
(分散)=KURT(A2:A21)
(尖度)=SKEW(A2:A21)
(歪度)=MAX(A2:A21)-MIN(A2:A21)
(範囲)=MIN(A2:A21)
(最小値)=MAX(A2:A21)
(最大値)=SUM(A2:A21)
(合計)=COUNT(A2:A21)
(標本数)③ オートフィルを使って、算数と合計についても基本統計量を求めます。"F2" から "F14" まで選択し,右下にある[■]をドラッグして "H14" まで引き延ばします。
④ 算数と合計の基本統計量が求められました。
いままではExcelの関数を利用して基本統計量を求めてきましたが,分析ツールというアドインを利用しても基本統計量を求めることができます。
分析ツールは[データ]リボン - [分析]タブ - [データ分析]から利用することができます。
[データ分析]が表示されていない場合は以下のページを参考にしてアドインを追加してください。
実際に分析ツールを利用して基本統計量を求めてみましょう。
① [データ]リボン - [分析]タブ - [データ分析]をクリックします。
② "基本統計量"を選択し,[OK]をクリックします。
③ 入力範囲として,基本統計量を求めたいデータの範囲を選択します。ここでは "A1" から "C21" を選択します。
④ "先頭行をラベルとして使用" にチェックを入れます。
⑤ 出力オプションで出力先を指定します。今回は "出力先" を選択し, "J1" セルを指定します。
⑥ "統計情報" にチェックを入れます。
⑦ [OK]を押すと基本統計量が出力されます。
⑧ 関数を利用して求めた数値と一致していることを確認しましょう。
基本統計量からデータのばらつきや分布などの特徴を数値的に求めることができますが,度数分布を利用することも有効です。
度数分布とは,データをいくつかの階級に分け,それぞれの階級にいくつのデータがあるかを示した分布です。これを表で表したものを度数分布表といいます。 また,度数分布を棒グラフで示したものをヒストグラムと呼びます。ヒストグラムはデータの分布を視覚的に理解するのに役立ちます。
東京23区の各区の面積について,度数分布表とヒストグラムを作成してみましょう。
表1:東京23区の各区の面積(平方キロメートル)
表2:階級
① 表1のデータと表2の階級をExcelに入力します。
① [データ]リボン - [分析]タブ - [データ分析]をクリックします。
② "ヒストグラム"を選択し,[OK]をクリックします。
③ 入力範囲として,データの範囲を選択します。ここでは "A1" から "A24" を選択します。
④ データ区間として,階級を選択します。ここでは "B1" から "B6" を選択します。
⑤ 出力オプションで出力先を指定します。今回は "出力先" を選択し, "D1" セルを指定します。
⑥ "ラベル" と "グラフ作成" にチェックを入れます。
⑦ [OK]を押すと度数分布表とヒストグラムが出力されます。
10キロ平方メートルまでの区が3つ,11キロ平方メートルから20キロ平方メートルの区が9つ,21キロ平方メートルから30キロ平方メートルの区が2つ,31キロ平方メートルから40キロ平方メートルの区が4つ,41キロ平方メートルから50キロ平方メートルの区が2つ,"次の級" とは51キロ平方メートル以上を指し,3つという結果になりました。
練習問題1の表より、国語、算数、合計の点数について、階級(データ区間)を自由に設定し、Excelに入力しましょう。
分析ツールを使用して、表1のデータと設定した階級(データ区間)をもとに、度数分布表とヒストグラムを作成してみましょう。