本講の目的
  • 統計の基本について知る
  • Excelを用いて簡単な基本統計量を求める
本講に関する学習動画

本講の授業内容に関する【説明動画】が1つあります。

注意:大人数が一斉に動画を再生すると動画が再生されないことがあります。時間をずらして視聴してください。

データを数値で表現する方法

数値化されたデータを得るためには、対象(universe)がもつ特性である事象に数値(数字や記号)を割り当てる処理、すなわち、測定(measurement)が必要になります。例えば、全世界の人間(対象)の性別(特性)を数値で表す場合、性別を測定していることになります。測定は尺度(scale of measurement)と呼ばれる規則に基づいて実施しますが、測定したい事象に応じて4つの尺度を適切に使う必要があります。

尺度の種類

質的データ(qualitative data、特定の属性を表すデータ)

名義尺度(nominal scale)
特性はカテゴリー(category、水準)に分類され、データの区分にのみ意味があるものです。大小関係や順序関係は存在しません。データのタイプは数字か文字です。例として、性別や血液型などがあげられます。
順序尺度(ordinal scale)
データの大小または、順位のみが意味を持つ尺度です。基本的には平均標準偏差は使用せず、中央値を主に使用します。データタイプは数値か文字のどちらかで、数値であれば大きさで順序が決まり、文字であれば50音順やアルファベット順などで順序が決まります。例として、年代や各種のスケールなどがあげられます。

量的データ(quantitative data、数量として得られるデータ)

量的データの尺度を基本的に連続尺度(continuous scale)といいます。連続尺度には以下の二種類があります。

間隔尺度(interval scale)
順序情報と等間隔性を有する尺度です。加減に意味はありますが、乗除は意味がありません。例として、摂氏の温度(℃)や時刻などがあげられます。
比例尺度(ratio scale)
間隔尺度の性質に加えて、0を基点とすることができる尺度です。テストの点数や身長・体重など多くの事象にこの尺度を用います。数値はそのまま計算に用いることができ、乗除にも意味があります。

なお、絶対温度(K)は原子の動いていない状態を0(基点)としているため比例尺度ですが、摂氏の温度(℃)は水の凝固点に便宜上0を割り当てたものであり、その0は"温度がない=無の値"を表している基点ではないため、間隔尺度となります。

また、統計を使って分析されることの多いデータのひとつにアンケートの回答があります。分析の際に回答へ「1:悪い」「2:普通」「3:良い」といった数値を割り当てることがありますが、人によって「普通」という評価が「悪い」に近い場合と「良い」に近い場合とがありえます。このことから、等間隔とはいえませんが、順序だけは明確であるため、順序尺度であるといえます。しかし、実際に分析を行う際には、割り当てた数値を基に平均分散偏差などを求めることがあります。このときは、間隔尺度として扱っているといえます。

基本統計量の意味

名義尺度順序尺度の場合に求められる統計量には、各カテゴリーあるいは階級(class)のデータ数(度数、frequency)とその度数が全体のデータ数(総度数)に占める割合(相対度数、relative frequency)とがあります。連続尺度の場合に求められる主要な要約統計量には、分位数平均値中央値最頻値範囲分散標準偏差歪度尖度などがあります。

それぞれの統計量の意味は以下のとおりです。

欠損値(missing value)

測定値が得られていない項目がある場合、有効でないことが明らかな値を入力します。Excelでは空白のままにしたり、マイナス記号(-)を入力したりすることが多いようです。

標本の大きさ(sample size)$N$

欠損値以外の測定値の数です。COUNTA関数を用いることで、求められます。

合計(summation)

欠損値以外の測定値の合計値です。

$\displaystyle \left( x_1 + x_2 + \dots + x_N \right) = \sum_{i = 1}^N x_i$

$x_i$は標本の$i$番目の測定値、$N$は標本の大きさです。例えば標本に1,3,4,6,7の5個の測定値があったとき、合計は1 + 3 + 4 + 6 + 7 = 21です。

SUM関数を用いることで、求められます。

平均(mean)

測定値の算術平均を表します。合計標本の大きさ$N$で割った値です。

$\displaystyle \bar{x}=\frac{1}{N}\left ( x_1+x_2+_\cdots+x_N \right )$

$N$は標本の大きさ、$x_i$は標本の$i$番目の測定値です。例えば1,3,4,6,7であれば、平均は21 ÷ 5 = 4.2です。

AVERAGE関数を用いることで、求められます。

最大値(maximum)

欠損値を除く測定値の最大値です。例えば1,3,4,6,7であれば7が最大値です。

MAX関数を用いることで、求められます。

最小値(minimum)

欠損値を除く測定値の最小値です。例えば1,3,4,6,7であれば1が最小値です。

MIN関数を用いることで、求められます。

範囲(レンジ、range)

測定値が分布する範囲を示します。範囲R = 最大値 - 最小値で求めることができます。例えば1,3,4,6,7であれば範囲R = 7 - 1 = 6です。

分位数(quantile)

分位点とも呼びます。測定値を大きさの順に並べ、測定値の個数が等しくなるように複数のグループに分割した時のグループ間の境界値のことを言います。どの値までが全体のどれくらいの割合を占めるかの見当をつけるのに用います。特に、100グループに分割する場合は百分位数(パーセンタイル、percentile)、4グループに分割する場合は四分位数(quartile)と呼びます。第1四分位数(first quartile)は小さいほうから25%に当たる値、第3四分位数(third quartile)は大きいほうから25%に当たる値になります。四分位数はQUARTILE.EXC関数を用いることで、求められます。

中央値(メディアン、median)

50パーセンタイル、第2四分位数とも言い、測定値を大きさの順に並べたときに全体の中央に位置する値です。例えば1,3,4,6,7であれば4が中央値です。

MEDIAN関数を用いることで、求められます。

最頻値(モード、mode)

測定値の中で最大の度数を持つ値です。例えば1,3,4,4,6,7であれば4の数が最も多いので、4が最頻値になります。

MODE.SNGL関数を用いることで、求められます。

分散(variance)

Excelでは不偏分散(unbiased variance)を指し、各測定値と平均との差である偏差(deviation)を2乗することで符号を消し、その合計(偏差平方和(sum of squared deviations))を$n - 1$で割ったものです。平均値からのデータの散らばり具合を把握するのに用います。

$\displaystyle V = \frac{ \sum_{i = 1}^N {\left( x_i - \bar{x} \right)}^2 }{n - 1}$

$V$は母分散の不偏推定値である不偏分散、$n$は標本の大きさ、$x_i$は標本の$i$番目の測定値、$\bar{x}$は平均です。例えば1,3,4,6,7であれば分散は{(1 - 4.2)2 + (3 - 4.2)2 + (4 - 4.2)2 + (6 - 4.2)2 + (7 - 4.2)2} ÷ (5 - 1) = 5.7となります。母集団(対象全体に対して測定したデータ、例えば日本人全員の身長など)の平均(母平均)が未知であることを前提としていて、(標本)平均$\bar{x}$を用いて母分散を求めるため、自由度$n - 1$で割ります。

VAR.S関数を用いることで、求められます。

標準偏差(standard deviation)

Excelでは不偏分散$V$の平方根をとった値で、分散と同じく散らばり具合の尺度になります。単位と次数とが偏差と同じです。

$\hat{\sigma} = \sqrt{V} = \sqrt{\frac{1}{n-1}\sum ^{N}_{i=1}{(x_i-\bar{x})^2}}$

$\hat{\sigma}$ は母標準偏差の不偏推定値である標準偏差(不偏)です。例えば1,3,4,6,7であれば標準偏差(不偏)は分散の平方根をとって、2.387467...になります。

STDEV.S関数を用いることで、求められます。

歪度(skewness)

測定値の分布の非対称性を測る尺度です。

歪度

SKEW関数を用いることで、求められます。

尖度(kurtosis)

測定値の分布の裾の長さを測る尺度です。

尖度

KURT関数を用いることで、求められます。

変動係数(coefficient of variation)

標準偏差平均で割った値で、平均を考慮した上で散らばり具合を相対的に比較するのに便利な指標です。

$s / \bar{x}$

$s$は標準偏差、$\bar{x}$は平均です。

標準誤差(standard error)

標準偏差標本の大きさ$N$の平方根で割った値で、平均に関する検定や推定で用いられます。平均の標準誤差とも呼ばれます。

$s / \sqrt{N}$

$s$は標準偏差、$N$は標本の大きさです。

基本統計量の算出

実際に練習問題を通して、それぞれの基本統計量について学んでいきましょう。

練習問題 1

Excelを用いて次のデータを入力し、基本統計量を求めてみましょう。

以下の表は、ある学年の国語と算数のテストの結果の一部です。この結果から、学年の結果の推定値を求めます。

国語と算数のテストの結果

データの入力

① Excelを開き,以下のようにデータを入力してください。

データの入力

合計の計算

① 合計を計算します。"C2"セルに =A2+B2 と半角で入力します。

合計1
合計2

② オートフィルを使って、全ての合計を出します。選択したセルの右下にある[■]の上にカーソルを持って行き、一気に"C21"まで引き延ばします。

合計のオートフィル

③ 合計が計算できました。

合計のオートフィル後

基本統計量の求め方

Excelの関数を利用して基本統計量を求めてみましょう。

① "F2" に =AVERAGE(A2:A21) と入力し,国語の平均点を計算します。

平均点

② 同様に,以下のように入力します。

基本統計量の手計算

③ オートフィルを使って、算数と合計についても基本統計量を求めます。"F2" から "F14" まで選択し,右下にある[■]をドラッグして "H14" まで引き延ばします。

基本統計量のオートフィル

④ 算数と合計の基本統計量が求められました。

基本統計量のオートフィル後

Excelの分析ツール

いままではExcelの関数を利用して基本統計量を求めてきましたが,分析ツールというアドインを利用しても基本統計量を求めることができます。

分析ツールは[データ]リボン - [分析]タブ - [データ分析]から利用することができます。

分析ツール

[データ分析]が表示されていない場合は以下のページを参考にしてアドインを追加してください。

分析ツールを利用した基本統計量の算出

実際に分析ツールを利用して基本統計量を求めてみましょう。

データ分析の実行

① [データ]リボン - [分析]タブ - [データ分析]をクリックします。

分析ツール

② "基本統計量"を選択し,[OK]をクリックします。

基本統計量1

③ 入力範囲として,基本統計量を求めたいデータの範囲を選択します。ここでは "A1" から "C21" を選択します。

④ "先頭行をラベルとして使用" にチェックを入れます。

⑤ 出力オプションで出力先を指定します。今回は "出力先" を選択し, "J1" セルを指定します。

⑥ "統計情報" にチェックを入れます。

基本統計量2

⑦ [OK]を押すと基本統計量が出力されます。

基本統計量3

⑧ 関数を利用して求めた数値と一致していることを確認しましょう。

度数分布とヒストグラム

基本統計量からデータのばらつきや分布などの特徴を数値的に求めることができますが,度数分布を利用することも有効です。

度数分布とは,データをいくつかの階級に分け,それぞれの階級にいくつのデータがあるかを示した分布です。これを表で表したものを度数分布表といいます。 また,度数分布を棒グラフで示したものをヒストグラムと呼びます。ヒストグラムはデータの分布を視覚的に理解するのに役立ちます。

練習問題 2

東京23区の各区の面積について,度数分布表とヒストグラムを作成してみましょう。

表1:東京23区の各区の面積(平方キロメートル)

表1:東京23区の各区の面積(平方キロメートル)

表2:階級

表2:階級

東京都 都内区市町村マップ

データの入力

① 表1のデータと表2の階級をExcelに入力します。

データの入力

度数分布表とヒストグラムを作成する

① [データ]リボン - [分析]タブ - [データ分析]をクリックします。

② "ヒストグラム"を選択し,[OK]をクリックします。

ヒストグラム1

③ 入力範囲として,データの範囲を選択します。ここでは "A1" から "A24" を選択します。

④ データ区間として,階級を選択します。ここでは "B1" から "B6" を選択します。

⑤ 出力オプションで出力先を指定します。今回は "出力先" を選択し, "D1" セルを指定します。

⑥ "ラベル" と "グラフ作成" にチェックを入れます。

ヒストグラム2

⑦ [OK]を押すと度数分布表とヒストグラムが出力されます。

ヒストグラム出力結果

10キロ平方メートルまでの区が3つ,11キロ平方メートルから20キロ平方メートルの区が9つ,21キロ平方メートルから30キロ平方メートルの区が2つ,31キロ平方メートルから40キロ平方メートルの区が4つ,41キロ平方メートルから50キロ平方メートルの区が2つ,"次の級" とは51キロ平方メートル以上を指し,3つという結果になりました。

課題 1

練習問題1の表より、国語、算数、合計の点数について、階級(データ区間)を自由に設定し、Excelに入力しましょう。

課題 2

分析ツールを使用して、表1のデータと設定した階級(データ区間)をもとに、度数分布表とヒストグラムを作成してみましょう。

上に戻る