層化抽出法

層化抽出法(そうかちゅうしゅつほう、: stratified sampling)とは、統計学における母集団からの標本調査の手法のひとつ。

概要

部分母集団が互いに大きく異なるとき、各部分母集団()毎にサンプルを抽出することに意味がある。層化(Stratification)とは、母集団を相対的に同質なグループに分けるプロセスであり、サンプリングの前に行われる。層は相互排他的である。すなわち母集団の要素はいずれか1つの層にのみ属する。層は集合的網羅的でもある。すなわち各要素は必ずいずれかの層に属する。各層からの抽出は無作為あるいは機械的に行われる。層化抽出法はしばしば標本誤差を減らし、サンプルの質を高める。単純な無作為抽出で得られる算術平均よりも変動の少ない加重平均を生成することができる。

以下のような戦略がある:

  1. 比例割当: 母集団と各層の比率と比例する抽出数を各層に割り当てる。ある母集団で男性が60%、女性が40%だったとき、この比率に合わせて男性と女性の抽出数を決定する。
  2. 最適割当: 母集団の各層をある変数の標準偏差で分ける。そして、分散の大きい層の抽出数を多くする。

層化抽出法を使った実例としてアメリカの政治世論調査がある。アメリカ合衆国の市民の多様性を反映するような調査結果を得るため、人種や宗教など様々な少数グループを含むようサンプルが抽出される必要がある。そのため層化抽出法による調査は単純無作為抽出法や系統的抽出法よりも民意を反映していると言われる。

同様に、ある地域の人口密度のばらつきが大きい場合、層化抽出法によって地域ごとの同等の正確さで推定することを保証できる。例えば、オンタリオ州は南北で人口密度に大きな差がある(南部が高密度)。このため単純に無作為抽出すると北部からは意味のある標本数が得られない可能性がある。最適割当による層化抽出法を使えば、北部の抽出率を高くするなどの手法が採れるだろう。

長所

  • 重要な部分母集団に集中し、無関係なものを無視できる。
  • 推定の正確さを高めることができる。
  • 効率が良い。
  • 各層の仮説検定の検定力を同等にするために、サイズの異なる各層から同数のサンプルを抽出するなどの手法もある。

短所

  • 適切な層化変数(層を分ける基準)を選びづらい場合がある。
  • サブグループ内が同質といえない場合、有益でない。
  • コストがかかる可能性がある。
  • 母集団に関する正確な情報を必要とし、さもなくば偏りを生じる。

各層のサンプル数の選択

一般に各層のサンプル数は層のサイズに比例して設定される。これを比例割当と呼ぶ。ある会社の従業員が以下のような構成になっていたとしよう。

  • 男性正社員: 90人
  • 男性パート従業員: 18人
  • 女性正社員: 9人
  • 女性パート従業員: 63人
  • 合計: 180人

ここで、上記の分類を層とし、40人の従業員のサンプルをとるよう依頼されたとする。

まず、全従業員数(180)から各層のパーセンテージを計算する。

  • 男性正社員比率 = ( 90 / 180 ) x 100 = 0.5 x 100 = 50%
  • 男性パート社員比率 = ( 18 / 180 ) x100 = 0.1 x 100 = 10%
  • 女性正社員比率 = (9 / 180 ) x 100 = 0.05 x 100 = 5%
  • 女性パート社員比率 = (63/180)x100 = 0.35 x 100 = 35%

これにより40人のサンプルの各層への割り当ては

  • 50% は男性正社員
  • 10% は男性パート社員
  • 5% は女性正社員
  • 35% は女性パート社員

となる。従って、以下のような人数となる。

  • 40人の 50% は 20人
  • 40人の 10% は 4人
  • 40人の 5% は 2人
  • 40人の 35% は 14人

層によっては他よりも変動性が大きい場合がある。そのような層からは多くのサンプルを抽出すべきである。

関連項目

標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ