一元配置分散分析

統計学において、一元配置分散分析(いちげんはいちぶんさんぶんせき、: one-way analysis of variance、略称: one-way ANOVA)は、F分布を用いて3つ以上の標本の平均を比較するために使われる手法である。この手法は数値データに対してのみ使うことができる[1]

ANOVAは、2つ以上の群の中の標本が同じ平均値を持つ母集団から取られた、という帰無仮説を検定する。これを行うために、2つの推定量が母集団の分散から作られる。これらの推定量は様々な仮定に依っている。ANOVA は、平均間の計算された分散と標本内の分散の比であるF統計量を生成する。もし複数の群の平均が同じ平均値の母集団から取られれば、中心極限定理にしたがって群の平均間の分散は標本の分散よりも低くなる。したがって、高い比は標本が異なる平均値を持つ母集団から取られたものであることを示唆する[1]

しかしながら、典型的には、one-way ANOVAは少なくとも3つ以上の群間の差の検定のために使われる。これは、2群の場合はt検定で取り扱うことができるためである。比較する平均が2つしかない時は、t検定F検定は等価である。ANOVAとtとの間の関係はF = t2によって与えられる。One-way ANOVAの拡張は、1つの従属変数に対する2つの異なる分類の独立変数の影響を調べる二元配置分散分析である。

仮定

One-way ANOVAの結果は以下の仮定が満される限りにおいて信頼性があると見なすことができる。

  • 応答関数残差は正規分布する(あるいは近似的に正規分布する)。
  • 標本は独立である。
  • 母集団の分散は等しい。
  • 任意の群に対する応答は互いに独立で同一の分布に従う正規確率変数である(単純確率変数ではない)。

ANOVAは正規性の仮定の違反に関しては比較的頑健な手順である[2]。もしデータが順序尺度であれば、クラスカル=ウォリス一元配置分散分析といったノンパラメトリックな代替法を用いなければならない。

固定効果、完全ランダム化実験、非釣り合い型データの場合

モデル

正規線形モデルは、完全に同じようなベル(正規)カーブで異なる平均値の確率分布を持つ処理群を記述する。ゆえに、モデルのフィッティングは、それぞれの処理群の平均値と分散計算(処理群内の平均分散が使われる)のみを必要とする。平均と分散の計算は仮説検定の一部として行われる。

完全にランダム化された実験のための一般的に使われる正規線形モデルは[3]

y i , j = μ j + ε i , j {\displaystyle y_{i,j}=\mu _{j}+\varepsilon _{i,j}} (平均モデル)

あるいは

y i , j = μ + τ j + ε i , j {\displaystyle y_{i,j}=\mu +\tau _{j}+\varepsilon _{i,j}} (効果モデル)

である。上式において、

  • i = 1 , , I {\displaystyle i=1,\dotsc ,I} は実験単位の添え字
  • j = 1 , , J {\displaystyle j=1,\dotsc ,J} は処理群の添え字
  • I j {\displaystyle I_{j}} はj番目の処理群における実験単位の数
  • I = j I j {\displaystyle I=\sum _{j}I_{j}} は実験単位の総数
  • y i , j {\displaystyle y_{i,j}} は観測
  • μ j {\displaystyle \mu _{j}} はj番目の処理群の観測の平均
  • μ {\displaystyle \mu } 観測の総平均
  • τ j {\displaystyle \tau _{j}} はj番目の処理効果(総平均からのずれ)
  • τ j = 0 {\displaystyle \sum \tau _{j}=0}
  • μ j = μ + τ j {\displaystyle \mu _{j}=\mu +\tau _{j}}
  • ε N ( 0 , σ 2 ) {\displaystyle \varepsilon \thicksim N(0,\sigma ^{2})} , ε i , j {\displaystyle \varepsilon _{i,j}} は正規分布したゼロ平均のランダム誤差

である。

実験単位の添え字iは複数の方法で解釈できる。一部の実験では、同じ実験単位が処理の範囲の対象となり、iは特定の単位を指す。その他では、それぞれの処理群が異なる実験単位の組を持ち、iは単純にj番目の表の添え字となる。

データとデータの統計的概要

ANOVAデータの構造化、非釣り合い型、単一因子
群観測の一覧
1 2 {\displaystyle \dotso } j {\displaystyle j} {\displaystyle \dotso } J {\displaystyle J}
1 y 11 {\displaystyle y_{11}} y 12 {\displaystyle y_{12}} y 1 J {\displaystyle y_{1J}}
2 y 21 {\displaystyle y_{21}} y 22 {\displaystyle y_{22}} y 2 J {\displaystyle y_{2J}}
3
{\displaystyle \vdots }
i {\displaystyle i} y i j {\displaystyle y_{ij}}
{\displaystyle \vdots }
y I 1 1 {\displaystyle y_{I_{1}1}} {\displaystyle \dotso }
y I 2 2 {\displaystyle y_{I_{2}2}} {\displaystyle \dotso }
群の要約統計量 総要約統計量
観測の数 I 1 {\displaystyle I_{1}} I 2 {\displaystyle I_{2}} {\displaystyle \dotso } I j {\displaystyle I_{j}} {\displaystyle \dotso } I J {\displaystyle I_{J}} 観測の数 I = I j {\displaystyle I=\sum I_{j}}
i y i j {\displaystyle \sum _{i}y_{ij}} j i y i j {\displaystyle \sum _{j}\sum _{i}y_{ij}}
平方和 i ( y i j ) 2 {\displaystyle \sum _{i}(y_{ij})^{2}} 平方和 j i ( y i j ) 2 {\displaystyle \sum _{j}\sum _{i}(y_{ij})^{2}}
平均 m 1 {\displaystyle m_{1}} {\displaystyle \dotso } m j {\displaystyle m_{j}} {\displaystyle \dotso } m J {\displaystyle m_{J}} 平均 m {\displaystyle m}
分散 s 1 2 {\displaystyle s_{1}^{2}} {\displaystyle \dotso } s j 2 {\displaystyle s_{j}^{2}} {\displaystyle \dotso } s J 2 {\displaystyle s_{J}^{2}} 分散 s 2 {\displaystyle s^{2}}

モデルと要約を比較する: μ = m {\displaystyle \mu =m} および μ j = m j {\displaystyle \mu _{j}=m_{j}} 。総平均および総分散は、群平均と群分散からではなく、総和から計算される。

仮説検定

要約統計量を所与として、仮説検定の計算を表形式で示している。平方和の2つの列が説明値を示しているのに対して、結果の説明には1つの列しか必要ではない。

ANOVA表、固定モデル、単一因子、完全ランダム化実験
変動要因 平方和 (SS) 平方和 (SS) 自由度 (DF) 平方平均 (MS) F
説明SS[4] 計算SS[5] DF MS
処理 T r e a t m e n t s I j ( m j m ) 2 {\displaystyle \sum _{Treatments}I_{j}(m_{j}-m)^{2}} j ( i y i j ) 2 I j ( j i y i j ) 2 I {\displaystyle \sum _{j}{\frac {(\sum _{i}y_{ij})^{2}}{I_{j}}}-{\frac {(\sum _{j}\sum _{i}y_{ij})^{2}}{I}}} J 1 {\displaystyle J-1} S S T r e a t m e n t D F T r e a t m e n t {\displaystyle {\frac {SS_{Treatment}}{DF_{Treatment}}}} M S T r e a t m e n t M S E r r o r {\displaystyle {\frac {MS_{Treatment}}{MS_{Error}}}}
誤差 T r e a t m e n t s ( I j 1 ) s j 2 {\displaystyle \sum _{Treatments}(I_{j}-1)s_{j}^{2}} j i y i j 2 j ( i y i j ) 2 I j {\displaystyle \sum _{j}\sum _{i}y_{ij}^{2}-\sum _{j}{\frac {(\sum _{i}y_{ij})^{2}}{I_{j}}}} I J {\displaystyle I-J} S S E r r o r D F E r r o r {\displaystyle {\frac {SS_{Error}}{DF_{Error}}}}
総計 O b s e r v a t i o n s ( y i j m ) 2 {\displaystyle \sum _{Observations}(y_{ij}-m)^{2}} j i y i j 2 ( j i y i j ) 2 I {\displaystyle \sum _{j}\sum _{i}y_{ij}^{2}-{\frac {(\sum _{j}\sum _{i}y_{ij})^{2}}{I}}} I 1 {\displaystyle I-1}

M S E r r o r {\displaystyle MS_{Error}} は、モデルの σ 2 {\displaystyle \sigma ^{2}} に対応する分散の推定量である。

分析の概要

中心的なANOVA解析は一連の計算から構成される。データを表形式でまとめ、次に

  • それぞれの処理群は、実験単位の数、2つの和、1つの平均、1つの分散によって要約される。処理群の要約統計量が合わさり、実験単位の総数と総和が与えられる。総平均と総分散は総和から計算される。処理平均と総平均がモデルで使われる。
  • 3つの自由度 (DF) および平方和 (SS) は要約統計量から計算される。次に、平方平均 (MS) が計算され、比からFが決定される。
  • 計算機は通常、Fからp値を決定し、これによって処理が有意に異なる結果を生んだかどうかが決定される。もし結果が有意であれば、一時的モデルは妥当性があるとされる。

実験が釣り合い型の場合は、全ての I j {\displaystyle I_{j}} 項は等しく、したがってSS式が単純になる。

実験単位(あるいは環境効果)が一様ではないより複雑な実験では、行の統計量も分析に使われる。モデルは i {\displaystyle i} に依存した項を含む。追加項の決定は利用できる自由度の数を減少させる。

脚注

  1. ^ a b Howell, David (2002). Statistical Methods for Psychology. Duxbury. pp. 324–325. ISBN 0-534-37770-X 
  2. ^ Kirk, RE (1995). Experimental Design: Procedures For The Behavioral Sciences (3 ed.). Pacific Grove, CA, USA: Brooks/Cole 
  3. ^ Montgomery, Douglas C. (2001). Design and Analysis of Experiments (5th ed.). New York: Wiley. p. Section 3-2. ISBN 9780471316497 
  4. ^ Moore, David S.; McCabe, George P. (2003). Introduction to the Practice of Statistics (4th ed.). W H Freeman & Co.. p. 764. ISBN 0716796570 
  5. ^ Winkler, Robert L.; Hays, William L. (1975). Statistics: Probability, Inference, and Decision (2nd ed.). New York: Holt, Rinehart and Winston. p. 761 

参考文献

  • George Casella (18 April 2008). Statistical design. Springer. ISBN 978-0-387-75965-4. http://www.springer.com/statistics/statistical+theory+and+methods/book/978-0-387-75964-7 

関連項目