はじめに

この記事では分散分析(analysis of variance model, ANOVA model)，特に一元配置(one-way layout)の分散分析の理論的な面について話します。数理統計学の本では，分散分析はよく書かれているのを見ますが，持っている本の中では証明まで細かく書いてあるものがありませんでした．そのため，自分で行間を埋めてみたのでそちらをブログに残しておこうと思います．

モデルの式

モデルの式を述べる前に，この記事で使用する分布の記号を用意しておきます．

$N(\mu , \sigma ^ 2)$ ：平均 $\mu$ ，分散 $\sigma ^ 2$ の正規分布
$\chi _ n ^ 2$ ：自由度 $n$ のカイ $2$ 乗分布
$F _ {m, n}$ ：自由度 $(m, n)$ の $F$ -分布

今回は一元配置分散分析の中でも，固定効果モデル(fixed effects model)を扱います．

固定効果モデル

$\begin{aligned} Y _ {i j} = \mu + \alpha _ i + \varepsilon _ {i j} \end{aligned}$

ただし， $\mu , \alpha _ i \in \mathbb{R} , \varepsilon _ {i j} \sim N(0, \sigma ^ 2), 1 \leq i \leq I, 1 \leq j \leq J _ i$ で $\varepsilon _ {i j}$ は独立で $\sum _ {i = 1} ^ {I} \alpha _ i J _ i = 0$ と $\sum _ {i = 1} ^ {I} J _ i = N$ を満たす． $\mu$ は総平均(grand mean)， $\alpha _ i$ は処理効果(treatment effect)， $\varepsilon _ {i j}$ は誤差項(error team)とよばれる．

主定理

分散分析では，ある統計量を定義し，それが $F$ -分布に等しいことを利用して仮説検定を行います． $1 \leq i \leq I$ に対して，以下の確率変数を定義します．

$\begin{gather} \overline{Y _ i} := \frac{1}{J _ i} \sum _ {j = 1}^{J _ i} Y _ {i j}, \quad \overline{Y} := \frac{1}{N} \sum _ {i = 1} ^ {I} \sum _ {j = 1} ^ {J _ i} Y _ {i j}, \\ S _ T := \sum _ {i = 1} ^ {I} \sum _ {j = 1} ^ {J _ i} (Y _ {i j} - \overline{Y}) ^2,\\ S _ W := \sum _ {i = 1} ^ {I} \sum _ {j = 1} ^ {J _ i} (Y _ {i j} - \overline{Y _ i}) ^ 2,\quad S _ B := \sum _ {i = 1} ^ {I} \sum _ {j = 1} ^ {J _ i} (\overline{Y _ i} - \overline{Y}) ^ 2. \end{gather}$

$S _ T$ は総平方和(total sum of squares)， $S _ W$ は郡内平方和(within sum of squares)， $S _ B$ は群間平方和(between sum of squares)とよばれる．ここで，主定理に使う統計量を以下で定める．

$\begin{aligned} F := \frac{S _ B / (I - 1)}{S _ W / (N - I)}. \end{aligned}$

定理．
任意の $1 \leq i \leq I$ に対して $\alpha _ i = 0$ ならば， $F$ は自由度 $(I - 1, N - I)$ の $F$ -分布に従う．

補題

補題 1． 実数 $a, b \in \mathbb{R}$ と独立な確率変数 $X, Y$ に対して，次が成立する．

$\begin{gather} E [ a X + b Y ] = a E [ X ] + b E [ Y ] , \\ V [ a X + b Y ] = a ^ 2 V [ X ] + b ^ 2 V [ Y ] . \end{gather}$

補題 2． 独立な確率変数 $X, Y$ に対して、次が成り立つ．

$\begin{gather} X \sim N(\mu _ 1, \sigma _ 1 ^ 2), Y \sim N(\mu _ 2, \sigma _ 2 ^ 2) \Rightarrow X + Y \sim N(\mu _ 1 + \mu _ 2, \sigma _ 1 ^ 2 + \sigma _ 2 ^ 2), \\ X \sim \chi _ m, Y \sim \chi _ n \Rightarrow X + Y \sim \chi _ {m + n}, \\ X \sim \chi _ m, X + Y \sim \chi _ {m + n} \Rightarrow Y \sim \chi _ n. \end{gather}$

証明． [1] の命題 4.20 参照． 3 番目の式は，特性関数を考えればすぐに分かる．

補題 3． $1 \leq i \leq I, 1 \leq j \leq J_i$ に対して，以下が成立する．

$\begin{gather} Y _ {i j} \sim N(\mu + \alpha _ i , \sigma ^ 2),\quad \overline{Y _ i} \sim N(\mu + \alpha _ i , \frac{\sigma ^ 2}{J _ i}), \quad \overline{Y} \sim N(\mu , \frac{\sigma ^ 2}{N}). \end{gather}$

証明．

$\begin{aligned} \overline{Y} = \frac{1}{N} \sum _ {i = 1} ^ {I} J _ i \overline{Y _ i} \end{aligned}$

に気をつけると、補題 1, 2 より簡単に計算できる．

補題 4． $n$ 個の独立な確率変数 $X _ 1, \ldots , X _ n \sim N(\mu , \sigma)$ に対して， $\overline{X} := \frac{1}{n} \sum _ {k = 1} ^ {n} X _ k$ とおく．このとき，以下が成立する．
(1). $\overline{X}, \sum _ {k = 1} ^ {n} (X _ k - \overline{X}) ^ 2$ は互いに独立．
(2). $\frac{1}{\sigma ^ 2}\sum _ {k = 1} ^ {n} (X _ k - \overline{X}) ^ 2 \sim \chi _ {n - 1} ^ 2.$

証明． [1] の定理 5.1 参照．

補題 5．
(1). $S _ T = S _ W + S _ B.$
(2). $S _ B$ と $S _ W$ は独立．
(3). $S _ W / \sigma ^ 2 \sim \chi _ {N - I} ^ 2$ .
(4). 任意の $1 \leq i \leq I$ に対して $\alpha _ i = 0$ ならば， $S _ T / \sigma ^ 2 \sim \chi _ {N - 1} ^ 2$ .
(5). 任意の $1 \leq i \leq I$ に対して $\alpha _ i = 0$ ならば， $S _ B / \sigma ^ 2 \sim \chi _ {I - 1} ^ 2$ .

証明． (1)．

$\begin{aligned} S _ T & = \sum _ {i = 1} ^ {I} \sum _ {j = 1} ^ {J _ i} \{ (Y _ {i j} - \overline{Y _ i}) - (\overline{Y _ i} - \overline{Y}) \} ^2 \\ & = S _ W + S _ B + 2 \sum _ {i = 1} ^ {I} (\overline{Y _ i} - \overline{Y}) \sum _ {j = 1} ^ {J _ i} (Y _ {i j} - \overline{Y _ i}) \\ & = S _ W + S _ B. \end{aligned}$

(2). 補題 4 より， $\overline{Y _ i}$ と $\sum _ {i = 1} ^ {I} \sum _ {j = 1} ^ {J _ i} (Y _ {i j} - \overline{Y _ i}) ^ 2$ は独立．また， $k \neq i$ に対して， $\overline{Y _ k}$ と $\sum _ {i = 1} ^ {I} \sum _ {j = 1} ^ {J _ i} (Y _ {i j} - \overline{Y _ i}) ^ 2$ は独立．したがって， $\overline{Y} = \frac{1}{N} \sum _ {i = 1} ^ {I} J _ i \overline{Y _ i}$ より， $\overline{Y}$ と $\sum _ {i = 1} ^ {I} \sum _ {j = 1} ^ {J _ i} (Y _ {i j} - \overline{Y _ i}) ^ 2$ は独立．よって， $S _ T$ と $S _ W$ は独立になる．

(3)．各 $1 \leq i \leq I$ に対して，補題 3 より $Y _ {i j} \sim N(\mu + \alpha _ i , \sigma ^ 2)$ となる．また， $\overline{Y _ i}$ はそれらの平均のため補題 4 から，次が成立する．

$\begin{aligned} \frac{1}{\sigma ^ 2} \sum _ {j = 1} ^ {J _ i} (Y _ {i j} - \overline{Y _ i}) ^ 2 \sim \chi _ {J _ i - 1} ^ 2. \end{aligned}$

各 $1 \leq i \leq I$ に対して， $\frac{1}{\sigma ^ 2} \sum _ {j = 1} ^ {J _ i} (Y _ {i j} - \overline{Y _ i}) ^ 2$ は独立のため，補題 2 より次が成り立つ．

$\begin{aligned} \frac{S _ W}{\sigma ^ 2} = \frac{1}{\sigma ^ 2} \sum _ {i = 1} ^ {I} \sum _ {j = 1} ^ {J _ i} (Y _ {i j} - \overline{Y _ i}) ^ 2 \sim \chi _ {N - I} ^ 2. \end{aligned}$