ja.wikipedia.org

分散 (確率論) - Wikipedia

出典: フリー百科事典『ウィキペディア（Wikipedia）』

統計学および確率論における分散（ぶんさん、英: variance）とは、データ（母集団、標本）、確率変数（確率分布）の標準偏差の自乗のことである。分散も標準偏差と同様に散らばり具合を表し^[1]、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いることも多い。

分散は具体的には、平均値からの偏差の2乗の平均に等しい。データ x₁, x₂, …, x_n の分散 s² は

$s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}$

ここで x は平均値を表す。

分散が 0 であることは、データの値が全て等しいことと同値である。データの分散は二乗平均から平均の2乗を引いた値に等しくなる。

確率変数 X の分散 V[X]^{[注 1]}は、X の期待値を E[X] で表すと

V[X] = E[(X − E[X])²]

となる^[2]。確率変数の分散は確率変数の2次の中心化モーメントである。

統計学では、記述統計学においては標本の散らばり具合を表す指標として標本分散（ひょうほんぶんさん、英: sample variance）を、推計統計学においては不偏分散（ふへんぶんさん、英: unbiased variance）・不偏標本分散（ふへんひょうほんぶんさん、英: unbiased sample variance）を用いる。

英語の variance（バリアンス）という語はロナルド・フィッシャーが1918年に導入した^[3]。

2乗可積分確率変数 X の分散は期待値を E[X] で表すと

$V[X]=E{\big [}(X-E[X])^{2}{\big ]}$

で定義される。これを展開して整理すると

${\begin{alignedat}{5}V[X]&=E{\big [}(X-E[X])^{2}{\big ]}\\&=E{\big [}X^{2}-2XE[X]+(E[X])^{2}{\big ]}\\&=E[X^{2}]-2E{\big [}XE[X]{\big ]}+E{\big [}(E[X])^{2}{\big ]}\\&=E[X^{2}]-2E[X]E[X]+(E[X])^{2}(\because E[X]=Const)\\&=E[X^{2}]-(E[X])^{2}\\\end{alignedat}}$

とも書ける。また確率変数 X の特性関数を φ_X(t) = E[e^itX] とおくと（i は虚数単位）、これは 2階連続的微分可能で

$V[X]=-\varphi _{X}''(0)+(\varphi _{X}'(0))^{2}$

と表示することもできる。

チェビシェフの不等式から、任意の正の数 ε に対して

$P(|X-E[X]|>\varepsilon )\leq {\frac {V[X]}{\varepsilon ^{2}}}$

が成り立つ。これは分散が小さくなるほど確率変数が期待値に近い値をとりやすくなることを示す大まかな評価である。

X, X₁, …, X_n を確率変数、a, b, a₁, …, a_n を定数とし、共分散を Cov[ · , · ] で表すと

を満たす。したがって、特に X₁, …, X_n が独立ならば、

$\operatorname {Cov} [X_{i},X_{j}]={\begin{cases}V[X_{i}]&(i=j)\\0&(i\neq j)\end{cases}}$

より

$V[X_{1}+\dotsb +X_{n}]=V[X_{1}]+\dotsb +V[X_{n}]$

が成り立つ。

確率変数 X が一様分布 U(a, b) に従うとき、V[X] = (b − a)²/12
確率変数 X が正規分布 N(μ, σ²) に従うとき、V[X] = σ²
確率変数 X が二項分布 B(n, p) に従うとき、V[X] = np(1 − p)
確率変数 X がポアソン分布 Po(λ) に従うとき、V[X] = λ

推計統計学では、母集団の分散と標本の分散を区別する必要がある。

大きさが n である母集団 x₁, x₂, …, x_n に対して、平均値を μ で表すとき、偏差の自乗の平均値

$\sigma ^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}$

を母分散（ぼぶんさん、英: population variance）と言う^[4]。

母集団の平均が $\mu$ 、分散が $\sigma ^{2}$ のとき、大きさが n である標本 x₁, x₂, …, x_n に対して、標本の平均値を x で表すとき、偏差の自乗の平均値

$s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}$

で定義される s² を標本分散（ひょうほんぶんさん、英: sample variance）と言う。s は標準偏差と呼ばれる^[4]。

定義より、

$s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}{x_{i}}^{2}-({\bar {x}})^{2}={\overline {x^{2}}}-({\bar {x}})^{2}$

となるから、標本分散は2乗の平均値と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には桁落ちが起きる可能性がある。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である（あるいは一般の総和計算と同じくカハンの加算アルゴリズムやpairwise summation（英語版）のような手法により、誤差を小さくする工夫がなされることもある）。

一般に、標本分散の期待値は母分散と一致せず、母分散より小さくなる。これは、母分散は「母平均との偏差」で算出されるのに対し、標本分散では「標本平均との偏差」で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの無作為標本に対して、標本分散の期待値 E[s²] について、

$E[s^{2}]=E\left[{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\right]=E\left[{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu -({\bar {x}}-\mu ))^{2}\right]$

$={\frac {1}{n}}E\left[\sum _{i=1}^{n}\left(x_{i}-\mu -{\frac {1}{n}}\sum _{j=1}^{n}(x_{j}-\mu )\right)^{2}\right]$

$={\frac {1}{n}}E\left[\sum _{i=1}^{n}\left({\frac {n-1}{n}}(x_{i}-\mu )-{\frac {1}{n}}\sum _{j\neq i}(x_{j}-\mu )\right)^{2}\right]$

$={\frac {1}{n}}\sum _{i=1}^{n}E\left[{\frac {(n-1)^{2}}{n^{2}}}(x_{i}-\mu )^{2}+{\frac {1}{n^{2}}}\sum _{j\neq i}(x_{j}-\mu )^{2}\right]$

$+{\frac {1}{n}}\sum _{i=1}^{n}E\left[-{\frac {2(n-1)}{n^{2}}}(x_{i}-\mu )\sum _{j\neq i}(x_{j}-\mu )+{\frac {1}{n^{2}}}\sum _{j\neq i}\sum _{k\neq i,j}(x_{j}-\mu )(x_{k}-\mu )\right]$

$={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {(n-1)^{2}}{n^{2}}}E[(x_{i}-\mu )^{2}]+{\frac {1}{n^{2}}}\sum _{j\neq i}E[(x_{j}-\mu )^{2}]\right]$

$+{\frac {1}{n}}\sum _{i=1}^{n}\left[-{\frac {2(n-1)}{n^{2}}}E\left[(x_{i}-\mu )\sum _{j\neq i}(x_{j}-\mu )\right]+{\frac {1}{n^{2}}}\sum _{j\neq i}\sum _{k\neq i,j}E[(x_{j}-\mu )(x_{k}-\mu )]\right]$