ja.wikipedia.org

分散 (確率論) - Wikipedia

出典: フリー百科事典『ウィキペディア(Wikipedia)』

統計学および確率論における分散(ぶんさん、: variance)とは、データ母集団標本)、確率変数確率分布)の標準偏差自乗のことである。分散も標準偏差と同様に散らばり具合を表し[1]、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いることも多い。

分散は具体的には、平均値からの偏差2乗の平均に等しい。データ x1, x2, …, xn の分散 s2

{\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}
ここで x は平均値を表す。

分散が 0 であることは、データの値が全て等しいことと同値である。データの分散は二乗平均から平均の2乗を引いた値に等しくなる。

確率変数 X の分散 V[X][注 1]は、X期待値E[X] で表すと

V[X] = E[(XE[X])2]

となる[2]。 確率変数の分散は確率変数の2次の中心化モーメントである。

統計学では、記述統計学においては標本の散らばり具合を表す指標として標本分散(ひょうほんぶんさん、: sample variance)を、推計統計学においては不偏分散(ふへんぶんさん、: unbiased variance)・不偏標本分散(ふへんひょうほんぶんさん、: unbiased sample variance)を用いる。

英語の variance(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[3]

2乗可積分確率変数 X の分散は期待値E[X] で表すと

{\displaystyle V[X]=E{\big [}(X-E[X])^{2}{\big ]}}

定義される。これを展開して整理すると

{\displaystyle {\begin{alignedat}{5}V[X]&=E{\big [}(X-E[X])^{2}{\big ]}\\&=E{\big [}X^{2}-2XE[X]+(E[X])^{2}{\big ]}\\&=E[X^{2}]-2E{\big [}XE[X]{\big ]}+E{\big [}(E[X])^{2}{\big ]}\\&=E[X^{2}]-2E[X]E[X]+(E[X])^{2}(\because E[X]=Const)\\&=E[X^{2}]-(E[X])^{2}\\\end{alignedat}}}

とも書ける。また確率変数 X特性関数φX(t) = E[eitX] とおくと(i虚数単位)、これは 2階連続的微分可能

{\displaystyle V[X]=-\varphi _{X}''(0)+(\varphi _{X}'(0))^{2}}

と表示することもできる。

チェビシェフの不等式から、任意の正の数 ε に対して

{\displaystyle P(|X-E[X]|>\varepsilon )\leq {\frac {V[X]}{\varepsilon ^{2}}}}

が成り立つ。これは分散が小さくなるほど確率変数が期待値に近い値をとりやすくなることを示す大まかな評価である。

X, X1, …, Xn確率変数a, b, a1, …, an定数とし、共分散Cov[ · , · ] で表すと

を満たす。したがって、特に X1, …, Xn独立ならば、

{\displaystyle \operatorname {Cov} [X_{i},X_{j}]={\begin{cases}V[X_{i}]&(i=j)\\0&(i\neq j)\end{cases}}}

より

{\displaystyle V[X_{1}+\dotsb +X_{n}]=V[X_{1}]+\dotsb +V[X_{n}]}

が成り立つ。

推計統計学では、母集団の分散と標本の分散を区別する必要がある。

大きさが n である母集団 x1, x2, …, xn に対して、平均値μ で表すとき、偏差自乗の平均値

{\displaystyle \sigma ^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-\mu )^{2}}

母分散(ぼぶんさん、: population variance)と言う[4]

母集団の平均が{\displaystyle \mu }、分散が{\displaystyle \sigma ^{2}}のとき、大きさが n である標本 x1, x2, …, xn に対して、標本の平均値x で表すとき、偏差自乗の平均値

{\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}

で定義される s2標本分散(ひょうほんぶんさん、: sample variance)と言う。s標準偏差と呼ばれる[4]

定義より、

{\displaystyle s^{2}={\frac {1}{n}}\textstyle \sum \limits _{i=1}^{n}{x_{i}}^{2}-({\bar {x}})^{2}={\overline {x^{2}}}-({\bar {x}})^{2}}

となるから、標本分散は2乗の平均値と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には桁落ちが起きる可能性がある。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムpairwise summation英語版のような手法により、誤差を小さくする工夫がなされることもある)。

一般に、標本分散の期待値は母分散と一致せず、母分散より小さくなる。これは、母分散は「母平均との偏差」で算出されるのに対し、標本分散では「標本平均との偏差」で算出されることに原因がある。実際には、平均と分散を持つ同一分布からの無作為標本に対して、標本分散の期待値 E[s2] について、

{\displaystyle E[s^{2}]=E\left[{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\right]=E\left[{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu -({\bar {x}}-\mu ))^{2}\right]}
{\displaystyle ={\frac {1}{n}}E\left[\sum _{i=1}^{n}\left(x_{i}-\mu -{\frac {1}{n}}\sum _{j=1}^{n}(x_{j}-\mu )\right)^{2}\right]}
{\displaystyle ={\frac {1}{n}}E\left[\sum _{i=1}^{n}\left({\frac {n-1}{n}}(x_{i}-\mu )-{\frac {1}{n}}\sum _{j\neq i}(x_{j}-\mu )\right)^{2}\right]}
{\displaystyle ={\frac {1}{n}}\sum _{i=1}^{n}E\left[{\frac {(n-1)^{2}}{n^{2}}}(x_{i}-\mu )^{2}+{\frac {1}{n^{2}}}\sum _{j\neq i}(x_{j}-\mu )^{2}\right]}
{\displaystyle +{\frac {1}{n}}\sum _{i=1}^{n}E\left[-{\frac {2(n-1)}{n^{2}}}(x_{i}-\mu )\sum _{j\neq i}(x_{j}-\mu )+{\frac {1}{n^{2}}}\sum _{j\neq i}\sum _{k\neq i,j}(x_{j}-\mu )(x_{k}-\mu )\right]}
{\displaystyle ={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {(n-1)^{2}}{n^{2}}}E[(x_{i}-\mu )^{2}]+{\frac {1}{n^{2}}}\sum _{j\neq i}E[(x_{j}-\mu )^{2}]\right]}
{\displaystyle +{\frac {1}{n}}\sum _{i=1}^{n}\left[-{\frac {2(n-1)}{n^{2}}}E\left[(x_{i}-\mu )\sum _{j\neq i}(x_{j}-\mu )\right]+{\frac {1}{n^{2}}}\sum _{j\neq i}\sum _{k\neq i,j}E[(x_{j}-\mu )(x_{k}-\mu )]\right]}

ここで、

{\displaystyle E[(x_{i}-\mu )^{2}]=E[(x_{j}-\mu )^{2}]=\sigma ^{2}}
{\displaystyle x_{i}}{\displaystyle x_{j}}{\displaystyle x_{k}}は独立のため、
{\displaystyle E\left[(x_{i}-\mu )\sum _{j\neq i}(x_{j}-\mu )\right]=E[x_{i}-\mu ]E\left[\sum _{j\neq i}(x_{j}-\mu )\right]=0}
{\displaystyle E[(x_{j}-\mu )(x_{k}-\mu )]=E[x_{j}-\mu ]E[x_{k}-\mu ]=0}

となるため、

{\displaystyle E[s^{2}]={\frac {1}{n}}\sum _{i=1}^{n}({\frac {(n-1)^{2}}{n^{2}}}\sigma ^{2}+{\frac {n-1}{n^{2}}}\sigma ^{2})={\frac {n-1}{n}}\sigma ^{2}}

が成り立つ。

そこで

{\displaystyle {\hat {\sigma }}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {n}{n-1}}s^{2}}

を用いると、

{\displaystyle E\left[{\frac {1}{n-1}}\sum _{1}^{n}(x_{i}-{\bar {x}})^{2}\right]=\sigma ^{2}}

となり、期待値が母分散に等しくなる推定量が得られる。つまり母分散の不偏推定量となる。これを不偏標本分散(ふへんひょうほんぶんさん、: unbiased sample variance)や不偏分散(ふへんぶんさん、: unbiased variance)と呼ぶ[4]

上記の標本分散は不偏でないことを強調する場合偏りのある標本分散: biased sample variance)と言う。

なお、不偏標本分散を単に標本分散と呼ぶ文献もある。

定義から明らかに、標本の大きさが大きくなる程につれて偏りのある標本分散は不偏標本分散に近づく。

  1. ^ 分散を Var[X] と書く場合もある。