正規分布の分散の区間推定:カイ二乗分布を使った方法

どうも、木村(@kimu3_slime)です。

今回は、正規分布の分散の区間推定について、カイ二乗分布を使った方法を紹介します。

 

分散の区間推定の原理

正規分布から得られたサンプルを使って、その母集団の分散を区間推定する問題を考えましょう。

その区間推定には、カイ二乗分布が使えます。

 

\(X_1,\dots, X_n\)を一般の正規分布に従う独立な確率変数族(サンプル)とします。\(\sigma ^2\)を母集団の分散、\(S^2\)をサンプルの不偏分散とするとき、統計量

\[Y= (n-1)\frac{S^2}{\sigma ^2}\]

自由度\(n-1\)のカイ二乗分布に従うことが知られています

つまり、\(F\)を自由度\(n-1\)のカイ二乗分布の累積分布関数とするとき、\(c_1,c_2\)を実数として

\[P(c_1 \leq Y \leq c_2 ) =F(c_2)-F(c_1)\]

が成り立ちます。

 

これを変形して、分散\(\sigma ^2\)の信頼区間の形にしましょう。

左辺の中身を変形すると、

\[ c_1 \leq (n-1)\frac{S^2}{\sigma^2}\leq c_2\]

\[ (n-1)\frac{S^2}{c_2} \leq  \sigma ^2 \leq (n-1)\frac{S^2}{c_1} \]

となります。

一方、右辺について考えましょう。与えられた信頼水準\(\gamma\)に対し、\(F(c_1) = \frac{1-\gamma}{2}\)、\(F(c_2)= \frac{1+\gamma}{2}\)を満たす\(c_1,c_2\)を求めましょう。つまり、\(c_1 = F^{-1}(\frac{1-\gamma}{2})\)、\(c_2 = F^{-1}(\frac{1+\gamma}{2})\)とします。すると、\(F(c_2)-F(c_1)=\gamma\)ですね。

よって、分散に関する信頼水準\(\gamma\)の信頼区間の定義

\[P( (n-1)\frac{S^2}{c_2} \leq  \sigma ^2 \leq (n-1)\frac{S^2}{c_1})=\gamma\]

を導くことができました。

これはサンプル数\(n\)、不偏分散\(S^2\)を使って計算できて、母集団の平均\(\mu\)を使わずに済んでいますね。

 

分散の信頼区間の求め方

より具体的に、コンピュータ、Juliaを使って分散の信頼区間を計算してみましょう。

正規分布に従う乱数により、20個のサンプルを作りました。

 

このサンプルを使って、95%信頼区間を計算します。

\(c_1 = F^{-1}(\frac{1-\gamma}{2})\)、\(c_2 = F^{-1}(\frac{1+\gamma}{2})\)を求めるには、累積分布関数の逆関数「quantile」が使えます。

この区間は、母集団の分散\(\sigma ^2 = 100\)を含むものとなっていますね。サンプル分散が(たまたま)大きめで、上側信頼限界が大きめになりました。

 

「20個のサンプルから信頼区間を求める」試行を20回行い、分散の信頼区間と、そこに母集団の分散が含まれる割合を表示しましょう。

運の要素はありますが、ちょうど95%の割合で母集団の分散を含んでいますね。1個の例「(26.094102026481178, 96.24997277790257)」のみ含んでいません。

試行回数をk=10000に増やすと、信頼区間が母集団分散を含んでいる割合として0.9482が得られました。これは\(\gamma\)に近い値で、95%信頼区間の意味です。

 

信頼区間の幅(大きさ)は、

\[\begin{aligned}&\quad ((n-1)\frac{S^2}{c_1} )-( (n-1)\frac{S^2}{c_2} ) \\&=(n-1)S^2(\frac{1}{c_1 }-\frac{1}{c_2})\end{aligned}\]

です。\(\gamma \to 1\)のとき、\(c_1\to 0\)、\(c_2 \to \infty\)なので、信頼水準を上げるほど区間の幅は広がります。

また、サンプル数\(n\)を増やすと、カイ二乗分布が正規分布に近づいていく性質(中心極限定理)より、信頼区間の幅は狭まることが知られています。\(n-1\)の部分は不偏分散でキャンセルされていることに注意。

サンプル数を増やしたときに、信頼区間の幅の長さがどう変化するか、実験してみましょう。

確かにサンプル数が多いほど、信頼区間の幅が小さくなっていることがわかりますね。

 

以上、正規分布の分散の区間推定について、カイ二乗分布を使った方法を紹介してきました。

t分布による平均の区間推定と合わせて、区間推定の基本的な方法として知っておくと良いでしょう。

木村すらいむ(@kimu3_slime)でした。ではでは。

 

Probability and Statistics: Pearson New International Edition
DeGroot, Morris(著), Schervish, Mark(著)
Pearson Education Limited (2013-07-30T00:00:01Z)
5つ星のうち4.3
¥10,792 (中古品)

 

入門数理統計学

入門数理統計学

posted with AmaQuick at 2022.03.27
P.G.ホーエル(著), 浅井 晃(翻訳), 村上 正康(翻訳)
培風館 (1978-01-01T00:00:01Z)
5つ星のうち4.1
¥5,280

 

Advanced Engineering Mathematics
Kreyszig, Erwin(著)
John Wiley & Sons Inc (2011-05-03T00:00:01Z)
5つ星のうち4.5
¥5,862 (中古品)

 

こちらもおすすめ

区間推定、信頼区間とは:分散既知の正規分布における平均の推定を例に

t分布とその性質、Juliaによる計算方法

点推定、不偏推定量とは:平均と分散を例に、なぜn-1で割るのか

中心極限定理とは:Juliaでの計算例、意味