2サンプルの平均の差の検定:異サイズ等分散、Juliaを使って

どうも、木村(@kimu3_slime)です。

今回は、2サンプルの平均の差の検定について、異サイズ等分散のケースを、Juliaを使って紹介します。

 



2サンプルの平均の差の検定

検定の原理と手順

あるテストを10人に受けてもらい、1ヶ月後別の20人に同じテストを受けてもらい、点数が次のようになったとしましょう。

それぞれの平均を計算してみると、

差には違いがあり、2回目の方が大きいように見えます。ただし、この数字を比較するだけでは、たまたま偶然によるブレがあったと言えるかもしれません。

そこで、2つのサンプルの差について、検定を行いましょう。

今回は、

  1. 2つのサンプルは正規分布に従っていて、分散が等しい

という仮定を置きます。サンプルのサイズは異なって良いものとします。これは2サンプルで等分散のt検定と呼ばれるものです。

 

2つのサンプルの母集団の平均を\(\mu_X ,\mu _Y\)とし、分散が等しく、サンプルサイズを\(n_X, n_Y\)としましょう。そしてサンプルの平均を\(M_X, M_Y\)、サンプルの不偏分散を\(S_X, S_Y\)とします。このとき、

\[T= \sqrt{\frac{n_X n_Y (n_X+n_Y -2)}{n_X +n_Y}} \frac{(M_X-M_Y)-(\mu_X -\mu_Y)}{\sqrt{n_X S_X ^2 +n_Y S_Y ^2}}\]

自由度\(n_X+n_Y-2\)のt分布に従うことが知られています。それはカイ二乗分布との関係から、計算で示せます。

参考:ホーエル「入門数理統計学」10.5. t分布の応用

 

帰無仮説として

\[H_0: \mu_X = \mu _Y\]

対立仮説として

\[H_1: \mu_X \neq \mu _Y\]

を設定しましょう。一方は平均の差が0、もう一方は平均の差が0でない、という仮説です。

有意水準を\(\alpha\)として決めたとき、帰無仮説が正しい仮定のもとで、

\[P(c_1 \leq T \leq c_2) = 1-\alpha\]

となる区間を求めることができます。

  • サンプルの差がこの区間に入るならば、帰無仮説は棄却されない
  • サンプルの差がこの区間に入らないならば、帰無仮説は棄却される

という考え方で、検定を行えます。

 

検定のやり方

以上が平均の差の検定の原理です。ここからは、実際に検定を行ってみましょう。

JuliaのパッケージHypothesisTestsでは、「EqualVarianceTTest(x,y)」で平均の差が0であるという仮説を検定できます。

最初に示したサンプルを検定すると、有意水準が\(\alpha =0.05\)のときは、仮説が棄却されることがわかりました。平均に差があるという仮説が支持されたわけです。

一方で、帰無仮説が棄却される最小の有意水準の値=p値は約0.002です。\(\alpha=0.001\)と設定していたときは、帰無仮説は棄却されない、平均に差がない可能性が否定されません。

 

母集団の平均が近いサンプルを用意すると、平均に差があるという仮説は棄却されなくなります。

 

同じ平均の設定のもとで、サンプルサイズを大きくすると、平均の違いが検知されるようになります。

サンプルサイズが小さいと、仮に平均に差があったとしても、検定で見抜けない可能性があるわけです。

逆に言えば、どんなに小さな平均の差であったとしても、サンプルサイズを増やして検定をすれば、平均に差がないという仮説が棄却されるようになります。「差がある」仮説が棄却されないからといって、「差が大きい」とは限らないことに注意しましょう。

 

最後に、有意水準に関する検証をしましょう。

何度も検定を繰り返したとき、帰無仮説が正しいにもかかわらずそれを棄却する割合が有意水準\(\alpha\)です。

母集団分布の平均に差がないデータを与えて、棄却される割合を計算してみましょう。「pvalue(検定)」で、検定のp値を求められます。

10000回サンプルを取って検定を繰り返した結果、約5%が棄却されました。これが有意水準\(\alpha =0.05\)の意味ですね。

 

以上、2サンプルの平均の差の検定について、異サイズ等分散のケースを、Juliaを使って紹介してきました。

等分散のt検定は特にスチューデントのt検定(Student’s t-test)と呼ばれ、異分散のときはウェルチのt検定(Welch’s t-test)が知られています。

検定量の形は変わりますが、いずれもt分布を利用して検定できる点は共通していますね。

木村すらいむ(@kimu3_slime)でした。ではでは。

 

Probability and Statistics: Pearson New International Edition
DeGroot, Morris(著), Schervish, Mark(著)
Pearson Education Limited (2013-07-30T00:00:01Z)
5つ星のうち4.3
¥10,792 (中古品)

 

入門数理統計学

入門数理統計学

posted with AmaQuick at 2022.03.27
P.G.ホーエル(著), 浅井 晃(翻訳), 村上 正康(翻訳)
培風館 (1978-01-01T00:00:01Z)
5つ星のうち4.1
¥5,280

 

Advanced Engineering Mathematics
Kreyszig, Erwin(著)
John Wiley & Sons Inc (2011-05-03T00:00:01Z)
5つ星のうち4.5
¥5,862 (中古品)

 

こちらもおすすめ

2サンプルの平均の差の検定:等サイズ等分散、Juliaを使って

統計的仮説検定とは:平均の検定、t検定を例に、Juliaを使って

t分布とその性質、Juliaによる計算方法

正規分布の平均の区間推定:分散未知、t分布を使って