2サンプルの平均の差の検定:等サイズ等分散、Juliaを使って

どうも、木村(@kimu3_slime)です。

今回は、2サンプルの平均の差の検定について、等サイズ等分散のケースを、Juliaを使って紹介します。

 



2サンプルの平均の差の検定

検定の原理と手順

10人の人にあるテストを受けてもらい、1ヶ月後再び同じテストを受けてもらい、点数が次のようになったとしましょう。

それぞれの平均を計算してみると、

差には違いがある、2回目の方が大きいように見えます。ただし、この数字を比較するだけでは、たまたま偶然によるブレがあったと言えるかもしれません。

そこで、2つのサンプルの差について、検定を行いましょう。

今回は、

  1. 2つのサンプルは正規分布に従っていて、分散が等しい
  2. 2つのサンプルのサイズが等しい

という仮定を置きます。これはペアのt検定(paired t test)、対応のある2つのグループの平均値の差の検定と呼ばれるものです。

 

2つのサンプルの母集団の平均を\(\mu_X ,\mu _Y\)とし、分散が等しく、サンプルサイズを\(n\)としましょう。そしてサンプルの差の平均を\(M_D\)、サンプルの差の不偏分散を\(S_D^2\)とします。このとき、

\[T= \frac{M_D-(\mu_X -\mu_Y)}{\frac{S_D}{\sqrt{n}}}\]

自由度\(n-1\)のt分布に従うことが知られています。

 

帰無仮説として

\[H_0: \mu_X = \mu _Y\]

対立仮説として

\[H_1: \mu_X \neq \mu _Y\]

を設定しましょう。一方は平均の差が0、もう一方は平均の差が0でない、という仮説です。

有意水準を\(\alpha\)として決めたとき、帰無仮説が正しい仮定のもとで、

\[P(c_1 \leq T \leq c_2) = 1-\alpha\]

となる区間を求めることができます。

  • サンプルの差がこの区間に入るならば、帰無仮説は棄却されない
  • サンプルの差がこの区間に入らないならば、帰無仮説は棄却される

という考え方で、検定を行えます。

 

検定のやり方

以上が平均の差の検定の原理です。ここからは、実際に検定を行ってみましょう。

JuliaのパッケージHypothesisTestsでは、「OneSampleTTest(x,y)」で平均の差が0であるという仮説を検定できます。

最初に示したサンプルを検定すると、有意水準が\(\alpha =0.05\)のときは、仮説が棄却されることがわかりました。平均に差があるという仮説が支持されたわけです。

一方で、帰無仮説が棄却される最小の有意水準の値=p値は0.03です。\(\alpha=0.01\)と設定していたときは、帰無仮説は棄却されない、平均に差がない可能性が否定されません。

差の検定においては、帰無仮説が棄却されることを有意差(significant difference)がある、棄却されないことを有意差があるとは言えない、という言葉遣いがされることがあります。この「有意」という用語は、確率統計的に違いがある可能性が高いということであり、「差の結果に科学的な意義がある」ことを意味しないことに注意しましょう。

 

母集団の平均が近いサンプルを用意すると、平均に差があるという仮説は棄却されなくなります。

 

同じ平均の設定のもとで、サンプルサイズを大きくすると、平均の違いが検知されるようになります。

サンプルサイズが小さいと、仮に平均に差があったとしても、検定で見抜けない可能性があるわけです。

逆に気をつけたいのが、どんなに小さな平均の差であったとしても、サンプルサイズを増やして検定をすれば、平均に差があるという仮説が棄却されなくなります。「差の有無」は、「差の大小」を必ずしも意味しないことに注意しましょう。

 

最後に、有意水準に関する検証をしましょう。

何度も検定を繰り返したとき、帰無仮説が正しいにもかかわらずそれを棄却する割合が有意水準\(\alpha\)です。

母集団分布の平均に差がないデータを与えて、棄却される割合を計算してみましょう。「pvalue(検定)」で、検定のp値を求められます。

1000回サンプルを取って検定を繰り返した結果、約5%が棄却されました。これが有意水準\(\alpha =0.05\)の意味ですね。

 

以上、2サンプルの平均の差の検定について、等サイズ等分散のケースを、Juliaを使って紹介してきました。

今回はサンプルサイズが同じ場合を扱いましたが、サイズが異なる場合でも似た方法が使えます。それについては別記事で紹介予定です。

木村すらいむ(@kimu3_slime)でした。ではでは。

 

Probability and Statistics: Pearson New International Edition
DeGroot, Morris(著), Schervish, Mark(著)
Pearson Education Limited (2013-07-30T00:00:01Z)
5つ星のうち4.3
¥10,792 (中古品)

 

入門数理統計学

入門数理統計学

posted with AmaQuick at 2022.03.27
P.G.ホーエル(著), 浅井 晃(翻訳), 村上 正康(翻訳)
培風館 (1978-01-01T00:00:01Z)
5つ星のうち4.1
¥5,280

 

Advanced Engineering Mathematics
Kreyszig, Erwin(著)
John Wiley & Sons Inc (2011-05-03T00:00:01Z)
5つ星のうち4.5
¥5,862 (中古品)

 

こちらもおすすめ

統計的仮説検定とは:平均の検定、t検定を例に、Juliaを使って

t分布とその性質、Juliaによる計算方法

正規分布の平均の区間推定:分散未知、t分布を使って