符号検定、ノンパラメトリック検定とは:Juliaによる実践例

どうも、木村(@kimu3_slime)です。

今回は、符号検定とは何か、Juliaによる実践例を交えて紹介します。

 



符号検定とは

2つの映画を30人に5段階評価してもらったところ、次のようなデータが得られたとしましょう。

このとき、2つの評価に違いがあると言えるでしょうか? 特に、中央値に違いがあると言えるでしょうか。それを調べる仮説検定が、符号検定です。

 

2つのサンプル\(x,y\)は、連続確率変数\(X,Y\)によって独立に生み出されると考えましょう。サンプルサイズをともに\(n\)とします。

このとき、\(p = P(X\geq Y)\)として、帰無仮説を

\[H_0 : p= \frac{1}{2}\]

としましょう。これは差\(X-Y\)の中央値が0であるという仮説です。累積した確率がちょうど\(1/2\)となるのが、中央値の定義なので。対立仮説は、\(H_1 : p \neq \frac{1}{2}\)とします。

この仮説を調べるため、サンプルの差の符号を調べる確率変数

\[Z_i= \begin{cases}1 & (X_i-Y_i \geq 0 )\\0 & (X_i-Y_i < 0)\end{cases}\]

を用意しましょう。そして、

\[\begin{aligned} U = \sum_{i=1}^n Z_i \end{aligned}\]

という確率変数を考えます。差を取ったときに、プラスになる組の個数です。

もし帰無仮説が正しいならば、\(Z_i\)はベルヌーイ分布で、\(U\)はその和なので、二項分布\(\mathrm{Binomial}(n,\frac{1}{2})\)に従います

したがって、差の符号の個数合計\(U\)によって中央値が0であるという仮説が調べられます。これは中央値の符号検定(sign test)と呼ばれるものです。

この方法では、サンプルの母集団分布\(X,Y\)に特定の分布、例えば正規分布であることを仮定しませんでした。したがって、特定の母集団分布に関するパラメータの推定でもありません。このような検定は、一般にノンパラメトリック検定(nonparametric test)と呼ばれています。分布によらない検定(distribution-free test)とも。

 

Juliaによる実践例

コンピュータ、Juliaによって符号検定を行ってみましょう。

まず、比較したい2つのサンプル、30人による2つの映画の5段階評価を、乱数によって用意します。

 

冒頭で示したヒストグラムは、このサンプルによるものです。

 

「SignTest(x,y)」によって、差の中央値が0であるという帰無仮説に関する符号検定ができます。

帰無仮説は棄却される、つまり中央値は0でないと考えられることが示せました。2つの映画の評価には違いがある可能性が示せたわけです。

 

以上、符号検定とは何か、Juliaによる実践例を交えて紹介してきました。

差の検定といえば、平均値の差に関するt検定があります。t検定が使えるならばその方が一般に検出力が強いです。

しかし、t検定はサンプルが正規分布に従っている仮定が必要な、パラメトリックな方法です。正規分布に従っているかわからないが違いを調べたいときは、ノンパラメトリックな検定として、符号検定を使うと良いでしょう。

木村すらいむ(@kimu3_slime)でした。ではでは。

 

Probability and Statistics: Pearson New International Edition
DeGroot, Morris(著), Schervish, Mark(著)
Pearson Education Limited (2013-07-30T00:00:01Z)
5つ星のうち4.3
¥10,792 (中古品)

 

入門数理統計学

入門数理統計学

posted with AmaQuick at 2022.03.27
P.G.ホーエル(著), 浅井 晃(翻訳), 村上 正康(翻訳)
培風館 (1978-01-01T00:00:01Z)
5つ星のうち4.1
¥5,280

 

Advanced Engineering Mathematics
Kreyszig, Erwin(著)
John Wiley & Sons Inc (2011-05-03T00:00:01Z)
5つ星のうち4.5
¥5,862 (中古品)

 

こちらもおすすめ

離散確率分布とは:一様分布、ベルヌーイ分布、二項分布、ポアソン分布を例に

ベルヌーイ分布の和が二項分布である証明、モーメント生成関数を使って

2サンプルの平均の差の検定:等サイズ等分散、Juliaを使って

2サンプルの平均の差の検定:異サイズ等分散、Juliaを使って