どうも、木村(@kimu3_slime)です。
今回は、符号検定とは何か、Juliaによる実践例を交えて紹介します。
符号検定とは
2つの映画を30人に5段階評価してもらったところ、次のようなデータが得られたとしましょう。
このとき、2つの評価に違いがあると言えるでしょうか? 特に、中央値に違いがあると言えるでしょうか。それを調べる仮説検定が、符号検定です。
2つのサンプル\(x,y\)は、連続確率変数\(X,Y\)によって独立に生み出されると考えましょう。サンプルサイズをともに\(n\)とします。
このとき、\(p = P(X\geq Y)\)として、帰無仮説を
\[H_0 : p= \frac{1}{2}\]
としましょう。これは差\(X-Y\)の中央値が0であるという仮説です。累積した確率がちょうど\(1/2\)となるのが、中央値の定義なので。対立仮説は、\(H_1 : p \neq \frac{1}{2}\)とします。
この仮説を調べるため、サンプルの差の符号を調べる確率変数
\[Z_i= \begin{cases}1 & (X_i-Y_i \geq 0 )\\0 & (X_i-Y_i < 0)\end{cases}\]
を用意しましょう。そして、
\[\begin{aligned} U = \sum_{i=1}^n Z_i \end{aligned}\]
という確率変数を考えます。差を取ったときに、プラスになる組の個数です。
もし帰無仮説が正しいならば、\(Z_i\)はベルヌーイ分布で、\(U\)はその和なので、二項分布\(\mathrm{Binomial}(n,\frac{1}{2})\)に従います。
したがって、差の符号の個数合計\(U\)によって中央値が0であるという仮説が調べられます。これは中央値の符号検定(sign test)と呼ばれるものです。
この方法では、サンプルの母集団分布\(X,Y\)に特定の分布、例えば正規分布であることを仮定しませんでした。したがって、特定の母集団分布に関するパラメータの推定でもありません。このような検定は、一般にノンパラメトリック検定(nonparametric test)と呼ばれています。分布によらない検定(distribution-free test)とも。
Juliaによる実践例
コンピュータ、Juliaによって符号検定を行ってみましょう。
まず、比較したい2つのサンプル、30人による2つの映画の5段階評価を、乱数によって用意します。
1 2 3 4 | using Distributions, HypothesisTests, Random, Plots Random.seed!(2022) x = rand(DiscreteUniform(1,5),30) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | 30-element Vector{Int64}: 1 5 3 4 3 4 3 5 1 1 4 3 5 ⋮ 3 5 2 5 2 4 4 3 4 4 2 4 |
1 2 | Random.seed!(2022) y = rand(Binomial(5,1/3)+1,30) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | 30-element Vector{Int64}: 2 2 2 3 3 2 3 2 1 2 3 2 1 ⋮ 3 2 1 2 3 2 3 4 1 4 4 4 |
冒頭で示したヒストグラムは、このサンプルによるものです。
1 2 | histogram(x, alpha=0.5) histogram!(y, alpha=0.5) |
「SignTest(x,y)」によって、差の中央値が0であるという帰無仮説に関する符号検定ができます。
1 | SignTest(x,y) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | Sign Test --------- Population details: parameter of interest: Median value under h_0: 0.0 point estimate: 1.0 95% confidence interval: (0.0, 2.0) Test summary: outcome with 95% confidence: reject h_0 two-sided p-value: 0.0347 Details: number of observations: 23 observations larger than 0.0: 17 |
帰無仮説は棄却される、つまり中央値は0でないと考えられることが示せました。2つの映画の評価には違いがある可能性が示せたわけです。
以上、符号検定とは何か、Juliaによる実践例を交えて紹介してきました。
差の検定といえば、平均値の差に関するt検定があります。t検定が使えるならばその方が一般に検出力が強いです。
しかし、t検定はサンプルが正規分布に従っている仮定が必要な、パラメトリックな方法です。正規分布に従っているかわからないが違いを調べたいときは、ノンパラメトリックな検定として、符号検定を使うと良いでしょう。
木村すらいむ(@kimu3_slime)でした。ではでは。
Probability and Statistics: Pearson New International Edition
Pearson Education Limited (2013-07-30T00:00:01Z)
¥10,792 (中古品)
培風館 (1978-01-01T00:00:01Z)
¥5,280
Advanced Engineering Mathematics
John Wiley & Sons Inc (2011-05-03T00:00:01Z)
¥5,862 (中古品)
こちらもおすすめ
離散確率分布とは:一様分布、ベルヌーイ分布、二項分布、ポアソン分布を例に
ベルヌーイ分布の和が二項分布である証明、モーメント生成関数を使って
2サンプルの平均の差の検定:等サイズ等分散、Juliaを使って
2サンプルの平均の差の検定:異サイズ等分散、Juliaを使って