2変数の確率変数の共分散、相関係数、共分散行列とその性質

どうも、木村(@kimu3_slime)です。

今回は、2変数の確率変数の共分散、相関係数、共分散行列とその性質について紹介します。

 



共分散

2変数の確率変数\(X,Y\)の共分散(covariance)は、確率変数の期待値を用いて

\[\mathrm{Cov}(X,Y)=E((X-E(X))(Y-E(Y)))\]

と定義されます。\(X\)に関する期待値とのずれと\(Y\)に関する期待値とのずれを、かけて足し合わせたものです。

これはデータ\(x,y \in \mathbb{R}^n\)の共分散

\[ \begin{aligned}\mathrm{Cov}(x,y) = \frac{1}{n-1}\sum _{i=1}^n (x_i -\mathrm{mean}(x))(y_i – \mathrm{mean}(y))\end{aligned} \]

を一般化した形です。

\(X=Y\)のケースを考えると、それは分散に一致します。

\[\begin{aligned} \mathrm{Cov}(X,X)&=E((X-E(X))^2) \\&=V(X) \end{aligned}\]

 

共分散は、その期待値部分を加法性平行移動・定数倍の性質を使って分解することで、

\[\begin{aligned} &\mathrm{Cov}(X,Y)\\ &=E(XY – E(Y)X- E(X)Y+E(X)E(Y)) \\&=E(XY)-E(Y)E(X)-E(X)E(Y)+E(X)E(Y)\\&=E(XY)-E(X)E(Y)\end{aligned}\]

と表されます。こちらを定義の式とすることもあるでしょう。

 

もし\(X,Y\)が互いに独立であるならば、期待値の積の性質\(E(XY)=E(X)E(Y)\)が成り立つので、

\[\mathrm{Cov}(X,Y)=0\]

となります。つまり、独立性は強い条件で、必ず共分散0を導きます。

一方、その逆は必ずしも成り立ちません。共分散0ではあるが、独立でない例が知られています。

 

相関係数

2つの確率変数\(X,Y\)の相関係数(correlation coefficient)は、

\[ \begin{aligned}\mathrm{Cor}(X,Y) = \frac{\mathrm{Cov}(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}}\end{aligned} \]

と定義されます。

これはデータの相関係数

\[ \begin{aligned}\mathrm{Cor}(x,y) = \frac{\mathrm{Cov}(x,y)}{\mathrm{Std}(x)\mathrm{Std}(y)}\end{aligned} \]

の一般化です。

 

相関係数は必ず

\[-1\leq \mathrm{Cor}(X,Y) \leq 1\]

となることが知られています。

確率変数のなす線形空間を考えると、\(\mathrm{Cov}(X,Y)\)はそこにおける内積の定義を満たします。標準偏差\(\sqrt{V(X)}\)がそこから導かられるノルムに対応し、コーシー・シュワルツの不等式から結論が導けます。

 

確率変数\(X,Y\)が独立であるときは、共分散が0となるので、相関係数は

\[ \begin{aligned}\mathrm{Cor}(X,Y) =0\end{aligned} \]

、つまり相関がない(無相関)となります。

 

共分散行列

共分散を並べてできる行列

\[\Sigma =  \begin{pmatrix} \mathrm{Cov}(X,X)&\mathrm{Cov}(X,Y)\\\mathrm{Cov}(Y,X) & \mathrm{Cov}(Y,Y)\end{pmatrix}\]

を(分散)共分散行列(covariance matrix)と呼びます。対角成分は分散\(V(X),V(Y)\)に等しいです。

もし\(X,Y\)が独立ならば、非対角成分の共分散が0となるため、対角成分に分散が並んだ対角行列になりますね。

2次元の正規分布の確率密度関数

\[f(x) = \frac{1}{2\pi \sqrt{\det \Sigma}} \exp (-\frac{1}{2} (x-\mu)^\top \Sigma ^{-1} (x-\mu))\]

は、共分散行列(と平均ベクトル)を指定することで決まります。

 

共分散行列は、必ず対称な半正定値行列となります。

まず、確率変数の積は、実数の積の可換性から交換できるので、

\[\begin{aligned} \mathrm{Cov}(X,Y)&=E((X-E(X))(Y-E(Y)))\\&=E((Y-E(Y))(X-E(X)))\\&=\mathrm{Cov}(Y,X) \end{aligned}\]

となり、対称行列です。

\(z=(x,y) \in \mathbb{R}^2\)とすると、期待値の和や定数倍の性質に注意すれば、

\[\begin{aligned} & z^\top \Sigma z \\&=  \begin{pmatrix} x &y \end{pmatrix} \begin{pmatrix} x\mathrm{Cov}(X,X)+y\mathrm{Cov}(X,Y)\\ x\mathrm{Cov}(Y,X) +y \mathrm{Cov}(Y,Y)\end{pmatrix} \\&= x^2 \mathrm{Cov}(X,X)+2xy \mathrm{Cov}(X,Y)+y^2\mathrm{Cov}(Y,Y)\\ &= E(x^2 (X-E(X))^2)+E(2xy(X-E(X))(Y-E(Y))) \\&\quad +E(y^2 (Y-E(Y))^2) \\ &=E((x(X-E(X))+y (Y-E(Y)))^2)\\ & \geq 0\end{aligned}\]

となります。期待値の因数分解の部分では、\(A=X-E(X)\)、\(B=Y-E(Y)\)と置いて、\(x^2A^2 +2xyAB +y^2B^2 = (xA+yB)^2\)として見るとわかりやすいでしょう。

最後の不等号は、中身の確率変数が二乗の形なので非負であり、それと期待値(和)の単調性(\(X \geq 0 \)ならば\(E(X) \geq 0\))を用いた結果です。

よって、共分散行列は半正定値行列であることがわかりました。

 

以上、確率変数の共分散、相関係数、共分散行列とその性質について紹介してきました。

2変数の確率変数を考えるときに、その相互の関係性を調べるには共分散や相関係数の考え方が必要です。一般的な性質と合わせ、独立なときに何が起こるかを知っておくと良いでしょう。

木村すらいむ(@kimu3_slime)でした。ではでは。

 

Advanced Engineering Mathematics
Kreyszig, Erwin(著)
John Wiley & Sons Inc (2011-05-03T00:00:01Z)
5つ星のうち4.5
¥5,862 (中古品)

 

こちらもおすすめ

2変数の確率変数の期待値とは:和と積の性質、証明

連続確率変数の平均(期待値)、分散の求め方:一様分布を例に

Juliaで散布図・相関図を描き、相関係数を求める方法

確率変数の独立性とは:具体例、性質

距離空間とは:関数空間、ノルム、内積を例に

コーシー・シュワルツの不等式とは:証明と幾何学的な意味

2次元の正規分布、分散共分散行列とは:具体例をもとに

対角行列の性質:積、逆行列、固有値について