相関係数
定義と性質
相関係数 (correlation coefficient) は確率変数 \(X\) に対する別の確率変数 \(Y\) の線形従属性を示す尺度。最も一般的なものは線形相関係数 (linear correlation coefficient) で積率相関係数 (product-moment correlation coefficient)、Peason の \(r\) (Pearson's r) とも呼ばれる。
母相関係数 \(\rho\) は共分散をそれぞれの変数の周辺分布の分散の積の平方根で割った比で表すことができる。\[ \rho = \frac{{\rm Cov}(X,Y)}{\sqrt{{\rm Var}(X) {\rm Var}(Y)}} \]
相関係数 \(\rho\) は -1 から 1 までの値を取る。\(\rho=1\) のとき「完全な正の相関」であり、すべてのデータは正の傾きを持つ直線上に並ぶ。同様に \(\rho=-1\) の場合は「完全な負の相関」で負の傾きを持つ直線上に並ぶ。\(\rho\sim 0\) のとき \(X\) と \(Y\) は無相関 (uncorrelation) である。
相関係数は順位付けのために比較することができるが等比ではない。つまり \(\rho_1 = 2 \rho_2\) の時に「\(\rho_1\) は \(\rho_2\) に比べて正/負の相関が高い」は正しいが「\(\rho_1\) は \(\rho_2\) に比べて二倍の相関がある」という考え方はできない。
\(X, Y\) が独立であれば相関係数 \(\rho\) は 0 となる。ただし \(\rho\) は線形関係のみを表しているため \(\rho=0\) だとしても独立とは限らない。
標本相関係数
\(X\) と \(Y\) の \(n\) 個の無作為標本 \((x_1,y_1), \cdots, (x_n,y_n)\) に対しては標本相関係数 \(r\) で考える。\[ r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} \] ここで標本平均をそれぞれ \(\bar{x}, \bar{y}\) とすると以下のように表すことができる。\[ \begin{align*} S_{xy} & = \sum_{i=1}^n x_i y_i - \frac{1}{n} \sum_{i=1}^n x_i \sum_{i=1}^n y_i & = \sum_{i=1}^n x_i y_i - n \bar{x} \bar{y} \\ S_{xx} & = \sum_{i=1}^n x_i^2 - \frac{1}{n} \left(\sum_{i=1}^n x_i\right)^2 & = \sum_{i=1}^n x_i^2 - n \bar{x}^2 \\ S_{yy} & = \sum_{i=1}^n y_i^2 - \frac{1}{n} \left(\sum_{i=1}^n y_i\right)^2 & = \sum_{i=1}^n y_i^2 - n \bar{y}^2 \end{align*} \] このとき \(\frac{S_{xy}}{n-1}\) を標本共分散という。
帰無仮説による \(t\) 検定
サンプリング調査から求める標本相関係数は母集団の相関係数と異なっていることが多い。特にサンプルが少ないケースでは無相関な母集団からたまたま高い標本相関係数が得られることもある。この対処として、標本相関係数 \(r\) に対して母相関係数が \(\rho = 0\) という帰無仮説 (null hypothesis) を検定することで、無相関な母集団からたまたま得られた標本相関係数である可能性を排除する方法がある。
帰無仮説として母相関係数 \(\rho=0\)、対立仮説として \(\rho \neq 0\) を考えたとき、標本相関係数 \(r\) から求めた \(t\) の値は自由度 \(n-1\) の t 分布に従うことが分かっている。ここで \(n\) は標本数を表す。\[ t = \frac{r \sqrt{n - 2}}{1 - r^2} \] 上記 \(|t|\) の値が t 分布表での対応する自由度における危険確率 (5% など実施者が想定するしきい値) より大きければ帰無仮説は棄却されたことを意味する。
標本数 \(n\) がある程度の大きさを持つ場合 t 分布は正規分布 \({\rm Norm}(\mu=0,\sigma^2=1)\) に近似する。慣例的に \(n \geq 30\) であれば正規分布として区間推定を行って良い。
フィッシャーの \(z\)-変換
フィッシャーの \(z\)-変換 (Fisher's \(z\)-transformation) は標本相関係数 \(r\) から真の母相関係数 \(\rho\) の信頼区間を導出する。つまり「母相関係数は 95% の確率でこの範囲に存在する」といった確率分布を表す。統計量 \(z\) は以下の式で与えられる。\[ z = \frac{1}{2} \log \left(\frac{1+r}{1-r}\right) \]
この \(z\) は特に \(n \geq 10\) の 2 変量正規分布からの標本数に対して以下の平均 \(\mu\)、分散 \(\sigma^2\) を持つ正規分布 \({\rm Norm}(\mu,\sigma^2)\) に近似する。ここで \(n\) は標本数で \(\rho\) は母相関係数である。\[ \begin{align*} \mu & = \frac{1}{2} \left( \log \frac{1+\rho}{1-\rho} \right) + \frac{\rho}{2(n-1)} \\ \sigma^2 & = \frac{1}{n - 3} \end{align*} \] この変換は非常に頑健性 (robustness) が高い。
アルゴリズム
線形相関係数の実装
\(X\)、\(Y\) の標本をから線形相関係数 \(r\) を算出する関数。
def pearson(x:Array[Double], y:Array[Double]):(Double,Double,Double) = {
val n = x.length
if(n != y.length || n == 0){
throw new IllegalArgumentException("")
}
// 平均を求める
var ax = 0.0
var ay = 0.0
for(i <- 0 until x.length){
ax += x(i)
ay += y(i)
}
ax /= n
ay /= n
var sxx = 0.0
var syy = 0.0
var sxy = 0.0
for(i <- 0 until x.length){
val dx = x(i) - ax
val dy = y(i) - ay
sxx += dx * dx
syy += dy * dy
sxy += dx * dy
}
sxy / math.sqrt(sxx * syy)
}
無相関確率の実装
線形相関係数 \(r\) と標本数 \(n\) から帰無仮定の \(t\)-検定で元の標本 \(X\) と \(Y\) が無相関である確率を算出する。
def prob(r:Double, n:Int):Double = {
val epsilon = Double.MinPositiveValue
val df = n - 2
val t = r * math.sqrt(df / ((1 - r + epsilon) * (1 + r + epsilon)))
不完全ベータ関数(a = 0.5 * df, b = 0.5, x = df / (df + t * t))
}
フィッシャーの \(z\)-変換の実装
線形相関係数 \(r\) からフィッシャーの \(z\) を算出する。
def fishersZ(r:Double):Double = {
val epsilon = Double.MinPositiveValue
0.5 * math.log((1 + r + epsilon) / (1 - r + epsilon))
}