論文の概要
本論文は確率変数の独立性を評価する、相関係数$\phi_k$を提案したものである。$\phi_k$は分割表に対して行うカイ二乗検定に類似しており、1)間隔変数だけでなく順序変数やカテゴリカル変数に適用可能、2)変数間の非線形性を捉えることが可能、3)$2$変数以上の変数に対して適用可能である。$\phi_k$の導出の際には変数をビン化して分割表を作成しており、各ビンに含まれるデータ数を均一にして$2$変数を対象にするとピアソンの相関係数と一致するため、$\phi_k \in [0,1]$はピアソンの相関係数の一般化と言える。
$\phi_k$の諸般
導出方法の概要
2変数間の$\phi_k$の導出では2次元ガウス分布が用いられており、その相関係数が$\phi_k$である。前処理として2変数はビン化され、分割表のデータとして取り扱われる。$\phi_k$はカイ二乗検定をベースに構築されており、カイ二乗統計量を算出する必要がある。この統計量の算出にあたり各セルの期待頻度・観測頻度は、データが相関係数が0・$\phi_k$の2次元ガウス分布に基づいているとして計算される。また変数の実効的な自由度を盛り込んだ変数を別途計算して、その統計量を正規化する。その統計量とデータから直接計算されるカイ二乗統計量とが一致するとして、それが成立するようなガウス分布の相関係数が$\phi_k$となる。
特徴
一般的に使われるクラメールの$\phi$係数と違い、$\phi_k$は変数の入力順番を入れ替えても同じ結果が得られ、ビンの数に対しても安定した結果が得られる。さらに、統計量を求める際に確率分布に基づいて計算しているため、統計的な揺らぎに対しても頑健な性質を持っている。
$\phi_k$は$0$から$1$までの値をとり、値が大きいほど相関が高いことを意味する。値の決定にあたり、ガウス分布から求める統計量が実効的な自由度からなる変数よりも小さければ$0$としており、その変数に含まれるパラメータを調整することでノイズに対して頑健な結果を得ることができる。このパラメータは少数データであればその$\phi_k$に影響を及ぼすが、データ量が多くなるにつれて影響は及ぼしにくくなる。
統計的優位性
検定は漸近近似に基づいているおり、スパースな分割表に対しては近似が成立しない。古典的には、Cochranのルールだと分割表の少なくとも8割のセルには5カウント以上データが入っている必要があり、期待頻度が0のセルがない問題でないといけない。 近似ができない場合はモンテカルロ近似を用いることもできるが、p値が0.1以下の場合は計算量が現実的でなくなる。本研究では実効的な自由度の評価や、少ないデータ数に対してG統計量を用いる際の近似式を修正するなどしている。
参考文献
Baak, Max, et al. "A new correlation coefficient between categorical, ordinal and interval variables with Pearson characteristics." Computational Statistics & Data Analysis 152 (2020): 107043. (arxiv)