「相関変数のベクトル的解釈」を動的3Dグラフで視覚的に表現してみた~ド文系にもわかる統計学と線形代数の禁断の関係
統計学の上級者さんはたまに、「相関係数は2つの偏差ベクトルがなす角の余弦である。」という説明をします。
実際これは非常に直感的で理解しやすい解釈なのですが、ド文系の私は最初何を言っているのかわかりませんでした。
視覚的に表現することでこの解釈をすんなり理解することができたので、今回はそれを共有していこうと思います。
偏差ベクトルと標準偏差
まず手始めに「偏差ベクトル」から理解していきましょう。数式的に表現すると、
このようになります。要するに、各データが平均からどのように乖離しているかを示したベクトルです。
ちなみに、データベクトルを、平均値ベクトルをとすると偏差ベクトルはで表せます。まあ当たり前ですね。
せっかくなので実際のデータで見ていきましょう。
映画「X」に対する3人のレビュワーの☆評価のデータという事にでもしときましょう。
評価 | 平均値 | 偏差 |
---|---|---|
1.5 | 3 | -1.5 |
5 | 3 | 2 |
2.5 | 3 | -0.5 |
この表の列がそれぞれ「データベクトル」「平均値ベクトル」「偏差ベクトル」となっています。GeoGebraによる3Dプロット図は以下のようになります。
グリグリ動かせるのでぜひいろんな角度から観察してみてください。
、、となっています。
こうしてみると、偏差ベクトルがデータのちらばり具合(=平均からの乖離具合)を示しているのがよくわかりますね。点A、すなわちデータの重心からどっち方向にどれぐらい離れているかを示す矢印が偏差ベクトルであると解釈できます。
偏差ベクトルが長ければ長いほど、そのデータは平均から大きく乖離しているという事が出来ます。このようにデータの散らばり具合を示す指標は統計学にも存在しますよね。そう、標準偏差です。
実は標準偏差は偏差ベクトルの長さ
を使ってと表すことができます。
で割ってあるのは、偏差ベクトルの長さは「偏差の二乗の平方根」で求められるのに対し標準偏差は「偏差の二乗の平均値の平方根」で求められるからです。
偏差ベクトルの向き
偏差ベクトルの「長さ」は散らばりの大きさを示すことが明らかになりました。では偏差ベクトルの「向き」は何を示しているのでしょう。
ざっくり結論から言うと、個別データ()の乖離する向きと強さを示しています。
例えば、Xと全く同じ平均と標準偏差をしている(=偏差ベクトルの始点と長さが同じ)データX'の偏差ベクトルを見てみましょう。
はz軸で見ると大きく正の方向に伸びているので、が正の方向に強く乖離していることがわかります。
同じようにx軸、y軸方向についても点X'を動かしつつ確認してみると、ベクトルの向きが意味するものを視覚的に理解できるはずです。
このベクトルの向きという概念は、単体で見てもあまり意味はありませんが、比較することで重要な示唆をもたらします。
それが相関係数の話につながります。
相関係数
最後に相関係数とベクトルの向きの関係について紹介して終わりとします。
相関係数とは、2つの確率変数間の線形関係の強さをはかる指標です。-1以上1以下の値を取り、1に近ければ近いほど[強い正の相関がある」、−1に近ければ近いほど「強い負の相関がある」と言えます。
下の図は相関係数が-1の例です。
見ての通り、二つの偏差ベクトルは全く逆方向を向いています。言い換えれば「二つの偏差ベクトルのなす角の角度は180°」です。
この場合、片方のデータが平均から正の方向に乖離しているとき、もう片方のデータは負の方向に乖離しているとわかります。(負の相関)
逆に0度に近い場合は正の相関となります。
90°に近いケースは逆に視覚的なイメージがしにくいですが、「乖離の方向が同じでも反対でもない=無相関」と考えれば理解できると思います。
偏差ベクトルのなす角度によって相関度合が示される事がわかったわけですが、「相関度=20°」などと表されてもピンときませんしそもそも角度を測るのはとても大変です。そこで用いられるのがコサインです。
コサインの詳細な定義は置いておくとして、図で理解するとこのようになります。
x軸の正の部分をだけ回転させた直線と半径1の円の交点のx座標の値がとなります。
動かしてみるとわかるように、が小さければ小さいほどの値は大きくなり、逆もまたしかりです。また、範囲はです。
そしてこれこそが相関係数の正体なのです。相関係数を見た時に2本の偏差ベクトルと角度を思い浮かべることでより実感をもった解釈が出来るはずです。
正の相関が強い→が小さい→が大きいという流れを頭に入れておくといいでしょう。
念のため軽く数学的な解説もしておきます。
まずは相関係数の導出式のおさらいです。(スマホで数式が見切れているときは数式を横にスクロールしてみてください)
共分散をxとyの標準偏差で割ることで求めることができます。
一方で、偏差ベクトルをそれぞれ
と表す時、は
となり、相関係数の式と一致します。
コサインの式に出てくるの部分は高校の頃に習った「内積」で、コサインの値を求めるにはこの内積と2本のベクトルの長さを使います。
最後に
ベクトルを用いて統計学のあれこれを今回は解説していきました。
空間をイメージすることでバラツキや相関といったものがより捉えやすくなったのではないでしょうか。