DOING THINGS RIGHT

彩りのある生産的な日々を。

「相関変数のベクトル的解釈」を動的3Dグラフで視覚的に表現してみた~ド文系にもわかる統計学と線形代数の禁断の関係

統計学の上級者さんはたまに、「相関係数は2つの偏差ベクトルがなす角\theta余弦\cos\thetaである。」という説明をします。
実際これは非常に直感的で理解しやすい解釈なのですが、ド文系の私は最初何を言っているのかわかりませんでした。

視覚的に表現することでこの解釈をすんなり理解することができたので、今回はそれを共有していこうと思います。

偏差ベクトルと標準偏差

まず手始めに「偏差ベクトル」から理解していきましょう。数式的に表現すると、

\displaystyle{
dX=\left(
\begin{array}{c}
x_1-\bar{x} \\
x_2-\bar{x} \\
\vdots \\
x_n-\bar{x}
\end{array}
\right)
}

このようになります。要するに、各データが平均からどのように乖離しているかを示したベクトルです。
ちなみに、データベクトルを\displaystyle{
X
}、平均値ベクトルを\displaystyle{
\bar{X}
}とすると偏差ベクトルは\displaystyle{
dX=X-\bar{X}
}で表せます。まあ当たり前ですね。

せっかくなので実際のデータで見ていきましょう。
映画「X」に対する3人のレビュワーの☆評価のデータという事にでもしときましょう。

評価 平均値 偏差
1.5 3 -1.5
5 3 2
2.5 3 -0.5

この表の列がそれぞれ「データベクトル」「平均値ベクトル」「偏差ベクトル」となっています。GeoGebraによる3Dプロット図は以下のようになります。
グリグリ動かせるのでぜひいろんな角度から観察してみてください。

\displaystyle{
X=\vec{OX}
}\displaystyle{
\bar{X}=\vec{OA}
}\displaystyle{
dX=\vec{AX}
}となっています。

こうしてみると、偏差ベクトルがデータのちらばり具合(=平均からの乖離具合)を示しているのがよくわかりますね。点A、すなわちデータの重心からどっち方向にどれぐらい離れているかを示す矢印が偏差ベクトルであると解釈できます。

偏差ベクトルが長ければ長いほど、そのデータは平均から大きく乖離しているという事が出来ます。このようにデータの散らばり具合を示す指標は統計学にも存在しますよね。そう、標準偏差です。

実は標準偏差\displaystyle{
\delta
}は偏差ベクトルの長さ\displaystyle{
\|dX\|
} を使って\displaystyle{
\delta=\frac{\|dX\|}{\sqrt{n}}
}と表すことができます。
\sqrt{n}で割ってあるのは、偏差ベクトルの長さは「偏差の二乗の平方根」で求められるのに対し標準偏差は「偏差の二乗の平均値の平方根」で求められるからです。

偏差ベクトルの向き

偏差ベクトルの「長さ」は散らばりの大きさを示すことが明らかになりました。では偏差ベクトルの「向き」は何を示しているのでしょう。
ざっくり結論から言うと、個別データ(x_i)の乖離する向きと強さを示しています。

例えば、Xと全く同じ平均と標準偏差をしている(=偏差ベクトルの始点と長さが同じ)データX'の偏差ベクトルを見てみましょう。
\vec{dX'}はz軸で見ると大きく正の方向に伸びているので、x_3が正の方向に強く乖離していることがわかります。

同じようにx軸、y軸方向についても点X'を動かしつつ確認してみると、ベクトルの向きが意味するものを視覚的に理解できるはずです。

このベクトルの向きという概念は、単体で見てもあまり意味はありませんが、比較することで重要な示唆をもたらします。
それが相関係数の話につながります。

相関係数

最後に相関係数とベクトルの向きの関係について紹介して終わりとします。
相関係数とは、2つの確率変数間の線形関係の強さをはかる指標です。-1以上1以下の値を取り、1に近ければ近いほど[強い正の相関がある」、−1に近ければ近いほど「強い負の相関がある」と言えます。

下の図は相関係数が-1の例です。

見ての通り、二つの偏差ベクトルは全く逆方向を向いています。言い換えれば「二つの偏差ベクトルのなす角\thetaの角度は180°」です。
この場合、片方のデータ\displaystyle{x_i}が平均から正の方向に乖離しているとき、もう片方のデータ\displaystyle{x'_i}は負の方向に乖離しているとわかります。(負の相関)
逆に0度に近い場合は正の相関となります。

90°に近いケースは逆に視覚的なイメージがしにくいですが、「乖離の方向が同じでも反対でもない=無相関」と考えれば理解できると思います。

偏差ベクトルのなす角度によって相関度合が示される事がわかったわけですが、「相関度=20°」などと表されてもピンときませんしそもそも角度を測るのはとても大変です。そこで用いられるのがコサインです。
コサインの詳細な定義は置いておくとして、図で理解するとこのようになります。

x軸の正の部分を\thetaだけ回転させた直線と半径1の円の交点のx座標の値が\cos \thetaとなります。

動かしてみるとわかるように、\thetaが小さければ小さいほど\cos \thetaの値は大きくなり、逆もまたしかりです。また、範囲は\displaystyle{-1\lt\cos \theta\lt1}です。
そしてこれこそが相関係数の正体なのです。相関係数を見た時に2本の偏差ベクトルと角度\thetaを思い浮かべることでより実感をもった解釈が出来るはずです。

正の相関が強い→\thetaが小さい→\cos \thetaが大きいという流れを頭に入れておくといいでしょう。

念のため軽く数学的な解説もしておきます。
まずは相関係数の導出式のおさらいです。(スマホで数式が見切れているときは数式を横にスクロールしてみてください)

\displaystyle{
\begin{align*} r=\frac{s_{xy}}{s_xs_y}=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\frac{1}{n}\sum_{i=1}^n(y_i-\overline{y})^2}} \end{align*}
}

共分散をxとyの標準偏差で割ることで求めることができます。

一方で、偏差ベクトルをそれぞれ

\displaystyle{
\vec{x}=\left(
\begin{array}{c}
x_1-\bar{x} \\
x_2-\bar{x} \\
\vdots \\
x_n-\bar{x}
\end{array}
\right)
,
\vec{y}=\left(
\begin{array}{c}
y_1-\bar{y} \\
y_2-\bar{y} \\
\vdots \\
y_n-\bar{y}
\end{array}
\right)
}

と表す時、\cos \theta

\displaystyle{
\begin{align*} \cos \theta=\frac{\vec{x}\cdot\vec{y}}{\|x\| \|y\|}=\frac{\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}} \end{align*}
}

となり、相関係数の式と一致します。
コサインの式に出てくる\vec{x}\cdot\vec{y}の部分は高校の頃に習った「内積」で、コサインの値を求めるにはこの内積と2本のベクトルの長さを使います。

最後に

ベクトルを用いて統計学のあれこれを今回は解説していきました。
空間をイメージすることでバラツキや相関といったものがより捉えやすくなったのではないでしょうか。

DCプランナー2級に独学で合格したので道のりを記しておく【勉強方法・勉強時間など】

二日ほど前に試験のあったDCプランナー二級試験ですが自己採点の結果合格していることが確定しましたので備忘もかねてこれまでの道のりを示しておきます。これから勉強しようと思っている方は参考にしてください。
試験結果は以下の通りです。

分野A(我が国の年金制度・退職給付制度):18/26点
分野B(確定拠出年金制度):28/37点
分野C(投資に関する知識):24/24点
分野D(ライフプランニングとリタイアメントプランニング):13/13点

計:83/100点

分野A・Bを出来るだけ落とさず合格ラインを維持し、分野C・Dで確実に稼いで逃げ切るというおおよそ思惑通りの結果でした。(本当はA・Bでもっと取る予定でしたが...)

続きを読む