Twitter

Twitterで数学に関する話題を発信しています。本家のサイトはログインしなければ閲覧できない仕様になってしまったので,当サイトに移して誰でも見られるようにしました。(2023.8.1)

浜田昌宏 / 浜田塾@hamadajuku

変量x,yに対して新しい変量z=x-yを作ると,標準偏差Sと相関係数RについてSz²=Sx²+Sy²-2SxSyRxyが成り立ちます。これは余弦定理の形をしています。つまりSx,Sy,Szを3辺として三角形を作ると,SxとSyの間の角θの余弦cosθが相関係数になります。

浜田昌宏 / 浜田塾@hamadajuku

GeoGebraで確認してみました。
http://ggbtu.be/m1939573

浜田昌宏 / 浜田塾@hamadajuku

このことから |Sx-Sy|≦Sz≦Sx+Sy が分かります。
前の等号成立 ⇔ θ=0° ⇔ 相関係数 Rxy=1
後の等号成立 ⇔ θ=180° ⇔ 相関係数 Rxy=-1

浜田昌宏 / 浜田塾@hamadajuku

相関係数 Rxy>0 ⇔ θは鋭角 ⇔ Sz²<Sx²+Sy²
相関係数 Rxy=0 ⇔ θは直角 ⇔ Sz²=Sx²+Sy²
相関係数 Rxy<0 ⇔ θは鈍角 ⇔ Sz²>Sx²+Sy²
ここでは鋭角は0°,鈍角は180°を含みます。

浜田昌宏 / 浜田塾@hamadajuku

以上は z=x-y または z=y-x の場合です。z=x+y の場合は Sz²=Sx²+Sy²+2SxSyRxy になります。つまり相関係数の符号の扱いが逆になるだけで,あとは全く同じです。

浜田昌宏 / 浜田塾@hamadajuku

z=x+yの場合は,
相関係数 Rxy<0 ⇔ θは鋭角 ⇔ Sz²<Sx²+Sy²
相関係数 Rxy=0 ⇔ θは直角 ⇔ Sz²=Sx²+Sy²
相関係数 Rxy>0 ⇔ θは鈍角 ⇔ Sz²>Sx²+Sy²

浜田昌宏 / 浜田塾@hamadajuku

分散は,データX=(x1,x2,…,xn)が平均A=(a,a,…,a)からどれだけ離れているかを測るものです。このとき偏差の2乗和Σ(x-a)²を求めるのは,直線距離(ユークリッド距離)で測っているからであり,絶対値の和Σ|x-a|だとマンハッタン距離になります。

浜田昌宏 / 浜田塾@hamadajuku

Σ(x-a)²は,aが平均のときに最小になります。Σ|x-a|の場合は,aが中央値のときに最小になります。

浜田昌宏 / 浜田塾@hamadajuku

n個のデータをベクトルX=(x1,x2,…,xn),その平均をaとしてA=(a,a,…,a)とすると,X∙A=|A|²が成り立ちます。XとAのなす角をθとすると|X|cosθ=|A|,つまり|X|≧|A|で等号成立条件はθ=0°です。

浜田昌宏 / 浜田塾@hamadajuku

分散は|X-A|²/nと表せます。これを展開すると|X|²/n-|A|²/nになり,「分散=2乗の平均-平均の2乗」を導くことができます。

浜田昌宏 / 浜田塾@hamadajuku

図に表すと∠OAX=90°となり,平均は偏差の2乗和|X-A|²を最小にする意味があることがよく分かります。

浜田昌宏 / 浜田塾@hamadajuku

2次元の散布図にn個のデータが正n角形の頂点となるように配置されているとき,相関係数は0であることを証明して下さい。

浜田昌宏 / 浜田塾@hamadajuku

解答例を作りました。
https://hamadajuku.com/publish/misc/correlation0.pdf

浜田昌宏 / 浜田塾@hamadajuku

正12角形にすると相関係数は0になります。
http://ggbtu.be/m1842949
0になるのは正12角形のほかにどんなときがあるでしょうか。

浜田昌宏 / 浜田塾@hamadajuku

正三角形,正方形,十字型,星型のような回転対称な形,またはそれらの複合形であれば0になります。ただし3回対称以上とします。もちろんそんなに均整のとれた形ではなくバラバラな配置でも,0になるものはいくらでもあります。

浜田昌宏 / 浜田塾@hamadajuku

散布図を複素数平面と考えてみます。データz=x+iyを平均Σz/nを原点として2乗すると分散・共分散が見えてきます。Σz²/nの実部がx,yの分散の差,Σz²/nの虚部が共分散(ただし2倍)になります。

浜田昌宏 / 浜田塾@hamadajuku

複素数を2乗すると偏角が2倍になります。つまり,直線y=x付近のデータは2乗するとy軸の正の部分の近くに集まり,直線y=-x付近のデータは2乗するとy軸の負の部分の近くに集まります。そうやってデータの相関をy軸方向に並べて測っていると言えます。

浜田昌宏 / 浜田塾@hamadajuku

これは共分散の意味を直感的に捉える方法として優れています。また,偏差をなぜ2乗するのか?という疑問(高校数学の範囲で説明するのはなかなか難しい)についても,ある程度の納得を与えてくれます。しかし,数Ⅰで学習する内容なのに数Ⅲまで使えない説明というのが残念です。