はじめに
気温とアイスクリームの売上げ数という2つのデータがある場合に、気温が高ければアイスクリームはよく売れると言えるのでしょうか。感覚的には、気温が高ければアイスクリームの売上げ数も伸びそうですね。では、気温とアイスクリームの売上げ数は、どの程度関連しているのでしょうか。
このように、2つのデータがある場合に、2つのデータがどの程度関連しているのかを数値で示すことができる統計学の手法があります。本記事では、具体的な内容を追いながら、2つのデータがどの程度関連しているのかを数値化する手法を紹介していきます。
2つのデータの関連度合いを示す計算方法
例えば、数学の点数と理科の点数がどの位関連しているか、という場合を考えてみましょう。
教科 | Aさん | Bさん | Cさん | 平均 | 標準偏差 |
---|---|---|---|---|---|
数学の点数(x) | 60点 | 70点 | 80点 | 70点 | 8.16点 |
理科の点数(y) | 50点 | 80点 | 77点 | 69点 | 13.5点 |
(標準偏差の計算方法は下記に補足してあります。)
数学の点数が高い人は、理科の点数も高い傾向にあるといえるのでしょうか。
2つのデータがどの程度関連しているのかを示す際に共分散という数値が用いられます。
この場合、2つのデータの関連度合いを示す数値である共分散は、以下のように計算することができます。
{(Aさんの数学の点数 - 数学の平均)(Aさんの理科の点数 - 理科の平均) + (Bさんの数学の点数 - 数学の平均)(Bさんの理科の点数 - 理科の平均) + (Cさんの数学の点数 - 数学の平均)(Cさんの理科の点数 - 理科の平均)} ÷ データ数
{(60 - 70)(50 - 69) + (70 - 70)(80 - 69) + (80 - 70)(77 - 69)} ÷ 3 = 90
沢山計算がありますが、計算自体は簡単ですね。
さて、ここで出てきた共分散の90という数字ですが、この90の単位はどのようになるのでしょうか。計算途中で点数を平均から引いて、数学と理科の点数で掛け合わせているので、「~点の2乗」が単位になりそうです。
では、今回算出した数学と理科の関連度合いと、例えば身長とヒップの大きさの関連度合いは、どちらの関連度合いがより高いのか調べたい場合、どうすればよいでしょうか。
身長(cm)とヒップ(cm)の関連度合いを同じように調べると、単位は「cmの2乗」になりそうです。しかし、数学と理科の「~点の2乗」と、身長とヒップの「cmの2乗」では単位が違う為、このままでは比較ができません。
そこで、単位の影響を取り払って2つのデータの関連度合いを示してみましょう。
計算方法は以下のようになります。{}記号は単位です。
90{点の2乗} ÷ (1つ目のデータの標準偏差{点} × 2つ目のデータの標準偏差{点})
上記のように先ほど計算した共分散の90{点の2乗}を、数学と理科のそれぞれの標準偏差{点}で割ります。
この計算で、点数の単位が消え去り、約0.82という計算結果になります。この計算結果は、相関係数と呼ばれ-1から1の間に収まることが知られています。
身長とヒップの関連度合いを示す相関係数を同じように計算すれば、同様に-1から1の間の数字になります。その結果、数学と理科の関連度合いと、身長とヒップの大きさの関連度合いは、どちらの関連度合いが高いのか調べることができます。
そして、この-1から1の間の数字ですが、1に近ければ近いほど2つのデータの関連度合いが高いと言えます。
上記の例では、1に近ければ近いほど、数学の点数が高いひとは理科の点数も高い傾向にあると言えることになります。逆に、-1に近ければ近いほど、数学の点数が高いは理科の点数が低い傾向にあるという逆の傾向が強いと言えることになります。そして、数学と理科の点数には関係がない度合いが強ければ強いほど、数値は0に近づきます。
補足:標準偏差について。
標準偏差は、平均からみてどの程度データが散らばっているかを示した数値です。標準偏差の単位は、データの単位と同じになります。
計算方法は、以下の計算結果(分散)の平方根を計算したものとなります。
標準偏差の算出方法
{(Aさんの数学の点数 - 数学の平均)の2乗+ (Bさんの数学の点数 - 数学の平均)の2乗+ (Cさんの数学の点数 - 数学の平均)の2乗} ÷ データ数 の計算結果の平方根
{(60 - 70)の2乗 + (70 - 70)の2乗 + (80 - 70)の2乗} ÷ 3 の計算結果の平方根