前回は2つのデータの相関性を視覚化する散布図の作成方法について解説しました。
2つのデータの相関性を視覚化する散布図の作成方法 | Excelを制する者は人生を制す ~No Excel No Life~
ここまで相関分析について分析ツールの使い方、CORREL関数の使い方など記事にしてきましたが、自分の頭の中を整理するためにも備忘録がてら今回はExcelで相関分析を行う際の流れと留意点をまとめていきます。
相関分析とは?
相関関係とは、2つのまたは2つ以上の変量の間で、一方の変量が変化すると、他方もそれに応じて変化する関係を言い、これを統計的に分析するのが相関分析である。相関関係は、一方の変量が増加すると、他の変量も増加する正の相関関係と、一本の変量が増加すると他の変量は減少する負の相関関係に分かれる。
ちなみに「正の相関」「負の相関」がどんなものなのかイメージしにくい方は下記サイトも参考にしてみてください。
例としての図が掲載されています。
Excelで相関分析を行う流れ
- 相関分析を行いたいデータの準備
- 散布図を作成し、「外れ値」がないかを確認
- 「分析ツール」アドインの「相関」もしくはCORREL関数にて相関係数を算出し定量化
「外れ値」とは?
外れ値(はずれち)は、統計において他の値から大きく外れた値である。
測定ミス・記録ミス等に起因する異常値とは概念的には異なるが、実用上は区別できないこともある。
参照元:外れ値 – Wikipedia
Excelで相関分析を行う際の留意点
散布図作成が必要な理由
いきなり相関係数を求めずに散布図を作成する理由としては、相関係数だけでは算出された結果に「外れ値」が入ってしまうと大きく結果が変わってしまう場合もあるためです。
この「外れ値」は機械的に除けばいいわけではなく、分析に求める内容によっては計算に含むべき場合もあります。
「外れ値」の可能性がある場合は以下の3点の対処をするとよいです。
- データ入力ミスか? ⇒ 正しいデータへ修正の上再分析
- 特殊なケースか? ⇒ 「外れ値」だと十分説明出来る場合は「外れ値」を削除して再分析
- 上記2つに該当しない場合 ⇒ 問題・原因を確認し、分析に意味があるかどうかによって分析に組み込む対象かを検討・判断
相関係数の見方
上記の相関係数は絶対値なので、負の場合も数字の部分で判断することになります。
参考ページ(流れの通し番号とリンク)
2.散布図
2つのデータの相関性を視覚化する散布図の作成方法 | Excelを制する者は人生を制す ~No Excel No Life~
3-a.「分析ツール」アドイン「相関」
CORREL関数で2つのデータの相関性の強弱を確認する方法 | Excelを制する者は人生を制す ~No Excel No Life~
3-b.CORREL関数
CORREL関数で2つのデータの相関性の強弱を確認する方法 | Excelを制する者は人生を制す ~No Excel No Life~
まとめ
相関分析を実際に使うために参考書籍(EXCELビジネス統計分析)を見ながら実際にExcelを操作しながら行うと頭に定着してきますね!
けっこう思いもかけないデータの関連性が発見できると純粋に面白いので、本業の方でも積極的に活用していく予定です。
まだ、相関分析などの統計分析テクニックに触れたことがない方も、Excelでも基本を抑えておくと会社へBIツールが導入されても対応できる可能性が高まると思うので、今のうちからいっしょに勉強しておきましょう!