現在Excelで統計分析ができるようになりたいので、書籍『EXCELビジネス統計分析 [ビジテク]』などで絶賛勉強中です。
(私が持っているのは2007/2003対応のものなので上記は最新版です)
この中でまずは1つのデータのばらつき度合いを視覚的に確認できる表であるヒストグラムを作成してみました!
今回はExcelでヒストグラムを作成する前の準備事項10点について自分への備忘録としてまとめてみましたのでシェアしていきます。
ヒストグラムとは?
ヒストグラム(英: histogram[1])とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱図表[1]、度数分布図、柱状グラフともいう。
また、工業分野では、パレート図、チェックシート、管理図、特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。
ヒストグラムを作成するために必要な準備事項10点
ヒストグラムを作成するには事前準備が必要となります。
準備とは必要なデータを揃えておくことですが、以下の10点が必要となります。
- データの個数
- 最大値
- 最小値
- 範囲
- 区間の数
- 仮の区間の幅
- 区間の幅
- 下側境界値
- 上側境界値
- データ区分
ちょっと分かりにくいものもあるかと思いますが、補足していきます。
1~3はそのままなので割愛します。
4は最大値と最小値の差ですね。(最大値-最小値)
5・7・8・9は下図を見た方がイメージしやすいと思います。
5はヒストグラムの柱の数のことです。こちらはデータの個数に応じて最適な数がある程度決まります。
7はヒストグラムの柱の1本あたりの数値の幅(範囲)です。
ちょっと順番が前後しますが、6は「仮」とついているように7の正値を出す前の計算途中の数字だと思っていただければ問題ないです。
そして、8はヒストグラムの柱の1本あたりの起点(範囲の最小値)で、9は終点(範囲の最大値)です。(それぞれ柱の数だけあります)
9-8=7となり、7×5≒4の関係性となります。
最後に10は8の最小値1つ+9のすべての柱分を1列(行)にまとめたデータになります。
ここのデータを元にヒストグラムの柱の範囲と1本単位の幅を指定したことになります。
実際にヒストグラムを作成する際のダイアログを見てみると、大きく2種類のデータを指定してあげる必要があります。
ひとつは「入力範囲」。こちらはヒストグラムにしたいデータ群を指定します。(たとえば、売上・身長など)
もうひとつは「データ区間」。こちらは先にあげた準備事項の中の10のデータを指定します。
つまり、10の準備事項はここの「データ区間」を算出するためのプロセスということです。
準備事項10点の作業手順
ちなみに今回ヒストグラムに起こしたいのは、私の2014年1~3月の体重にしてみます。
どんなばらつきが出るのか、今から楽しみですね(笑)
事前準備として上図の通りヒストグラムにしたいデータ(今回は体重、範囲:B5:AF7)のほか、先に挙げた10点の準備事項の中の1~7も表の中に枠をつくっておきます。
1. COUNT関数で「データの個数」を求める
なお、COUNT関数についての詳細は下記記事をご参照ください。
COUNT関数で任意の範囲の中の数値の個数をカウントする方法 | Excelを制する者は人生を制す ~No Excel No Life~
2. MAX関数で「最大値」を求める
なお、MAX関数についての詳細は下記記事をご参照ください。
MAX関数で任意の範囲の中の最大値を求める方法 | Excelを制する者は人生を制す ~No Excel No Life~
3. MIN関数で「最小値」を求める
なお、MIN関数についての詳細は下記記事をご参照ください。
MIN関数で任意の範囲の中の最小値を求める方法 | Excelを制する者は人生を制す ~No Excel No Life~
4. 「最大値-最小値」で「範囲」を求める
5. 「データの個数」の平方根を求める(D9^0.5)
この部分は多少お好みでOKですが、データの個数に応じて区間の数を半自動的に決めるこの方法が簡単で便利です。
6. 「範囲÷区間の数」で「仮の区間の幅」を求める(「区間の数」はROUND関数で四捨五入)
なお、ROUND関数についての詳細は下記記事をご参照ください。
ROUND関数で小数点以下を四捨五入する方法 | Excelを制する者は人生を制す ~No Excel No Life~
7. 「仮の区間の幅」を小数第三位で繰り上げ「区間の幅」を求める(ROUNDUP関数)
ちなみに、ヒストグラムにしたいデータ(体重)が少数第一位まであるため、その1桁下で繰り上げとするようにROUNDUP関数で調整しました。
ここまででヒストグラムでグラフ化するための元データの準備としてもう一息です。
同じワークシートの中に「下側境界値」と「上側境界値」を用意しておきます。
ここで、実際にグラフ化する際にヒストグラムの柱がメモリの0から始まっているように見えないよう、ヒストグラムのスタート値となるべき最小値をずらしてあげる必要があります。(厳密には1桁下げるための処理)
8. 下側境界値に起点部分のセルに「最小値-0.1÷2」を求める
“0.1”の部分はヒストグラムにしたいデータの桁数を参考にしてください。(今回は体重が対象データで少数第一位のため、”0.1″としています。)
9. 上側境界値に起点部分のセルに8.の値に7.の値を加算する
10. 下側境界値の起点部分下のセルに8.の値に7.の値を加算する
11. 下側境界値・上側境界値それぞれフィルハンドル等で下の部分までコピー&ペースト
11.では下側境界値で2.の最大値が納まるまで実施します。(基本的に5.の「区間の数」とイコール、あるいは+1程度)
最後に下側境界値・上側境界値を元に「データ区間」をワークシート内に作成して準備は完了です。
12. 上側境界値すべての上に下側境界値の最小値(起点)のみ加えた列(行)を作成
ヒストグラムの作成する際は、グラフ上「上側境界値」で表記されるため、こちらをベースに作成しています。
まとめ
これでヒストグラムを描く準備は万端です!
次回は実際に「分析ツール」アドインでヒストグラムを作成する方法について解説していきます。