Excel(エクセル)で「最適な元データ」を用意するための3ステップ
AさんAさん

前回の話で集計表のポイントについては理解できました!
こうなると、元データの方の表についても、どんなことに気を付ければ良いか知りたくなってきました・・・。
こちらは何に気を付ければ良いでしょうか?

森田森田

元データの表についても、もちろんポイントはありますよ!
今回は3ステップに分けて解説していきますね。

はじめに

本題に入る前に、この記事がおすすめな方を挙げてみます。

  • 元データを用意する際、どんなことに気を付ければ良いか知りたい方
  • データ集計/分析の作業途中に元データの不足や不備があり、手戻りしてしまうことが多い方
  • データ集計/分析の作業が多い方

前提条件

この記事は元データ(テーブル)の概要を理解していることが前提です。

参考記事

元データ(テーブル)の概要の詳細は以下の記事をご参照ください。


STEP1】必要なデータを集計表(レポート)から逆算する

大前提として、元データの表は「テーブル」が最適です。

このテーブルへどんなデータを用意すれば良いかを3ステップで解説していきます。

まず、必要なデータを洗い出すことが1つ目のステップです。

その際に重要な考え方は、最終的なアウトプットとなる「集計表」から逆算すること。

たとえば、最終的に次の集計表をアウトプットするというケースで考えてみましょう。

この集計表であれば、最低限次のデータが必要になりますね。

  • 商品名
  • 販売チャネル
  • 売上金額

このように、最終的なアウトプットイメージが固まっていると、抜け漏れのない元データを準備することが可能となります。

その他、多角的な分析を行う必要があるケースは、アウトプットイメージを作業前に明確化できないケースもあると思います。

その際は、手持ちの情報で仮説を立て、その仮説を検証するために必要な切り口をリストアップすると良いでしょう。

たとえば、「売上の増減は気温が影響しているのではないか?」という仮説であれば、受注日に対応する気温データが必要だというイメージです。

STEP2】元データの「列」と「行」を設計する

必要なデータがリストアップできたら、2つ目のステップとしてテーブルの「列」と「行」を設計しましょう。

まず、最低限必要なのはSTEP1で洗い出したデータに該当する列(フィールド)を用意することです。

この列の役割は、大きく2つあります。

  1. 集計/分析の対象
  2. 集計/分析の条件・切り口

各列は状況に応じて上記2種類の役割を果たします。

よって、列の種類が多ければ多いほど、多角的な集計/分析が可能となります。

集計/分析が得意な方は、既存の列のデータを元に、数値や日付等の計算や、カテゴリやラベル付けをした列を追加することで、後工程の集計/分析を楽にしているものです。

また、1列のデータ内に複数要素が混在していると集計/分析しにくくなるため、なるべく1要素ごとに列を分けると良いですね。
例)最終的に都道府県別に集計/分析するなら、「住所」を「都道府県」と「市区町村以降」に分ける等

ただし、集計/分析に不要な列まで用意しないように注意しましょう。

「使うかも」、「念のため」で用意した列の中に不要なものが多いと、データが重くなる、あるいはその列を誤って使ってしまう等、逆に集計/分析の工数増につながる恐れがあります。

もう一方の行(レコード)は、次の2点を決めると良いです。(1つ目はマスト)

  1. 1レコードあたりの単位
  2. 1テーブルあたりの管理範囲

1つ目の「1レコードあたりの単位」は、売上であれば、注文等の取引単位にするのか、取引の明細単位にするのか等、ケースに応じて決める必要があります。

この辺りは、何を参照してデータ入力していくか、最終的な分析でどの粒度で掘り下げる想定か、運用上の工数として現実的な単位か等の観点から定めると良いでしょう。

2つ目の「1テーブルあたりの管理範囲」は、1テーブルで何レコード程度を管理するかです。

一般的に、レコードが多ければ多いほど集計/分析の集計/分析の精度は上がります。

また、日付/時刻の列については、複数の時間軸(年///時間等)をまたぐレコードがあることで、時間軸を集計/分析の切り口に活用できます。

ただし、レコード数が多過ぎると、Excelブック自体の動作が遅くなり、集計/分析作業の効率が悪化するリスクがありますので、ご注意ください。

そのため、レコード数が予め多くなる見通しが分かっている場合は、集計/分析作業が快適に行えるデータ量を保持できるよう、1テーブルの管理範囲を決めておくことがおすすめです。
具体的に何レコードが目安かについては、列数や数式の数、該当のPCのスペック等の複数要素が影響するため、一概に言えません。各人の体感で重いかどうか判断しましょう。

なお、管理範囲で一般的なのは、年度等の時間軸で分ける、あるいは部署で分ける等です。

ご自身や組織として、運用しやすい方法で分けると良いでしょう。

STEP3】各列のデータ型を統一する

必要な列が決まったら、3つ目のステップとして各列の「データ型」を決めて、全レコードで統一しておく必要があります。

データ型とは、データの種類だと思ってください。

Excelには、代表的なデータ型として「数値」、「日付/時刻」、「文字列」があります。
Excelには、データ型と近いもので「表示形式」という機能がありますが、データ型の方が大きめな概念にあたります。
ちなみに、表示形式はデータ型よりも詳細にデータの見た目を設定できる機能です。

具体的にどのデータがどのデータ型にあてはまるかは以下のイメージをご覧ください。

なぜデータ型を統一する必要があるのか、それはExcelの集計/分析の機能によって、対象のデータ型が明確に決まっているものがあるためです。

たとえば、関数のSUMであれば、数値の合計を計算する機能のため、対象のデータ型は当然「数値」となります。

このSUMを使う際、「1,050円」といった余計な文字の「円」まで入力したデータがあった場合等、その該当データはSUMの対象外と判断されてしまいます。(データ型が「文字列」の扱いとなるため)

このように、データ型を統一しておかないと、Excelの各種機能が利用できず、効率悪化につながるとともに、集計漏れやエラー発生のリスクが生じます。

よって、各列のデータ型を決めたら、それを守りながら各レコードを蓄積していきましょう。

なお、各列のデータ型を守るために、数式等で手入力の列を減らす、あるいは「データの入力規則」等の機能で制御するといった工夫を行うと、ヒューマンエラーを抑止することが可能です。

これらの機能については、今後別記事にまとめる予定です。

さいごに

いかがでしたでしょうか?

扱うデータ量が多くなればなるほど、上記3ステップを行うことで集計/分析がしやすくなり、不要なデータ整形等の前処理の工数も減らすことが可能です。

逆に、上記3ステップを守らないと、集計/分析を行っている断面で元データの不足や不備に気付き、二度手間が多くなってしまうため、ぜひ実務で本記事の内容を意識してみてくださいね。

なお、既存の元データを使わざるを得ない方は、元データを綺麗に使いやすくするための前処理テクニックを私の拙著で体系的に解説していますので、こちらも参考にしてみてください。

ご参考になれば幸いですm(_ _)m

森田森田

私自身、集計/分析作業において、手戻りによる二度手間を痛いほど経験してきました。
こうしたタイムロスがあると、納期の後倒しや集計/分析の深掘りが甘い中途半端な出来栄えで納品してしまう等、関係者に迷惑をかけてしまうリスクが増えます。

こうした事態を未然に防ぐためにも、本記事を参考にしていただけると嬉しいです。