スキルアップ
2014年12月15日
ビックデータのビジネス活用に役立つ「データ分析のフレームワーク」
『ビジネス活用事例で学ぶ データサイエンス入門』より
(1)大きさを見る
最初に、「あるべき姿」と「現状」とのギャップとなっている要素と考えられた複数の要因について、それぞれの「大きさ」を把握します。ここでいう「大きさ」とは、「あるべき姿」と「現状」とのギャップに対する要因の影響度合いです。
ここで、ありがちなデータ分析の失敗例をあげます。
「ギャップの要素と思っていた要因を1つ、詳細にデータ分析しました。そのギャップを埋める解決案を議論し、具体的な解決策もうち出すことができました。しかし、実は、もともとの現象に対して、データ分析を行った要因の影響度は非常に小さく、解決策を実施したが、ほとんど効果がありませんでした」
というものです。
この失敗の原因は「ギャップの要素となっている要因を決めつけていた」ということです。事前に議論する人数が少ない場合、往々にして要因となる候補は少なくなります。極端なケースとして、分析者が一人で検討しているような場合では、ますますこの失敗確率が上がります。つまり、なるべく多くのビジネス当事者と分析者の間で、「あるべき姿」が共有されていないと、ビジネスとしては価値が乏しい分析結果が出てしまいます。
そこでまず、「あるべき姿」を理解し、今、分析しようと思っている要因は、全体としてどれくらいの影響があるのか、確認していく必要があります。
確認した結果、もし依頼された箇所の影響が小さいのであれば、それは本質的な問題ではなかったと判断し、別の切り口で要因を探っていくことになります。
(2)分解して見る
「分解して見る」とは、起きている現象を、いくつかのさまざまな切り口で構成要素に分解し、その現象を引き起こしている原因となっている要素を見つけ出すことです。分解するときは、必ずMECEになるように気をつけなければなりません。
MECEとは、
・Mutually:要素を互いに
・Exclusive:重複がなく
・Collectively:(漏れなく)集めると
・Exhaustive:全体を尽くす
の4つの単語の頭文字をとった略語です。分解の方法はいくつかありますが、データ分析において有効なものに、因数分解による分析があります。因数分解というと少し難しく感じるかもしれませんが、要は四則演算による分解です。たとえば、売上を分解すると、
売上=1 人当たりの売上額×購入者数
ですから、図3のような分解が考えられます。
このようにMECEに分解した各要素の時系列推移をグラフで見ることで、どこが落ちているのかがわかります。このときに重要になることは「コントロール可能な要素」か、「コントロールができない、もしくはコントロールをしにくい要素」か、という区別になります。MECEに分解していくときに、ビジネスとしてコントロールできる要素が含まれるようにうまく分解することが重要です。
たとえば、あるたこ焼き屋での売上を分解し「1人当たりの購入単価」という要因を考えた場合、この数値の時系列推移を把握することは可能です。
しかし、それは2、3食分食べる大食漢が多く来た、あるいは少なかったという現象の把握にはなりますが、この数値が下がったから、「来店者になるべく2、3食を食べさせよう」として売上をコントロールすることはなかなか難しいでしょう。つまり、この数値を時系列推移で把握することに意味はありますが、この数値はコントロールしにくい要素でしょう。こうした要素にばかり分解されている場合、効果的なデータ分析は行えなくなります。
逆にもし、MECEに分解した各要素のなかで、コントロール可能な要素が含まれていて、かつ問題があるのであれば、数値が上下したときにも、問題の要因を考える難易度も下がり、かつ解決策もすぐに実行できる効果的なデータ分析となります。たとえば、あるたこ焼き屋は、広告費用に対する集客数の因果関係を見つけており、広告には絶対の自信をもっているという場合、「新規の購入者数」は「コントロール可能な要素」となり、新規購入者数が減った→元に戻したいから広告をこのくらい投下しよう、というように、具体的に実行することがすぐにできます。
【著者】酒巻 隆治(さかまき りゅうじ)
うらわ出身。株式会社ドリコム、データ分析グループ所属。得意技は、人間が環境に残す行動ログの分析。博士(環境学)。あたらしい自由を目指す通信会社で、マーケティングリサーチ、アイトラッキングなど、あたらしいマーケティング分析業務を経て、全社員英語で朝会を行う国産ECサイトの技術研究所に勤務。その後、ソーシャルゲーム、その他サービスのログ解析業を経て、DATUM STUDIO株式会社を設立。データ分析で会社を少しでもバラ色の未来にすべく、がんばっている。
【著者】里 洋平(さと ようへい)
種子島出身。株式会社ドリコム、データ分析グループ所属。得意技は、R言語によるデータ分析。Tokyo.R主催者。共著書に『データサイエンティスト養成読本』(技術評論社)、『Rパッケージガイドブック』(東京図書)がある。爆速の会社がまだ遅かった頃、その会社で推薦ロジックや株価予測モデル構築を行う。ついで遺伝子的な名前の会社で、データマイニングやマーケティング分析を行う。その後、データ分析環境の構築やデータ分析業を経て、DATUM STUDIO株式会社を設立。美しい統計理論を少しでもビジネス利用すべく、がんばっている。
うらわ出身。株式会社ドリコム、データ分析グループ所属。得意技は、人間が環境に残す行動ログの分析。博士(環境学)。あたらしい自由を目指す通信会社で、マーケティングリサーチ、アイトラッキングなど、あたらしいマーケティング分析業務を経て、全社員英語で朝会を行う国産ECサイトの技術研究所に勤務。その後、ソーシャルゲーム、その他サービスのログ解析業を経て、DATUM STUDIO株式会社を設立。データ分析で会社を少しでもバラ色の未来にすべく、がんばっている。
【著者】里 洋平(さと ようへい)
種子島出身。株式会社ドリコム、データ分析グループ所属。得意技は、R言語によるデータ分析。Tokyo.R主催者。共著書に『データサイエンティスト養成読本』(技術評論社)、『Rパッケージガイドブック』(東京図書)がある。爆速の会社がまだ遅かった頃、その会社で推薦ロジックや株価予測モデル構築を行う。ついで遺伝子的な名前の会社で、データマイニングやマーケティング分析を行う。その後、データ分析環境の構築やデータ分析業を経て、DATUM STUDIO株式会社を設立。美しい統計理論を少しでもビジネス利用すべく、がんばっている。