スキルアップ
2013年12月20日
"ビッグデータ向き"の「ベイズ統計」ってなんだ?
『図解・ベイズ統計「超」入門』より
  • はてなブックマークに追加

ビッグデータの分析に最適なベイズ統計


 個性豊かなデータの分析例を1つ挙げてみましょう。それは「ビッグデータ」です。ビッグデータは、「クラウドサーバーに蓄積された大規模情報など」を指します。この蓄積のおかげで、顧客の行動を詳細に追跡できるようになりました。たくさんのデータを集めれば、当然、顧客の一般的な行動をより正確につかめます。

 しかしいくらデータを集めても、「個々の購買嗜好」まで把握するのは困難です。ビッグデータを用いたとしても、多様化・個性化の時代、「顧客が新商品を本当に買ってくれるか?」まで予想するのは至難の業なのです。しかしベイズ統計は、この困難へ果敢に挑戦しています。

 ベイズ統計では、消費行動を「共通性」(汎用的な部分)と「個差」(個性的な部分)に分けてとらえることができます。「共通性」には従来の統計学をあてはめ、ビッグデータから得られた「一般的なデータ分析の結果を確率」として表現します。「個差」には、各界のプロの「経験」「常識」「思考」などを取り入れ、オリジナルに構築した事前確率として表現します。そしてこの2つの確率を組み合わせることで、個性豊かなデータ集団であるビッグデータの統計分析を可能にするのです。

ロングテール現象にも応えられるベイズ統計の柔軟性


 もう1つ例を挙げてみましょう。これまで、販売戦略は「上位20%のヒット商品が、売上の80%を占める」という「パレートの法則」に従っていれば大きな問題はありませんでした。しかし顧客の個性化・多様化が進み、インターネットでの商品購入があたりまえになってきた昨今、あまり売れていない商品の売上の合計が、総売上に大きく寄与する「ロングテール現象」が見られるようになってきました。パレートの法則とは正反対の現象です。

 従来の統計学は、このような個性的で多様な消費者を統計的に分析するには力不足です。従来の統計学は、固定的な「平均値」や「分散」を中心テーマに据えていますが、もはやこれら固定的な代表値だけでは話が済まなくなっているからです。ビジネスや投資の世界には「平均値に明日はない」という名言がありますが、現代は固定的な平均値にターゲットを絞るとかえって在庫が増えたりする時代なのです。

 ベイズ統計は、固定的な平均値や分散などよりも「それらの分布」を調べることに、より重きを置きます。分布がわかれば、パレートの法則に従う消費者集団であっても、ロングテール現象を生む消費者集団であっても、同じ立ち位置で分析できます。ベイズ統計は、パレートの法則にも、ロングテール現象にも、余裕をもって対応できるのです。もちろん、この汎用性を保障するのは、前述の事前確率です。

ベイズ統計はもはや米国の統計学の主流


『[Si新書]図解・ベイズ統計「超」入門』(涌井貞美 著)より

 2001年、マイクロソフト社の会長ビル・ゲイツ氏がベイズ理論を「21世紀のマイクロソフトの基本戦略は、ベイズテクノロジーである」と明言し、マスコミに大きく着目されました。それから10年以上経ちましたが、ベイズ統計の人気は高まる一方です。

 米国では、統計学の主流はすでにベイズ統計に移行しているといわれます。ここまで解説してきたように、さまざまなデータに対して確率の議論がしやすいからです。

 時代はここまで変わっているのです。

(了)


図解・ベイズ統計「超」入門
あいまいなデータから未来を予測する技術
涌井貞美 著



【著者】涌井貞美(わくい さだみ)
1952年、東京生まれ。東京大学理学系研究科修士課程修了後、富士通、神奈川県立高等学校教員を経て、サイエンスライターとして独立。著書は、『図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術』(サイエンス・アイ新書)など多数。
  • はてなブックマークに追加