スキルアップ
2013年12月20日
"ビッグデータ向き"の「ベイズ統計」ってなんだ?
『図解・ベイズ統計「超」入門』より
いまやビジネスを成功させるには、クラウドサーバーに蓄積された大規模情報といった「ビッグデータ」の活用が欠かせません。このビッグデータの分析に最適なのが「ベイズ統計」です。なぜか? ここではそのワケを『図解・ベイズ統計「超」入門』の著者・涌井貞美が解説します。
従来の統計学「頻度論」はもう限界!?
日本において、高校生や大学生に教える入門的な統計学は、一般的に「頻度論」と呼ばれている従来の統計学です。「有意水準5%で検定せよ」「信頼度95%のときの信頼区間を求めよ」といった独特の表現を用いる統計学です。
この従来の統計学は、農業データを分析するために生まれました。「どんな肥料がなにに効くか?」「どんな環境が飼育に適しているか?」などに応えるための統計学です。従来の統計学は、対象となる個々のデータが「個性をもたない」ことを望まれる条件としています。たとえば、麦の栽培テストをするとき、もしその麦の種が個性豊かだったら良いデータを得られず、分析は困難になるでしょう。
この「データが個性をもたない」という条件は、工場生産のための品質管理(QC:Quality Control)には有効です。なぜなら工場生産は「一様な(平均的な)品質を前提」とするからです。そこで従来の統計学をベースにした品質管理は、大量生産の品質管理に大きな成果を挙げることになります。「日本製の品質は良い」といわれるのも、このおかげといわれています。
もちろんこのように、これはこれで大切な統計学です。しかし、従来の統計学を現代社会に応用しようとするとき、この形式的な統計学は非常に使いにくいものです。なぜでしょうか?
ベイズ統計には「経験」や「勘」を盛り込める!
現代は、多様化と個性化の時代ですから、消費の世界で「個性をもたない」条件など期待できません。麦などを対象にした従来の統計学は、個性豊かな人間の消費行動には対応しにくいのです。現代のマーケティング分析には、個性豊かなデータに対してもっと自由度の高い統計学が必要なのです。
そこにベイズ統計が活かされます。ベイズの理論の数学的な特徴は、確率の計算に「事前確率」という考え方を取り入れることを認めたことです。ベイズ統計は、この事前確率に「個性」、たとえば、曖昧な「経験」や「勘」や「常識」を取り込めるのです。これにより、従来の確率論では取り扱うことが難しかった、さまざまな統計事象の分析が可能になったのです。
実のところベイズの理論は、250年以上も前に生まれたのですが、この「曖昧さ」によってこれまで埋もれてきました。しかし現代では、この曖昧さこそを積極的に評価します。「とりあえず経験や勘で事前確率を決める」という発想は、数学的にふさわしくないかもしれませんが、それがむしろ「複雑なデータに果敢に対応できる自由度」として威力を発揮するのです。ベイズ統計は、事前確率を自在に操ることで「魔法の剣」になるのです。
【著者】涌井貞美(わくい さだみ)
1952年、東京生まれ。東京大学理学系研究科修士課程修了後、富士通、神奈川県立高等学校教員を経て、サイエンスライターとして独立。著書は、『図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術』(サイエンス・アイ新書)など多数。
1952年、東京生まれ。東京大学理学系研究科修士課程修了後、富士通、神奈川県立高等学校教員を経て、サイエンスライターとして独立。著書は、『図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術』(サイエンス・アイ新書)など多数。