トップページ 101 102 103 104 105
T棟(教育) R棟(研究) O棟(啓蒙) P棟(ビジネス) Q棟(本部) ?棟

P104




サイト案内に戻る


P棟 104



ベイズ統計について


昨今、科学技術からビジネスまで、様々な分野で大量のデータが溢れており、それらの有効活用が重要な課題となっています。多種多様なビッグデータの解析は、従来の統計学の想定の範囲外でしたが、迷惑メールフィルタに代表されるように、ベイズ統計なら柔軟に対応できます。ベイズ統計は決定理論に基いた一貫した理論のため、基本的な考え方が理解できれば、様々な場面に応じた応用が可能になります。

ここでは、一般向けにベイズ統計のさわりだけ説明しておきます。 確率計算など、数式を出して説明した方が圧倒的に理解しやすいのですが、それは、高校生向けの講演やセミナーなどで行っています。







上は、計算なしで、直観的に考えた数値をあげてみました。 いかがでしょうか?



Aさんががんである確率は実際には



約9パーセント



となります。直観で導ける数値とは全然違うという所が重要です。
さらに次のような例を挙げてみましょう。





再び、計算なしで直観的に考えた数値をあげてみました。 いかがでしょうか?


Aさんががんである確率は実際には


約64パーセント



となります。
こちらのスライドは、高校生やそのご父母の方を対象としたオープンキャンパスで使用したものです。 「松原 望: 入門 ベイズ統計」から題材をとりましたが、がん診断の話はベイズ統計では有名な例の一つです。



ポイント


1. 実際の計算では「条件付き確率」を計算することになります。
計算式はこちらには記載しませんが、高校で習う確率で理解できるものになっています。 そして、この条件付き確率の計算は、ベイズ統計の根幹をなす「ベイズの公式」のエッセンスになっています。

非常に簡単な例ですが、条件付き確率の値は、必ずしも人間の直観とは合わないようです。 つまり、実際に計算してみて初めてわかるものです。

2.この例で理解して欲しいのは、


a) がんにかかる率 = 事前にわかっている情報
b) がん診断の精度 = ランダムさの表現
c) Aさん自身の診断結果 = 実際に得られたデータ

といった要素を織り交ぜて、結論(Aさん自身ががんである確率)を得ていることです。 従来の統計学では、a) の要素はありません。例えば実験データの分析の場合


b) 実験装置の精度 = ランダムさの表現
c) 実験装置の出力 = 実際に得られた実験データ


という風になります。

科学実験でなく、ビジネスに統計を活用するといった場合、 a) のような、事前にわかっている情報が与えられていることも多いのです。 そして、ベイズ統計であれば、そういった事前にわかっている情報もうまく組み込んで、様々な結論を得ることができるわけです。

参考までに, データ(がん診断の結果)が手に入ることでどのように確率が変化しているか図にしたものを示しておきます。0, 1でAさんががんで無い, がんであるを表現して棒グラフの高さが確率を表しています。データが1つ、2つと入ることで 確率がどんどん変化している所に注意してください。




3.上の例で実際に計算した値は、直観的なものとは違うことにも注目してください。 確率に限らず、統計的手法を用いて得られた分析結果は、必ずしも私たちの直観で導かれるものとは違います。 だからこそ、わざわざ、数式を用いて計算(実際にはパソコンで計算)することに意味があるわけです。
様々なデータを手元にもっていても、それをグラフにして(視覚化)直観に頼った判断だけでは限界があるのです。


以上、ベイズ統計のさわりでした。 ベイズ統計を使えるようになると、従来の統計学や直観だけに頼った判断をしている競合他社を出し抜く(?)ことも可能になる、ということがご理解いただけたでしょうか。


※もちろん科学の分野でも積極的にベイズ統計を使うメリットがあるわけですが、 それらは別の場所で説明することにします。
また、論理をすっきりさせるために、やや不正確な叙述があるかもしれないことがご了承ください。



▲上部に戻る


サイト案内に戻る


外に出る









トップページ 101 102 103 104 105
T棟(教育) R棟(研究) O棟(啓蒙) P棟(ビジネス) Q棟(本部) ?棟