読み込み中...

ベイズ推定

フリー百科事典『ウィキペディア(Wikipedia)』より

ベイズ推定(-すいてい)とは、ある証拠に基づいて、その原因となった事象を推定するための確率論的方法である。また統計学に応用されてベイズ統計学の代表的な方法となっている。

概要

いま、AおよびXを離散確率変数とする。ここでA を原因、X をそれに対する証拠(つまり原因によって起きたと想定される事象)とするとき、
P(A) = 事象Aが発生する確率を、事前確率(prior probability)、
P(A|X) = 事象Xが発生した下で、事象Aが発生する条件付き確率を、事後確率(posterior probability)、
という。P(A|X) は、ベイズの定理によって、
P(A|X)=\frac{P(X|A) P(A)}{P(X)}
と表わされる。分母のP(X)は、すべての想定される原因事象B から
P(X)= \sum_{B}P(X|B) P(B)
と求められ、つまりP(A|X)は
P(A|X)=\frac{P(X|A) P(A)}{ \sum_{B}P(X|B) P(B)}

と表される。

ここで、P(X|A)のことを尤度と呼ぶ。またこれをA の関数と考えて尤度関数L(A|X) = P(X|A)ともいう(L(A|X)はA に関する確率分布ではない)。

ベイズ確率(ベイジアン)の考え方では、A を定数とする必要はなく、ある分布に従う確率変数としてよい(客観的に定義できるものではないから、主観確率である)。

この考え方からすると、上のベイズの定理の式は、
主観確率分布P(A) に、係数P(X|A) / P(X)をかけることにより、証拠X を加味して、より客観性の高い確率分布P(A|X) を求める

と解釈できることがわかる。このように確率分布をより客観的にする方法(ベイズ改訂)を利用して、A を推定する方法が、ベイズ推定である。さらに新たな証拠が加えられれば、事後確率を新たに事前確率として扱い、ベイズ改訂を繰り返すこともできる(さらに高い客観性が期待される)。

一方、A は「原因」であるから、従来の推計統計学では、確率分布P(A)はすでに決定しているものであり、従ってX を条件とする確率P(A|X)A は意味がない。

従来の推計統計学はすでに確固たる数学的理論として構築され、多方面に応用されている。しかしながら母数a を定数と仮定した上で造り上げられた理論であることから、必ずしも応用に向いたものではない(たとえば母集団を決定しにくい医学への応用など)という批判がされる。一方で、ベイズ推定は人間の思考の過程をモデル化したものとも考えられ、人間の思考様式になじむとも主張されている。

ベイズ推定に対する批判としては、事前確率が主観的で一意的に決められない、またそれをもとにして事後確率を求めても、それが客観的な確率分布に収束するという保証がない、といったものがある。

しかし現在では特にコンピュータを用いた方法の発展によりベイズ推定の方法も発展し、スパムメールを識別するためのベイジアンフィルタなどの応用が進んでいる。事前分布としては全く情報がない場合には一様分布などが用いられ(もちろん情報があれば他の分布でよい)、一般には異なる事前確率分布からマルコフ連鎖モンテカルロ法などで安定した結果(事後確率分布)が得られれば、実用的に問題はないと考えられている。

ベイズ推定の応用例

どちらのボウルにクッキーがあるか?

クッキーのいっぱい詰まったボウルが2つあるとしよう。ボウル#1には10個のチョコチップクッキーと30個のプレーンクッキーが、ボウル#2にはそれぞれが20個ずつある(これを前提知識とする)。どちらか1つのボウルをランダムに選び、さらにランダムにクッキーを取り出す。結果、クッキーはプレーンだった。これがボウル#1から取り出されたという確率はどれくらいか?

半分以上だというのは直感的にわかる(ボウル#1の方がプレーンクッキーが多いから)。正確な答えをベイズ推定で出そう。H1 をボウル#1、H2 をボウル#2とする。

最初にボウルをランダムに選ぶのだから、そのどちらか一方をとる確率はP(H1) = P(H2) = 0.5。

「プレーンクッキーが出た」という観察結果を「データD」とする。ボウル1でのD の確率はP(D | H1) = 30/40 = 0.75 、ボウル2ではP(D | H2) = 20/40 = 0.5とわかる。ベイズの式は
\begin{matrix} P(H_1 | D) &=& \frac{P(H_1) \cdot P(D | H_1)}{P(H_1) \cdot P(D | H_1) + P(H_2) \cdot P(D | H_2)} \\ \\ \ & =& \frac{0.5 \times 0.75}{0.5 \times 0.75 + 0.5 \times 0.5} \\ \\ \ & =& 0.6 \end{matrix}

となるから、クッキーを見る前にボウル#1を選ぶ確率(事前確率)はP(H1) = 0.5。

クッキーを見た後には、この確率は P(H1|D) = 0.6に改訂される。

臨床検査における偽陽性

偽陽性はどのような検査でも問題になる。完全な検査はありえず、検査結果が誤って陽性(実際には陰性)となることもある。例えば患者に特定の病気の検査を行う場合、実際には病気でないのに病気だという検査結果を出してしまうことが(少ないながら)ある。ベイズの定理から、もし病気が稀なものならば、(検査自体が正確でも)陽性の結果の多くが偽陽性ということもありうるのがわかる。

特定の病気の検査で、成功率が非常に高い、具体的には
  • 患者が実際に病気であるならば、99%の場合には(確率0.99)検査結果は正しく「陽性」となる。
  • 患者が実際は病気でないならば、95%の場合には(確率0.95)検査結果は正しく「陰性」となる。

としよう。そして患者の0.1%が実際に病気だとしよう(確率0.001)。こうして、検査結果が陽性だったという条件下で、それが偽陽性である確率をベイズの定理を用いて計算しよう。

A を「患者が病気である」という事象、B を「結果が陽性だった」という事象とする。ベイズの定理により、陽性結果が本当の陽性だった確率は
\begin{matrix} P(A | B) &=& \frac{P(B | A) P(A)}{P(B | A)P(A) + P(B | A^C)P(A^C)} \\ \\
P(A|B) &= &\frac{0.99\times 0.001}{0.99 \times 0.001 + 0.05\times 0.999}\, \\ ~\\ &\approx &0.019\, \end{matrix}

そして陽性結果が偽陽性である確率はおよそ  (1 − 0.019) = 0.981となる。

検査の正確性は見かけ上高いにもかかわらず、病気の発生率が非常に低い(1000分の1)ため、陽性の結果となった患者の圧倒的多数(100人に98)が実際には病気でない。それでも陽性の結果となった患者のうち実際病気である割合(0.019)は、検査結果を知る前の割合(0.001)より大幅に絞り込まれている。このように検査は決して無駄ではなく、再検査によってより正確な結果を知ることができる。

さて、検査は理想的には、患者が病気でないときには非常に高い信頼性で陰性の結果を出さねばならない。数学的にいうとこれは、上記の分母の第2項が第1項に比較して小さくなければならないということである。たとえば病気でない患者について0.999の確率で陰性の検査結果が出る(上の例では0.95だったが)とすれば、この値から計算して偽陽性の確率はおよそ (1ー(0.99x0.001/(0.99x0.001+0.001x0.999))) = 0.50 となり、偽陽性の率は約98/100から約50/100に減ることになる(これでもまだ半分は偽陽性だ)。

この例のようにベイズの定理は、稀な条件における検査は、1回の検査で信頼の置ける結果を出せる高い正確性を持つとともに、偽陽性の可能性を覚悟せねばならないことを教えてくれる。偽陰性の確率も同様にベイズの定理から計算することができる。

法廷

ベイズ推定は、法廷で個々の陪審員もしくは裁判官が証拠を矛盾なく収集し、「合理的疑いがあるかどうか」に関する個人の基準に従って総合的に被告人の有罪無罪を推定するために用いることができる。

  • Gを、被告人が有罪である事象とする。
  • Eを、被告人のDNAが現場で見出されたDNAと一致する事象とする。
  • p(E | G) を、被告人が有罪であるとの条件Gの下でDNAが一致する事象Eの確率とする(これらは普通同じことで確率1であると見られる)。
  • p(G | E) を、DNAが一致する条件Eの下で被告人が有罪である事象Gの確率とする。
  • p(G) を、DNAの一致以外の証拠に基づいて被告人が有罪だと陪審員が個人的に推定する確率とする。
ベイズ推定により、DNAの証拠を考慮する前に被告人が有罪である確率が p(G) であるとできたならば、次の関係を用いて、この確率を条件付確率p(G | E)に改訂できることがわかる:
p(G | E) = p(G) p(E | G) / p(E)

他の証拠に基づいて陪審員が、被告人が有罪である可能性は30%であると考えるとしよう。また法医学的に、ランダムに選んだ人のDNAが現場のDNAと一致する確率は100万分の1、つまり10-6 であるとされているとしよう。

事象Eの起こり方は2つありうる。被告人が有罪である(事前確率0.3)か、または無実(事前確率0.7)であってしかも彼はDNAが偶然一致する100万分の1の人間の1人であるか、である。

陪審員は次のようにDNAの証拠を考慮に入れて考えを改めることができる:
p(G | E) = (0.3 × 1.0) /(0.3 × 1.0 + 0.7 × 10-6) = 0.99999766667

ベイズ推定の方法で、ある段階での事後確率を次の事前確率にするという形ですべての証拠を整合的につなぎ合わせることができる。ただし陪審員は最初の証拠を考慮する前に有罪の確率について事前確率分布を持っていなければならない。これには、事件が起きた町の適切な人々(性別、年齢などを考慮する)からランダムに選んだ誰かの有罪確率を用いればよかろう。たとえばその町に住む5万人の成人男子の1人が犯人であったという事前確率は1/50,000とできる。

一般の陪審員にベイズの定理を説明するためには、確率よりもオッズの形(有罪・無罪の確率比)で示すのがわかりやすいかもしれない。この形でのベイズの定理は
事後オッズ = 事前オッズ x ベイズ因子

となる(ベイズ因子は旧来の統計学における尤度比に相当する)。上の例では、被告人が有罪の事前確率を0.3とする陪審員の考えは、「オッズ3:7で有罪」と表現される。ベイズ因子は100万、従って事後オッズは300万:7、あるいは約429,000:1で有罪となる。

潜水艦沈没事故

1968年5月、アメリカの原潜USS Scorpion (SSN-589)が大西洋で行方不明となった。このとき捜索と並行して用いられた手法は次のものであった。まず海図上を多数のグリッドに分割してそこに潜水艦が沈んでいる事前確率を経験に基づいて割り振っておき、確率の高いところを捜索し、捜索の結果そこに見つからなかったら全体の確率を改訂する。また確率の高いところを捜索し、これを繰り返して絞込みを行う。この方法で潜水艦は発見された。

ある領域に潜水艦が沈んでいる確率を p とし、実際にそこにあるという条件でそれが発見される確率をq としよう。その領域を捜索した結果、発見されなければ、潜水艦がそこに沈んでいる事後確率は
p'= \frac{p(1-q)}{(1-p)+p(1-q)}

となる。それ以外の領域については残りの確率1-p' を、事前確率に比例する形で割り振る。

モンティ・ホール問題

上と似ているが異なる簡単な例がモンティ・ホール問題である。

3つの扉のうち1つだけに賞品が入っていて、回答者はそれを当てたら賞品がもらえる。

ただし扉は次のように2段階で選ぶことができる。

#まず回答者は3つの扉からどれか1つを選ぶ。

#次に司会者(答を知っている)が、選んでいない扉で賞品の入っていない扉1つを開けてみせる。このあと回答者は扉を1回選び直してもよい。

2で扉を換えるのと換えないのと、どちらが当る確率が高いか?

1の段階では、選んだ扉(Aとしよう)に賞品がある確率(回答者にとっての事前確率)は1/3で、賞品がない(つまり選んでないどちらかの扉に賞品がある)確率は2/3。2の段階で司会者から示された扉をB、残りの扉をCとしよう。この段階で、1で選んでいない扉の選択肢は2個から1個に絞られた(1で選んだ扉に関しては変わりない)ので、Cが当たりとなる事後確率は2/3(Aの確率は1/3のまま)。だから、2の段階でもう1つの扉を選び直した方が当たる確率が高い。1で選んだかどうかは主観的なもので確率に関係ないのではないか?という気がするが、実際は扉Aを選んだと表明することで司会者の行動に影響を与えているのである。潜水艦の例では、確率が高いとして選んだ領域から捜索している点で違う。

二項分布母数の事後分布

これまでは確率論的な例だったが、統計学的な(多数のものを扱う)例として、二項分布の母数の事後分布を計算することを考えよう。同じ問題はベイズも考えている。

観察結果が、成功 m 回、失敗 n 回となったとする。具体的にはコイントスでも、誰かに賛成・反対の意見を聞くのでもよい。母数a (試行回数、成功確率)について事前確率p(a) で表されるとする。

与えられた a の値に対して、全 m+n 回の試行のうち成功が m 回となる確率は、
p(m,n|a) = \begin{pmatrix} n+m \\ m \end{pmatrix} a^m (1-a)^n

mn は固定され、 a は不明だから、これは a の尤度関数となる。

ベイズの定理(連続分布の形)から、
p(a|m,n) = \frac{p(m,n|a)\,p(a)}{\int_0^1 p(m,n|a)\,p(a)\,da}
= \frac{\begin{pmatrix} n+m \\ m \end{pmatrix} a^m (1-a)^n\,p(a)} {\int_0^1 \begin{pmatrix} n+m \\ m \end{pmatrix} a^m (1-a)^n\,p(a)\,da}

事前分布 p(a) として特定のものを選べば、この積分は実行できて事後確率は簡単な形となる。

特に、 p(a) が母数 m0 および n0ベータ分布ならば、事後分布もベータ分布で、母数は m+m0 および n+n0 となる。

上の例のベータ分布のように、事後分布が同じタイプの分布になるような事前分布を共役事前分布という。

臨床試験

プラセボと新薬との比較を行い、新薬の方がよく効く確率θ の確率密度関数 p(θ) を推定するとしよう。

p(\theta|x) = \frac{l(\theta|x)}{p(x)} p(\theta)

事前確率分布p(θ)としては一様分布、尤度関数 l(θ |x) としては、n 回の比較のうち x 回で新薬が優位となる二項分布を仮定する。すると事後確率分布はベータ分布 Be(1+x, 1+n -x) となる。

例えば n =5、x =4とすると、θ の平均は5/7、θ が0.5以上となる確率は0.891となり、どちらかといえば新薬の方がよいと考えられる。このようにベイズ推定を使うと、小さい標本でも暫定的に母数を推定することができる。

 読み込み中...

ブログレシピコミュニティお小遣いふくびき壁紙写真

Copyright(C)2009 GMO Media, Inc. All Rights Reserved.