尤度関数

尤度関数とは †

尤度とは、観測データから推測する際の、尤もらしさ（もっともらしさ）を表す数値である。この尤度を、関数として与えたものである。

尤度関数は後に示すように確率密度関数とは別の概念である。
尤度に関する初期の考察はデンマークの数学者トルバルド・ティエレ(Thorvald N.Thiele)による1889年の著書にみられる。尤度についての完全な考察が現れた最初の論文は、ロナルド・フィッシャーによる1922年の"On the mathematical foundations of theoretical statistics"である。ここでフィッシャーは「最尤法」（method of maximum likelihood）の語を初めて用いている。フィッシャーは統計学的推計の基礎として事後確率を用いることに反対し、代わりに尤度関数に基づく推計を提案した。

ベイズの定理と尤度 †

B = b であることが確定している場合に、 A が起きる確率（条件付確率）を

P(A|B=b)

とする。このとき、逆に A が観察で確認されていることを基にして、上記の条件付確率を変数 b の関数として尤度関数という。

条件付き確率（ベイズの定理）より

P(A|B)=P(A|B)P(B)/P(B)

であるので、観測データBが与えられた場合には、それからAについて推論するのには条件付確率P(A | B)を用いる。逆に、Aが与えられた場合に、それからBについて推論するのには条件付確率P(B | A)（事後確率）を用いる.

↑

ベルヌーイ試行の同時確率密度と最尤推定値とその性質 †

表(H:Head) が出たらX = 1，裏(T:Tail) が出たらX = 0 という数を対応させることにする．X の確率分布f(x)はP(H) = P(X = 1) = f(1) = p，P(T) = P(X = 0) = f(0) = 1-p とすれば、n 回コインを投げたときの同時確率密度関数は、独立な試行なので、積で表わされる

f(x1,x2,..,xn)=Π　p^xi(1 - p)^(1-xi)　＝　p^(Σxi)(1-p)^(n-Σxi)

尤度関数L(p)とすれば

L(p)=ΣxiLog(p)+(n-Σxi)Log(1-p)

これを、最大とする未知パラメータは、1回微分して0として

dL/dp=Σxi/p-(n-Σxi)Log(1-p)=0

推定値p*を求めると

P*=Σxi/n

定義よりn回コインを投げたときに出た表の数がΣxiであり、全回数の何割表が出たか測ってpの推定値とするのが尤もらしい。これを標本百分率ともいう。

それでは、この推定値は良い性質を持っているでしょうか？

不偏推定量推定値の期待値は
```
E(P*)=E(Σxi/n)=Σ[ E(xi)]/n
```
ところが
```
E(xi)= 1f(1)+0f(0) = p
```
より
```
E(P*)=np/p=p
```
となるので、尤度を最大化して求められた標本百分率は母数pの不偏推定量である。
一致推定量 V(p*) =V(x)/n=P(1-p)/n となりChebyshev の不等式からn-->無限大のとき
```
P(|p - p*| > ε)<or=P(1-p)/(εn)--->０
```
となるので、一致推定量である。
有効推定量クラーメルラオの不等式から、最も分散の少ない推定量（最小分散推定量）でもある。(証明略)

↑

ベルヌーイ試行と尤度と最尤推定法 †

表の出る確率を p 、裏の出る確率を 1 − p とする（ここで p は上で θ と書いた母数に等しい）。i表がでる結果をXi=1、裏が出る結果をXi=0の確率変数であらわすと、n回試行して表が出る確率は、X=X1+x2+....+xn　の確率変数で表わされる。

n回の試行でXが発生する確率は次の確率密度関数であらわされる。

P(x)=nCx・p^x・(1-p)^(n-x)
nCx = n!/(x!・(n-x)!)　：n個からx個を取り出す場合の数

ここで実際に観測がおこなわれ、80回試行して、結果として表(H)が49回、裏が31回出たとする。観察されたデータが与えられたとして、それがどのようなP=θであったと考えるのが一番尤もらしいかを次のように計算する：

この時の尤度は

P(X|p=θ)=[80！/(49!31!)]p^49・(1-p)^(31)

である。これを最大にするp=θが尤度を最大にする母数である。この関数を最大化するには p に関して微分しその値を0にすればよい。

49P^48(1-p^31)-31p^49(1-0)^30=0

これを解けば p = 0 、 p = 1 、 p = 49 / 80 の3つの解が得られるが、そのうち尤度を最大化するのは明らかに p = 49 / 80 である。

この結果で、ベルヌーイ試行の成功数49を t と置き、全回数80を n と置けば一般化できる。 n 回のベルヌーイ試行で t 回成功した場合に対する最尤推定量は
```
p*=t/n
```
で表わされる。

このように、尤度を最大にするような母数（未知パラメータ）を求めることを、パラメータの最尤推定法と呼ぶ。

↑

正規分布の場合の最尤推定法 †

n 個のデータ x1,x2,...,xnが正規分布する，すなわち X=(x1,x2,...,xn) の確率密度関数が，

で与えられる場合を考えよう。このときに観測データx1,x2,...,xnから得られる最尤推定量 μおよび σについての式を求めることを考える。このとき，対数尤度は，

この対数尤度が最大となるのは，μおよび σについて1回微分して0となる式を解けば良い。

よって、最尤推定値は、下記で得られる。

↑

お天気予想の最尤推定法 †

梅雨時に、お天気を観察したところ、晴が18回、雨が12回であった。晴れる確率がθのとき、このデータが得られる確率は、30回のベルヌーイ試行で18回晴れる確率であるので、次の2項分布で、n=30,x=18で示される。

P(x,n|θ)=nCxθ^x(1-θ)^(n-x)
P(18,30|θ)=18C30θ^18(1-θ)^12

最尤推定値は、上の尤度が最も大きくなるθである。尤度の対数をとって、最大化する。

L(θ)=LogP(18,30|θ)=Log(18C30)+18Logθ+12Log(1-θ)

dL/dθ=0 より

18/θ-12/(1-θ)=0

最尤推定値は、θ*=18/30=0.6　である。このように、未知パラメータのもとで、観測値が得られる確率（条件付き確率）を求め、その対数尤度を最大とするパラメータを求めるのが最尤推定法である。

マルコフ過程のページで示した、お天気の観測データの場合を考えよう。 n期の晴の確率は、次のxn1で表わされ、雨の確率はxn2で表わされた。
```
xn1=4/7+(θ0-4/7)(-1/6)^n
xn2=1-xn1
```
t=1,nのお天気の観測値が得られた。初期状態θ0を、お天気データ｛y1,ｙ2,....,yn}から推定する方法を見つけなさい.但しyt、t=1~n　は晴の時を１、雨の時０の値をとるものとする。 Xn1=θnと置いて、観測データが得られる確率を求めてみよう。 t期に晴れる確率は θtであるので、t期にytが得られる確率は
```
P(yt|θ0)=θt^yt(1-θt)^(1-yt)
```
である。そこで、観測されたお天気データが得られる確率は,積で表わされ
```
L(θ0)=P(y1,y2,...,yn|θ0)=ΠP(yt|θ0)　Πは1からnの積
```
であるので、この対数尤度をとれば
```
LogL=ΣLogP(yt|θ0)=Σ{ytLogθt+(1-yt)Log(1-θt)}
```
これをθ0で微分して0となるので
```
d(LogL)/dθ0=Σ{yt(1/θt)dθt/dθ0+(1-yt)(1/(1-θt))(-1)dθt/dθ0}=0
Σ{(dθt/dθ0)yt/θt-(dθt/dθ0)(1-yt)/(1-θt)}=0
Σ{(dθt/dθ0)[yt/θt-(1-yt)/(1-θt)]}=0
Σ{(dθt/dθ0)[yt-θt]}=0
```
dθt/dθ0は、次式である。
```
dθt/dθ0=(-1/6)^t
```
代入して
```
Σ{(-1/6)^t(yt-θt)}=0
ただし　θt=4/7+(θ0-4/7)(-1/6)^t
```
上記より、最尤推定値のθ0*がもとめられる。式から判るように、毎期の観測値の値と晴れる確率の差(誤差)に、毎期(-1/6)づつの忘却率を掛けて、荷重和した値になっている。面倒ですが、整理しましよう。
```
Σ{(-1/6)^t(yt-θt)}=0
```
左辺第2項は
```
Σ{(-1/6)^t(θt)}=Σ{(-1/6)^t[(4/7)(1-(-1/6)^t)+(-1/6)^tθ0]}
               =Σ{(4/7)(-1/6)^t(1-(-1/6)^t)}+θ0Σ(-1/6)^2t
```
ゆえに
```
θ0=Σ{(-1/6)^t(yt)-(4/7)(-1/6)^t(1-(-1/6)^t)}/{Σ(-1/6)^2t}
```
求める解は、下記の通りです。
```
θ0=Σ{(-1/6)^t[(yt)-(4/7)(1-(-1/6)^t)]}/{Σ(-1/6)^2t}
```
マルコフ過程のページで示した最小二乗法の解と、この最尤推定法の解が一致している。

↑

練習問題 †

１.身長分布が正規分布N（μ,σ)に従う母集団から、2人を選んで、身長を測ったら、それぞれX1=160,X2=170であった。母集団の平均と分散を最尤法で推定せよ。
２．観測器の測定誤差がN(0,σ)σ=1cmで所与である。この条件の下で、１人を選んで２回身長を測ったら、x1=165,x2=170cmとなった。この人の身長の期待値とその標準偏差を最尤法で推定せよ。

↑

ベイズ統計 †

ベイズ統計学は「ベイズの定理」だけを用いる，単純で強力な統計学です。この定理は数学的に正しく，「事前確率」が既知の場合にはまったく問題ありません。しかし通常の統計的な問題では事前確率が未知の場合がほとんどです。大数学者であるラプラスは，根拠薄弱のためにいくつかの相互に排反な事象に等確率を与える「理由不十分の原理」を用いて，ベイズ統計学を積極的に使用しました。これについては岩波文庫「確率の哲学的試論」（1997）などで読むことができます。　このような事前確率は主観に左右されるため，これを徹底的に排除して近代統計学の基礎を固めようとしたのがフィッシャーでした。しかしながらフィッシャーの提唱したフィデューシャル確率はほとんど支持されず，最終的に「帰無仮説」を用いて事前確率を完全に追放したのはネイマンとピアソンです。通常の統計学はこのネイマン・ピアソン流の立場をとっていて，ベイジアンに対して頻度論者(frequentist) と呼びますが，ベイズ統計学に対して「伝統的統計学」と呼ぶことにします。現代のベイズ統計学はラプラス時代のような単純なものではなく，もっと複雑・高度化されています。主なものは階層モデルと経験(empirical)ベイズで，前者はモデルの未知パラメータの事前分布に含まれる超パラメータにさらに無情報事前分布を仮定したもの，後者は超パラメータの事前分布は未知と考え，それを観測データから最尤法で推定するものです。

人気の35件

最新の6件