仮説検定とは:帰無仮説と対立仮説 †仮説がデータから支持されるかどうかを判断するための統計的手法 一般に,検証したい仮説を帰無仮説といい,帰無仮説が成り立たないときに採択される仮説を対立仮説という.
ネイマンとピアソン †エゴン・シャープ・ピアソン (Egon Sharpe Pearson 1895年8月11日 - 1980年6月12日)はイギリスの数理統計学者。イェジ(イェルジー)・ネイマン(Jerzy Neyman 1894年4月16日- 1981年8月5日)は数理統計学者。有名な父カール・ピアソンの後を継いで統計学を研究し、イェジ・ネイマンとともに現代の推計統計学の中心的理論を造り上げた。イェジ・ネイマンは、1925年、ロンドン大学のピアソンのもとに留学した。ピアソンはもはや測度論的確率論など最新の理論には疎かったが、息子のエゴン・ピアソンとは意気投合した。1926年パリに短期留学しボレル、ルベーグらに学ぶが、この時期からエゴンとの仮説検定理論の共同研究も開始した。 1927年ワルシャワに帰り生物測定学研究室を立ち上げたが、1934年再びロンドン大学に移ってエゴンらと研究を行った。この時期にも信頼区間の理論など重要な業績を上げた。 検定の定式化:正規分布の事例 †データX1, . . . ,Xn が正規分布N(μ, σ2) から独立に得られているとする.分散の値σ2 は既知とする.このとき期待値μ に関して2 つの仮説が考えられる。 H0 : μ = μ0 (帰無仮説) H1 : μ >または< μ0 (対立仮説) を考え,μ = μ0 かどうかをデータから判定する. もし帰無仮説H0 が正しいなら,標本平均 μx=(x1+x2+....+xn/n は母集団平均に近いはずである。したがって| μx − μ0| の値が大きいならH0は正しくないと判断できる. そこで、定数c を決めておいて | μx − μ0| > c =⇒ 帰無仮説H0を棄却 とする方法で考えよう。 帰無仮説を棄却するようなデータの集合を、棄却域Wという。 W = {Σxn/n | |Σxn/n− μ0| > c} 問題は、「定数c をどのように決めればよいか?」ということであるが・・・。.どの程度の大きさの誤り確率まで許すかを始めに決めておいて,これをα とおいて有意水準とよぶ.有意水準α に対して,棄却域が P{μx ∈ W : H0は正しい}≤ α となる。通常はα = 0.1, 0.05 などの値が選ばれる.前を10%の有意水準、後を5%の有意水準のもとで、棄却あるいは採択されるとよぶ。 本当は帰無仮説が正しいときに誤って帰無仮説を棄却してしまう確率を過誤確率という。 本当は帰無仮説が正しいときに誤って帰無仮説を棄却してしまう確率は P{μx ∈ W : H0は正しい}= P{| μx − μ0| > c : μ = μ0} で表わされる。ここで右辺は「期待値がμ0 であるような正規分布のもとで| μx − μ0| > c となる確率」を意味する。 仮説検定の手順 †
例題:小学生の平均体重は、30kgか? †
H0 : c = 30 kg H1 : c >または< 30 kg
そこで、標準正規分布より となるように、cの棄却域を決める。標準正規分布より C*=1.64 である。 データの平均体重は27.8kgであったので、-1.64<(μx-30)/√σ<1.64 に入るかどうかで仮説検定を行う。(σ=26/83) (μx-30)/√σ=(27.8-30)/√(26/83)=3.41>1.64 帰無仮説は有意水準10%で採択されないことになる。平均体重は30kgとみなすことはできない。 中心極限定理 †n個の互いに独立なランダム変数が、平均μ分散σ^2を持つ同一の分布にしがたうとする。このときnが十分に大きければ、標本平均は近似的に正規分布 μX=(x1+x2+.....+xn)/nの分布は N(μ,σ/n) にしたがう。 仮説検定の誤り確率:第1種過誤確率と第2種過誤確率 †たまたま偏ったデータが観測されたときには,検定による判断は誤ってしまうこともある.誤って判断してしまう確率が小さいほど優れた検定方式と考えることができる.検定の棄却域をW とすると検定における誤りは以下の表のようにまとめることができる.
検定には以上の2 通りの誤りが存在する.しかしながら、仮説検定では,有意水準α を定めることで第I 種の誤りをα以下に抑えているが,第II 種の誤りについてはとくに制約を置いていない。
最適な検定:ネイマン・ピアソンの補題 †有意水準αが所与の時、第II 種の誤り確率を最も小さくするような検定方法はどのようなものか? データX が得られたときに,データの確率密度関数がp(x) かq(x)かを検定する。 H0 : X ∼ p(x) (帰無仮説) H1 : X ∼ q(x) (対立仮説) 有意水準α の棄却域のうち,第II 種の誤り確率を最も小さくする棄却域は W ={x|q(x)/p(x) ≥ c} で与えられる.ここでc は 第I 種の誤り確率=∫p(x)dx = α:棄却域Wに入る確率がα を満たす値とする.
「尤度比検定」という.直感的には p(x) : 仮説H0のもとでのデータx の出現しやすさ q(x):仮説H1のもとでのデータx の出現しやすさ を表すので、どちらのほうがもっともらしいかを尤度比によって判断しようとしている.
例題:正規分布の期待値の尤度比検定 †データX1, . . . ,Xn が正規分布N(μ, 1) から独立に得られているとする. 分散の値は既知として期待値に関する次の検定を行う. H0 : μ = μ0 H1 : μ = μ1 ここでμ0 < μ1 とする ネイマン・ピアソンの補題から定まる棄却域を構成する 確率密度関数で考えると上の仮説は H0 : p(x1, . . . , xn) = Π(1/√2π)exp[-(xi-μ0)^2/2] i=1~n H0 : q(x1, . . . , xn) = Π(1/√2π)exp[-(xi-μ1)^2/2] i=1~n となる.尤度比を計算すると λ =p(x1, . . . , xn)/q(x1, . . . , xn)=exp{Σxi(μ1-μ0)+n(μ0^2-μ1^2)/2} 棄却域は、サンプル平均をμx=Σxi/n として W = {(x1, . . . , xn) | λ > c} = {μx | μx(μ1 − μ0) > c'} = {μx | μx > c''} ここでc', c は適当な定数である.式変形していくとc' やc はμ0, μ1 に依存した複雑な式 になるが,そのような繁雑なことは考えずに,帰無仮説H0 のもとでデータが棄却域W に入ってしまう確率が有意水準α になるようにc'' を決めればよい. 帰無仮説H0 のもとでは μxが N(μ0, 1/n) の確率密度関数となるので、 P{μx ∈ W}= P{μx ≥ c}= P{√n(μx − μ0) > √n(c − μ0)}= α となればよい。,√n(c'' − μ0) = zα と置いて、棄却域を W =[μx | μx > μ0 + zα √n] とすればよい。このようにして、有意水準α のもとで第II 種の誤り確率が最も小さくなるように棄却域を決めることができる. |