最少二乗法:The least-squares method †偏差(ズレ 隔たり)の二乗和を最小にするように、推定式の係数(パラメータ)を決める方法を最小二乗法と呼ぶ。 偏差(ズレ 隔たり)の尺度として、二乗和を採ることを提案したのは、ルジャンドルであった。1805年の論文「天体の軌道決定の新しい方法」において、「係数は、誤差の大きさを決めるが、誤差二乗和を最小となるように決定する必要がある。この方法が一般的に言って簡単な方法であることが分かった。」と述べている。 これには、深い根拠がある。 誤差二乗和を最小にすると定式化することで、最適化問題は、正規方程式と呼ばれる係数に関する連立一次方程式を解いて、その解を最適な係数とすることに帰着される。 偉大なガウスは、最小二乗法の確率論的基礎を導いている。最小二乗法は、測定誤差の正規分布と深く関係しており、その根拠を最尤法を用いてしめした。ガウスは、「被説明変数の推定誤差の二乗和は、期待値がゼロ、分散が最小になるように係数が決められねばならない」と考えた。そして、最小二乗法で推定したパラメータは、不偏性をもつこと、言い換えればパラメータの期待値が真のパラメータに一致することを明らかにしている。 "Least squares" means that the overall solution minimizes the sum of the squares of the errors made in solving every single equation. The most important application is in data fitting. The best fit in the least-squares sense minimizes the sum of squared residuals, a residual being the difference between an observed value and the value provided by a model. The least-squares method was first described by Carl Friedrich Gauss around 1794. 歴史 †
問題の定式化 †A simple data set consists of n points (data pairs) (xi,yi), i = 1, ..., n, where xi is an independent variable and yi is a dependent variable whose value is found by observation. The model function has the form f(x,β), where the m adjustable parameters are held in the vector β. The goal is to find the parameter values for the model which "best" fits the data. The least squares method finds its optimum when the sum, S, of squared residuals S = ∑ ri^2 i = 1, ..., n is a minimum. A residual is defined as the difference between the value of the dependent variable and the model value ri = yi − f(xi,β). An example of a model is that of the straight line. Denoting the intercept as β0 and the slope as β1, the model function is given by f(x,β)=β0+β1・x . 線形最少二乗法:Linear least squares †See Wikipedia. 1次方程式の場合 †いま、観測してデータが(x1,y1),(x2,y2),・・・,(xn,Yn)を得た。 これを求めたい1次方程式(モデル)を y=ax+b+e ,eは測定誤差の確率変数。 とする。 このとき誤差は ri=yi-(axi+b) i = 1, ..., n で表わされる。誤差の平方和を最少にするように、a,bの係数を求める。 S=∑ ri^2 --->Min(a,b) sub. to ri=yi-(axi+b) i = 1, ..., n 極値なので、Sをそれぞれの係数aとbで、微分すれば0となる必要がある。 Σ2ri・xi=0 Σ2ri=0 ri=yi-(axi+b) これを正規方程式とよぶ。この解が求めるパラメータ(a.b)である。
相関係数Rとは †上記の1次方程式の場合、xiに対するyの推定値y*i=aXi+bと観測されたyiについて 次式を定義する。 R^2=∑(y*i-E(y))^2 / ∑(yi-E(y))^2 これに、y*i=aXi+bを代入して整理すれば R^2=S(x,y)^2/(s(x,x)・S(y,y)) すなわち R=S(x,y)/(√s(x,x)・√S(y,y)) 相関係数はxとyの共分散をxの標準偏差、yの標準偏差の積で割った値となる。
相関係数と1次回帰式 †いま、観測してデータが(x1,y1),(x2,y2),・・・,(xn,Yn)を得た。 これを求めたい1次方程式(モデル)をy=ax+bとする。 この回帰係数は、先に示した。書き直すと y=a・(x-E(x))+E(y) a=R・σy/σx
決定係数とは:決定係数=相関係数の2乗 †yのデータをy=ax+bで予測する時、次式が成り立つ。 Σ(yi-E(y))^2 = Σ(yi-y*i)^2 + Σ(y*i-E(y))^2 これは 予測データの全変動=予測誤差の全変動+予測された全変動 と見ることができる。
決定係数とは、全変動の内、何割が予測されたかを表わす指標である。 R^2=Σ(y*i-E(y))^2 / Σ(yi-E(y))^2 総変動のうち回帰式で説明できる変動の割合を表わす。
決定係数、相関係数、誤差二乗和の関係式 †決定係数=(相関係数)^2 = 1 - (yの誤差二乗和)/(yの分散:全変動)
推定値a,bの性質:期待値と分散 †パラメータ推定値をa*,b*とするとき、どちらもデータの関数であるので、観測データによって値が異なる。 本当のパラメータa,bに近い値が、データを十分に多くすれば得られるだろうか?。 そこで、残差項のみが確率変数である次のモデルを考える。 y=ax+b+e (1)説明変数Xは確率変数ではない。 (2)誤差eの平均はゼロである。(すべてのiについて、E(ei)=0) (3)誤差eの分散は均一である。(すべてのiについて、V(ei)=σ2(一定)) (4)誤差eに、自己相関がない。(すべてのi,jについて、Cov(ei,ej)=0) このとき、パラメータ推定値の性質はどのようであろうか。
これらの分散の式を使って、パラメータの信頼性の検定ができる。 多変数最小二乗法 †二つの標本XとYの間に従属(回帰)関係があって、 y=a0+a1xi+a2x2+・・・・+amxm +e 但し、eは誤差を表わす確率変数。 な多変数の関係が成り立つと考える。 標本について、 yi=a0+Σajxij+ei (総和は、j=1,・・・,m) であることとなる。説明変数xは非確率変数で多重共線性はなく、誤差eに対するガウス・マルコフの仮定は満たされているとしよう。n個の標本のこの関係式を行列で表して、 Y=Xa+e 但し、Yは観測値のn次元列ベクトル、eは誤差の列ベクトル、Xは要素{xij}をもつm+1行n列のマトリックスでaはm次元のパラメータベクトル。ちなみにXのn行目は、Xn=(1,xn1,・・・,xnm)である。 すると誤差項の2乗の和(残差平方和)は、転地記号tを用いて E^2=et・e =(Y-Xa)t・(Y-Xa) =Yt・Y-2at・Xt・Y+at・Xt・Xa となるので、これの最小化条件は、aで偏微分し、ゼロとおく。 ∂E2/∂a=-2Xt・Y+2Xt・Xa=0 故に、 (Xt・X)a=XtY という正規方程式を得る。 もし、Xt・Xのm次元行列が正則ならば、逆行列が存在する。 未知パラメータaの推定値は、正規方程式の解である次式で表わされる。 a = [Xt・X]-1・XtY 1次式の場合に確認した残差平方和の最小化の条件式、Σeixi=0について確認する。 これは直交条件とも呼ばれていた。 Xte=Xt(Y-Xa) =XtY-XtXa =0 すなわち、正規方程式が直交条件そのものを表わしていることがわかる。
E(a*)=E([Xt・X]-1・XtY) =E([Xt・X]-1・Xt(Xa+e)) =[Xt・X]-1(Xt・X)E(a) =a このように推定値の期待値が真の値になることを不偏推定量という。 推定値の分散は、スカラーcを伴う分散公式V(cα)=c2V(α)とV(c+α)=V(α)を使って、 V(a*)=V((XtX)-1XtY) =(XtX)-1XtV(Y)((XtX)-1Xt)t =(XtX)-1XtV(Xa+e)((XtX)-1Xt)t =(XtX)-1Xtσ2I((XtX)-1Xt)t =(XtX)-1σ2 となる。解となる分散の式は列ベクトルでなく行列となる。 うまくデータを取れば、分散を小さくできるであろうが、その情報はXtXにある。 そこでXtXなるマリックスを情報行列と呼ぶ。 直交射影と最小二乗法 †
参考 † |