東大 生物情報学科、学部生の備忘録

東京大学の学生です。日々の気づき、学び、つまづいたことをメモにします。

MENU

線形回帰モデルの一つ抜き交差確認法の平均二乗誤差 MSE についての考察

線形回帰モデル

\begin{equation} f(x) = \sum_{i = 1}^b \theta_i \phi(x_i) \end{equation}

を用いた、  l_2 正則化回帰に対する、一つ抜き交差確認法による、平均二乗誤差  MSE について、

\begin{equation} MSE = \dfrac{1}{n}\left\|\widetilde{H}^{-1} H \vec{y}\right\| ^2 \end{equation}

が成り立つことを証明する。

損失関数  J(\theta) = | \vec{y} - \Phi \theta |^2 + \lambda | \theta| ^2 を最小にする  \theta を求める。ここで、 \phi_i := \phi(x_i) とし、さらに

\begin{equation} \Phi := (\phi_1, \phi_2, ..., \phi_n) ^T \end{equation}

と定義する。

損失関数の  \theta 微分は以下のようになる。

\begin{align} -2 \Phi^T \vec{y}+2 {\theta} \Phi^T \Phi + 2 \lambda {\theta} = 0 \\ \left(\Phi^T \Phi+\lambda I\right) \theta-\Phi^T \vec{y}=0 \\ \left(\Phi^T X+\lambda I\right) \theta=\Phi^T \vec{y} \\ \hat{\theta}=\left(\Phi^T \Phi+\lambda I\right)^{-1} \Phi^T \vec{y} \end{align}

データ  x_i, y_i を除いた  \Phi, \vec{y} をそれぞれ  \Phi_i, \vec{y_i} とすると、  y_i = (y_1, y_2, ..., y_{i-1}, 0, y_{i+1}, ..., y_n)^T,
 \Phi_i = (\Phi_1, \Phi_2, ..., \Phi_{i-1}, 0, \Phi_{i+1}, ..., \Phi_n)^T
であり、

\begin{align} \Phi_i^T \Phi_i=\Phi^T \Phi-\phi_i \phi_i^T \\\ \Phi_i^T \vec{y}_i=\Phi^T \vec{y}-{\phi_i}^T {y_i}\\\ \end{align}

となる。これと、Sherman Morrison-Woodbury 公式を利用することで、予測値  \hat{y_i} = \vec{\phi_i}^T \hat{\theta_i} を求めることができる。すなわち、

\begin{aligned} \phi\_i{ }^T \hat{\vec{\theta}}_i &= \phi_i^T\left(U-\phi_i \phi_i{ }^T\right)^{-1}\left(\Phi^T \vec{y}-y_i \phi_i\right) \\\ & =\phi_i^T\left(U^{-1}+\frac{U^{-1} \phi_i \phi_i^T U^{-1}}{1-{\phi_i}^T U^{-1} \phi_i}\right)\left(\Phi^T \vec{y}-y_i \phi_i\right) \\\ & =\phi_i{ }^T \frac{U^{-1}-\phi_i^T U^{-1} \phi_i U^{-1}+U^{-1} \phi_i \phi_i^T U^{-1}}{1-\phi_i^T U^{-1} \phi_i}\left(\Phi \vec{y}-y_i \phi_i\right) \\\ & =\frac{\phi_i^T U^{-1}-\phi_i^T\left(\phi_i^T U^{-1} \phi_i\right) U^{-1}+\left(\phi_i^T U^{-1} \phi_i\right) \phi_i^T U^{-1}}{1-\phi_i{ }^T U^{-1} \phi_i}\left(\Phi^T \vec{y}-y_i \phi_i\right) \\ & =\frac{\phi_i^T U^{-1}\left(\Phi^T \vec{y}-y_i \phi_i\right)}{1-\phi_i{ }^T U^{-1} \phi_i} \end{aligned}

ただし、一行目から二行目で ShermanMorrison-Woodbury 公式の特別な形を利用した。四行目か ら五行目は、 \phi_i^T U^{-1} \phi_iスカラー値であることから、分子の第二項と第三項が相殺することを 利用した。

したがって、予測値と実測値の差  E_i (= \hat{y_i} - y_i) は次のように表すことができる。

\begin{aligned} E_i & =\frac{\phi_i^T U^{-1}\left(\Phi^T \vec{y}-y_i \phi_i\right)}{1-\phi_i^T U^{-1} \phi_i}-y_i \\\ & =\frac{\phi_i^T U^{-1} \Phi^T \vec{y}-y_i}{1-\phi_i^T U^{-1} \phi_i} \end{aligned}

ここで、 H ( = I - \Phi U^{-1} \Phi^T) について考える。  H i, j 番目の要素  H_{i, j} は簡単に求められて、

\begin{equation} H_{i, j}= \begin{cases}-\left(a_{i, j}-1\right) & (\text { if } i==j) \\ -a_{i, j} & \text { (otherwise) }\end{cases} \end{equation}

(ただし、 a_{i, j} = \phi_i^T U^T \phi_j である。)

すると、 H の対角成分だけからなる  \widetilde{H}逆行列  \widetilde{H} ^{-1} についても同様で、

\begin{equation} \widetilde{H}_{i, j}^{-1}= \begin{cases}\dfrac{1}{1-a_{i, j}} & (\text { if } i==j) \\ 0 & (\text { otherwise })\end{cases} \end{equation}

一方で、 \phi_i^T U^T \phi_j i,j 番目の要素が

\begin{equation} \left[\vec{\phi}_i{ }^T U^{-1} \Phi^T\right]_{i, j}=\phi_i^T U^{-1} \vec{\phi}_j=a_{i, j} \end{equation}

であることは、少し考えることでわかる。

以上より、

\begin{aligned} E_i & =\dfrac{\vec{\phi_{i}}^T U^{-1} \Phi^T \vec{y}-y_i}{1-\vec{\phi_{i}}^T U^{-1} \vec{\phi_{i}} } \\\ & =\dfrac{\left(\sum_{j=1}^n a_{i, j} y_j\right)-y_i}{1-a_{i, i}} \\\ & =\dfrac{-\left(a_{i, 1} y_1+a_{i, 2} y_2+\ldots+a_{i, n} y_n\right)-y_i}{1-a_{i, i}} \\ & =\dfrac{-a_{i, 1} y_1-a_{i, 2} y_2-\ldots-\left(a_{i, i}-1\right) y_i-a_{i, i+1} y_{i+1}-\ldots-a_{i, n} y_n}{1-a_{i, i}} \\\ & =\widetilde{H}_{i, i}^{-1} \left(H_{i, 1} y_1+H_{i, 2} y_2+\ldots+H_{i, n} y_n\right) \end{aligned}

となり、 E_i を縦に並べた列ベクトル  \vec{E} = (E_1, E_2, ..., E_n)^T は次のように表せる。すなわち、

\begin{equation} \vec{E} = \widetilde{H} ^{-1} H \vec{y} \end{equation}

したがって、平均二乗誤差 MSE は、

\begin{aligned} M S E & =\dfrac{1}{n} \sum_{i=1}^n E_i^2 \\ & =\dfrac{1}{n} \vec{E}^T \vec{E} \\ & =\dfrac{1}{n}\|\vec{E}\|^2 \\ & =\dfrac{1}{n}\left\|\widetilde{H}^{-1} H \vec{y}\right\|^2 \end{aligned}

となり、題意を示すことができた。以上で、証明終わり。