線形回帰モデル
\begin{equation} f(x) = \sum_{i = 1}^b \theta_i \phi(x_i) \end{equation}
を用いた、 正則化回帰に対する、一つ抜き交差確認法による、平均二乗誤差 について、
\begin{equation} MSE = \dfrac{1}{n}\left\|\widetilde{H}^{-1} H \vec{y}\right\| ^2 \end{equation}
が成り立つことを証明する。
損失関数 を最小にする を求める。ここで、 とし、さらに
\begin{equation} \Phi := (\phi_1, \phi_2, ..., \phi_n) ^T \end{equation}
と定義する。
損失関数の 微分は以下のようになる。
\begin{align} -2 \Phi^T \vec{y}+2 {\theta} \Phi^T \Phi + 2 \lambda {\theta} = 0 \\ \left(\Phi^T \Phi+\lambda I\right) \theta-\Phi^T \vec{y}=0 \\ \left(\Phi^T X+\lambda I\right) \theta=\Phi^T \vec{y} \\ \hat{\theta}=\left(\Phi^T \Phi+\lambda I\right)^{-1} \Phi^T \vec{y} \end{align}
データ を除いた をそれぞれ とすると、
,
であり、
\begin{align} \Phi_i^T \Phi_i=\Phi^T \Phi-\phi_i \phi_i^T \\\ \Phi_i^T \vec{y}_i=\Phi^T \vec{y}-{\phi_i}^T {y_i}\\\ \end{align}
となる。これと、Sherman Morrison-Woodbury 公式を利用することで、予測値 を求めることができる。すなわち、
\begin{aligned} \phi\_i{ }^T \hat{\vec{\theta}}_i &= \phi_i^T\left(U-\phi_i \phi_i{ }^T\right)^{-1}\left(\Phi^T \vec{y}-y_i \phi_i\right) \\\ & =\phi_i^T\left(U^{-1}+\frac{U^{-1} \phi_i \phi_i^T U^{-1}}{1-{\phi_i}^T U^{-1} \phi_i}\right)\left(\Phi^T \vec{y}-y_i \phi_i\right) \\\ & =\phi_i{ }^T \frac{U^{-1}-\phi_i^T U^{-1} \phi_i U^{-1}+U^{-1} \phi_i \phi_i^T U^{-1}}{1-\phi_i^T U^{-1} \phi_i}\left(\Phi \vec{y}-y_i \phi_i\right) \\\ & =\frac{\phi_i^T U^{-1}-\phi_i^T\left(\phi_i^T U^{-1} \phi_i\right) U^{-1}+\left(\phi_i^T U^{-1} \phi_i\right) \phi_i^T U^{-1}}{1-\phi_i{ }^T U^{-1} \phi_i}\left(\Phi^T \vec{y}-y_i \phi_i\right) \\ & =\frac{\phi_i^T U^{-1}\left(\Phi^T \vec{y}-y_i \phi_i\right)}{1-\phi_i{ }^T U^{-1} \phi_i} \end{aligned}
ただし、一行目から二行目で ShermanMorrison-Woodbury 公式の特別な形を利用した。四行目か ら五行目は、 がスカラー値であることから、分子の第二項と第三項が相殺することを 利用した。
したがって、予測値と実測値の差 は次のように表すことができる。
\begin{aligned} E_i & =\frac{\phi_i^T U^{-1}\left(\Phi^T \vec{y}-y_i \phi_i\right)}{1-\phi_i^T U^{-1} \phi_i}-y_i \\\ & =\frac{\phi_i^T U^{-1} \Phi^T \vec{y}-y_i}{1-\phi_i^T U^{-1} \phi_i} \end{aligned}
ここで、 について考える。 の 番目の要素 は簡単に求められて、
\begin{equation} H_{i, j}= \begin{cases}-\left(a_{i, j}-1\right) & (\text { if } i==j) \\ -a_{i, j} & \text { (otherwise) }\end{cases} \end{equation}
(ただし、 である。)
すると、 の対角成分だけからなる の逆行列 についても同様で、
\begin{equation} \widetilde{H}_{i, j}^{-1}= \begin{cases}\dfrac{1}{1-a_{i, j}} & (\text { if } i==j) \\ 0 & (\text { otherwise })\end{cases} \end{equation}
一方で、 の 番目の要素が
\begin{equation} \left[\vec{\phi}_i{ }^T U^{-1} \Phi^T\right]_{i, j}=\phi_i^T U^{-1} \vec{\phi}_j=a_{i, j} \end{equation}
であることは、少し考えることでわかる。
以上より、
\begin{aligned} E_i & =\dfrac{\vec{\phi_{i}}^T U^{-1} \Phi^T \vec{y}-y_i}{1-\vec{\phi_{i}}^T U^{-1} \vec{\phi_{i}} } \\\ & =\dfrac{\left(\sum_{j=1}^n a_{i, j} y_j\right)-y_i}{1-a_{i, i}} \\\ & =\dfrac{-\left(a_{i, 1} y_1+a_{i, 2} y_2+\ldots+a_{i, n} y_n\right)-y_i}{1-a_{i, i}} \\ & =\dfrac{-a_{i, 1} y_1-a_{i, 2} y_2-\ldots-\left(a_{i, i}-1\right) y_i-a_{i, i+1} y_{i+1}-\ldots-a_{i, n} y_n}{1-a_{i, i}} \\\ & =\widetilde{H}_{i, i}^{-1} \left(H_{i, 1} y_1+H_{i, 2} y_2+\ldots+H_{i, n} y_n\right) \end{aligned}
となり、 を縦に並べた列ベクトル は次のように表せる。すなわち、
\begin{equation} \vec{E} = \widetilde{H} ^{-1} H \vec{y} \end{equation}
したがって、平均二乗誤差 MSE は、
\begin{aligned} M S E & =\dfrac{1}{n} \sum_{i=1}^n E_i^2 \\ & =\dfrac{1}{n} \vec{E}^T \vec{E} \\ & =\dfrac{1}{n}\|\vec{E}\|^2 \\ & =\dfrac{1}{n}\left\|\widetilde{H}^{-1} H \vec{y}\right\|^2 \end{aligned}
となり、題意を示すことができた。以上で、証明終わり。