4.3. 线性回归的正则化

本文最后更新于 2025年9月1日上午

线性回归的正则化

正则化的梯度下降算法

在线性回归中，我们使用修改后的梯度下降算法：
Repeat {
\[θ_0:=θ_0-\alpha\frac{1}{m}\Sigma_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})x_0^{(j)} \tag{1}\] > \(θ_0\) 不需要正则化

\[θ_j:=θ_j-\alpha[\frac{1}{m}\Sigma_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})x_j^{(i)}+\frac{λ}{m}θ_j] \tag{2}\] \[j=1,2,3,...,n\] }
事实上： \(\frac{1}{m}\Sigma_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})x_j^{(j)}+\frac{λ}{m}θ_j=\frac{∂J(θ)}{∂θ_j}\)
\(\Sigma_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})x_0^{(i)}=\frac{∂J(θ)}{∂θ_0}\)

如果将（2）中的\(\theta_j\)统一，那么就可以得到（3）：
\[θ_j:=θ_j（1-α\frac{λ}{m}）-\frac{α}{m}\Sigma_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})x_j^{(i)} \tag{3}\]

由于\(1-α\frac{λ}{m}<1\),且只比1小一点点，也就是说，梯度下降算法每次更新的时候\(θ_j\)在一开始都会比原来小一点点，再进行原来的梯度下降更新

正规方程

在之前的讲义中，探讨过设计两个矩阵：
\(X=\begin{bmatrix} (x^{(1)})^T \\ ...\\ (x^{(m)})^T \end{bmatrix}\) 代表有m个数据的数据集和 \(y=\begin{bmatrix} y^{(1)} \\ ...\\ y^{(m)} \end{bmatrix}\) 代表训练集当中的所有的标签
通过： \[θ=(X^TX)^{-1}X^Ty\] （相当于对\(J(θ)\)中的每一个θ求偏导数，并且使其等于0）
可以求出最适合的θ
现在改变在正规方程中加入一项： \[θ=(X^TX+λ \begin{bmatrix} 0 & 0 & 0 & ...&0 \\ 0 & 1 & 0& ...&0 \\ 0 & 0 & 1& ...&0 \\ ... & ... & ...& ...&... \\ 0 & 0 & 0& ...&1 \end{bmatrix})^{-1}X^Ty\] 来达到同样的效果
>\(\begin{bmatrix} 0 & 0 & 0 & ...&0 \\ 0 & 1 & 0& ...&0 \\ 0 & 0 & 1& ...&0 \\ ... & ... & ...& ...&... \\ 0 & 0 & 0& ...&1 \end{bmatrix}\)是一个(n+1)的方阵

如果矩阵X不可逆\(（m<=n）\),那么\((X^TX)^{-1}\)也同样不可逆,但是经过数学证明，无论如何\((X^TX+λ \begin{bmatrix} 0 & 0 & 0 & ...&0 \\ 0 & 1 & 0& ...&0 \\ 0 & 0 & 1& ...&0 \\ ... & ... & ...& ...&...\\ 0 & 0 & 0& ...&1 \end{bmatrix})^{-1}\) 都是可逆的。

学习笔记 > 机器学习基础课程——吴恩达 > 04. 正则化

4.3. 线性回归的正则化

https://l61012345.top/2021/08/21/机器学习——吴恩达/4. 正则化/4.3. 线性回归的正则化/

作者

Oreki Kigiha

发布于

2021年8月21日

更新于

2025年9月1日

许可协议

4.1. 过拟合问题上一篇

十级别语法下一篇