13.2. 随机梯度下降算法 随机梯度下降算法 在13.1. 中提到使用传统的梯度下降算法来最小化大数据集的代价函数计算量非常大,因此需要找到一种方式来改进现有的梯度下降算法。一种可行的方式是随机梯度下降算法(Stochastic gradient desent)。 回顾:线性回归的梯度下降算法 对于假设函数:\(h_θ(x)=∑_{j=0}^mθ_jx_j\) 其训练集的代价函数为: \[J_{train}(θ 2021-08-22 学习笔记 > 机器学习基础课程——吴恩达 > 13. 大规模机器学习
13.5. 并行计算(减少映射) 并行计算(减少映射) 减少映射(Map-reduce)是第二种能够在大规模机器学习中用于减少计算量的算法。本质上,减少映射的工作就是将机器学习算法进行并行化处理,使得多个计算机共同、同时承担梯度下降算法中的一部分计算内容以缩短计算时间和单台计算机的计算量。减少映射与随机梯度下降一样重要。 机器学习算法能够被减少映射的关键在于算法本身或者是其中的某些步骤能够以求和的方式表示。事实上,大规模机器学 2021-08-22 学习笔记 > 机器学习基础课程——吴恩达 > 13. 大规模机器学习
13.3. 小批量梯度下降算法 小批量梯度下降算法 小批量梯度下降算法(Mini-batch gradient descent)是另一种改善由大数据造成的计算量问题的梯度下降算法。小批量梯度下降算法的思路介于批量梯度下降算法和随机梯度下降算法之间,在一些情况下的表现比随机梯度下降算法更为出色。 小批量梯度下降算法的思路 回顾之前的梯度下降算法: - 批量梯度下降算法在一次迭代中使用了数据集中所有的样本 - 随机梯度下 2021-08-22 学习笔记 > 机器学习基础课程——吴恩达 > 13. 大规模机器学习
标记说明 标记说明 格式 123456789## 语法主干- 词性接续1 【翻译1】[用法类型1],解释1。特殊说明1。 固定搭配1 例:例句1 - 词性接续2 【翻译2】[用法类型2],解释2。特殊说明2。 固定搭配2 例:例句2 特别说明: 1. [用法类型]表示该用法使用的场合,标记有: - [口]:口语。 - [书]:书面语。 - [正式]:只能在正式场合使用。 2021-08-21 日语
10.1. 降维的目的 降维的目的 降维是非监督学习中常用的一种算法,使用降维的目的有如下两个: ## 压缩数据 使用降维的其中一个目的是压缩数据,压缩数据能够减小算法的计算量的同时提高计算速度。 降维的手段是合并一些高度相关的特征。 具体而言,如果两个特征在二维空间内呈现出线性相关,那么则可以设定一个新的特征,将所有数据在这个二维空间上的分布投射至一维数轴上,如图所示。 对于三个特征,如果数据都分布在这 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 10. 主成分分析
10.2. 算法思路和流程 主成分分析算法的思路和流程 主成分分析,PCA,是最流行的降维方法之一。 主成分分析问题 PCA会找一个低维平面,将所有的数据投影到这个平面内,并使得的所有数据点到这个地维平面的距离(称为投影误差)之和最短。 在应用PCA之前,通常会将数据归一化和特征缩放,使得所有的数据在可比的范围之内。 具体而言,PCA会在\(n\)维的数据空间中寻找到\(K\)个能够代表这个低维平面的方向向量\(u 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 10. 主成分分析
10.3. 主成分分析算法的优化 PCA算法优化 主成分数量的选取 \(K\)称作主成分的数量,通常\(K\)的选取与如下的两个参数有关: 平均投影误差的平方: \[\frac{1}{m}∑_{i=1}^m|x^{(i)}-x^{(i)}_{approx}|^2\] \(x_{approx}=U_{reduce}z\),是通过\(z\)复原后得到的向量。 反应每一个数据到投影的距离之和。 数据的方差: \[\fra 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 10. 主成分分析
11.1. 异常检测问题 异常检测问题 异常检测(Anomaly detection)算法是另一种常在非监督学习中使用的算法。这种算法虽然常常用于非监督学习,但与监督学习有许多相似之处。 对于一个非监督学习的数据集,假定数据集里的数据都是正常或异常的,此时加入一个新的数据,判断其在空间内的分布是否异常(符合现有数据集的分布规律)的问题称为异常检测问题。 解决这类问题,基本思路是对现有数据集的分布概率进行建模:设 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 11. 异常检测算法
11.2. 异常检测算法的原始模型 异常检测算法的原始模型 高斯分布 随机变量\(x\)的均值为\(μ\)方差为\(σ^2\),如果\(x\)的概率密度函数服从 \[P(x;μ,σ^2)=\frac{1}{√{2π}}exp(-\frac{(x-μ)^2}{2σ^2})\] 则称\(x\)服从高斯分布(或者称为正态分布,Gaussian distribution/Normal distribution),将\(x\)记作\( 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 11. 异常检测算法
11.3. 异常检测算法的评价·关键变量 异常检测算法的评价·关键变量 异常检测算法的实数评价 实数评价 评估学习算法的重要方法是实数评价,即对评价的指标返回一个实数,通过实数的大小来直观表示学习算法在这一指标上的优劣性。 假设有一系列带标签(标记正常或者异常)的数据集用于异常检测算法,从数据集中分离出一个无标签的训练集(其中绝大部分的数据都应该是正常/异常的),使用训练集来建立数据集的概率密度模型\(p(x)\)。 接着建立有 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 11. 异常检测算法