Mirror
  • 首页
  • 时间线
  • 分类
  • 标签
  • 图库
  • 里世界
  • 关于我

10.1. 降维的目的

降维的目的 降维是非监督学习中常用的一种算法,使用降维的目的有如下两个: 压缩数据 使用降维的其中一个目的是压缩数据,压缩数据能够减小算法的计算量的同时提高计算速度。 降维的手段是合并一些高度相关的特征。 具体而言,如果两个特征在二维空间内呈现出线性相关,那么则可以设定一个新的特征,将所有数据在这个二维空间上的分布投射至一维数轴上,如图所示。 对于三个特征,如果数据都分布在这个三维
2021-08-21
学习笔记 > 机器学习基础课程——吴恩达 > 10. 主成分分析

10.3. 主成分分析算法的优化

PCA算法优化 主成分数量的选取 \(K\)称作主成分的数量,通常\(K\)的选取与如下的两个参数有关: 平均投影误差的平方: \[\frac{1}{m}∑_{i=1}^m|x^{(i)}-x^{(i)}_{approx}|^2\] \(x_{approx}=U_{reduce}z\),是通过\(z\)复原后得到的向量。 反应每一个数据到投影的距离之和。 数据的方差: \[\fra
2021-08-21
学习笔记 > 机器学习基础课程——吴恩达 > 10. 主成分分析

10.2. 算法思路和流程

主成分分析算法的思路和流程 主成分分析,PCA,是最流行的降维方法之一。 主成分分析问题 PCA会找一个低维平面,将所有的数据投影到这个平面内,并使得的所有数据点到这个地维平面的距离(称为投影误差)之和最短。 在应用PCA之前,通常会将数据归一化和特征缩放,使得所有的数据在可比的范围之内。 具体而言,PCA会在\(n\)维的数据空间中寻找到\(K\)个能够代表这个低维平面的方向向量\(u
2021-08-21
学习笔记 > 机器学习基础课程——吴恩达 > 10. 主成分分析

13.1. 大规模学习的计算问题·预学习

大规模学习的计算问题·预学习 在机器学习中,起决定因素的往往不是最好的算法,而是谁有大量的数据。机器学习发展的近10年到近5年的时间中,社会生活所产生的数据量不断增大,机器学习更倾向于学习更大规模的数据集。 接下来一章将讨论如何处理大数据集。 ## 计算问题 大数据集学习面临的首要问题是计算问题。 假设训练集大小为\(m=100,000,000\)(这个数据是非常现实的,以美国人口为例,美
2021-08-21
学习笔记 > 机器学习基础课程——吴恩达 > 13. 大规模机器学习

12.1. 内容推荐问题

内容推荐问题 引子 通过对之前的部分的学习可以知道:特征在机器学习中扮演着重要的角色,特征的选取对于学习算法的性能有很大的影响。相比于手动编写算法,有一些算法能够自动挖掘特征,而内容推荐算法就是其中的一个典型的例子。 通过对内容推荐算法的学习,能够进一步体会机器学习中特征的重要性。 案例:电影推荐系统 假设现在有一个电影推荐系统,这个系统允许对电影进行0分到5分的评价,这个系统有如下的量
2021-08-21
学习笔记 > 机器学习基础课程——吴恩达 > 12. 内容推荐

12.2. 基于内容的推荐算法·内容的特征

基于内容的推荐算法·内容的特征 系统参数 沿着电影推荐的例子,在上一节中提到过内容推荐系统的相关参数: \(n_u\):用户的数量。 \(n_m\):电影的数量。 \(r(i,j)\):标记函数,如果\(r(i,j)=1\)则表示第\(j\)个用户已经对第\(i\)部电影进行了评分。 \(y^{(i,j)}\):评分,表示用户\(i\)对电影\(j\)的评分。当且仅当\
2021-08-21
学习笔记 > 机器学习基础课程——吴恩达 > 12. 内容推荐

12.3. 协同过滤算法

协同过滤算法 和基于内容的线性回归模型不同,协同过滤算法能够自动学习所要使用的特征,避免了需要先手动评价“爱情度”和“动作度”这样的不可理喻的事情。 整合到一起 在上一节中利用线性回归模型作出了两个算法分别用于预测用户的取向和电影的内容特征。两个算法的思路分别是;已知电影的特征\(x^{(i)}\),求出用户的取向\(θ^{(j)}\);已知用户的取向\(θ^{(j)}\),求出电影的特征\
2021-08-21
学习笔记 > 机器学习基础课程——吴恩达 > 12. 内容推荐

12.4. 协同过滤算法的优化

协同过滤算法的优化 向量化 设计一个大小为\(n_m × n_u\)的矩阵\(Y\),其每一个元素表示用户\(j\)对电影\(i\)的评分\(y(i,j)\)。 由于预测的评分由\(θ^Tx\)给出,因此预测评分的矩阵能够表示为: \[Y_{pre}=Θ^TX\] 其中\(X\)是所有电影的特征向量组成\(x\)的电影的特征矩阵,其每一行都是一部电影的特征向量。 \(Θ\)是所有用户倾向的特
2021-08-21
学习笔记 > 机器学习基础课程——吴恩达 > 12. 内容推荐

4.1. 过拟合问题

过拟合问题 对于模型,如果一个模型对于数据的偏差很大,不能能够很好的拟合数据的分布,称为欠拟合,或者说这个算法具有高偏差的特性。 如果一个模型虽然可以穿过所有的数据点,但是其图像波动很大,其同样也不能描述数据的分布,(其数据的分布是无法被泛化处理),称为过拟合,或者说这个算法具有高方差的特性。 在这种情况下,模型的参数过于多(有可能代价函数正好为0),以至于可能没有足够多的数据去约束它来获得一个
2021-08-21
学习笔记 > 机器学习基础课程——吴恩达 > 04. 正则化

4.2. 代价函数的正则化

代价函数的正则化 对于代价函数: \[min_{θ} \frac{1}{2m} \Sigma_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})^2\] 增加两个惩罚项\(1000\theta^2_3\)和\(1000\theta^2_4\),代价函数变为: \[min_{θ} \frac{1}{2m} \Sigma_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})^
2021-08-21
学习笔记 > 机器学习基础课程——吴恩达 > 04. 正则化
1…2122232425…32

搜索

如果您发现任何错误,可以通过邮箱1017179431@qq.com告知我,谢谢。
本博客所有文章全部为我手工编写。请尊重我的劳动成果,转载请注明出处。
基于Hexo© 和 Fluid搭建的博客。
©OrekiKigiha 2025
总访问量 次 总访客数 人