13.1. 大规模学习的计算问题·预学习 大规模学习的计算问题·预学习 在机器学习中,起决定因素的往往不是最好的算法,而是谁有大量的数据。机器学习发展的近10年到近5年的时间中,社会生活所产生的数据量不断增大,机器学习更倾向于学习更大规模的数据集。 接下来一章将讨论如何处理大数据集。 计算问题 大数据集学习面临的首要问题是计算问题。 假设训练集大小为\(m=100,000,000\)(这个数据是非常现实的,以美国人口为例,美国人 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 13. 大规模机器学习
12.4. 协同过滤算法的优化 协同过滤算法的优化 向量化 设计一个大小为\(n_m × n_u\)的矩阵\(Y\),其每一个元素表示用户\(j\)对电影\(i\)的评分\(y(i,j)\)。 由于预测的评分由\(θ^Tx\)给出,因此预测评分的矩阵能够表示为: \[Y_{pre}=Θ^TX\] 其中\(X\)是所有电影的特征向量组成\(x\)的电影的特征矩阵,其每一行都是一部电影的特征向量。 \(Θ\)是所有用户倾向的特 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 12. 内容推荐
4.2. 代价函数的正则化 代价函数的正则化 对于代价函数: \[min_{θ} \frac{1}{2m} \Sigma_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})^2\] 增加两个惩罚项\(1000\theta^2_3\)和\(1000\theta^2_4\),代价函数变为: \[min_{θ} \frac{1}{2m} \Sigma_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})^ 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 04. 正则化
4.1. 过拟合问题 过拟合问题 对于模型,如果一个模型对于数据的偏差很大,不能能够很好的拟合数据的分布,称为欠拟合,或者说这个算法具有高偏差的特性。 如果一个模型虽然可以穿过所有的数据点,但是其图像波动很大,其同样也不能描述数据的分布,(其数据的分布是无法被泛化处理),称为过拟合,或者说这个算法具有高方差的特性。 在这种情况下,模型的参数过于多(有可能代价函数正好为0),以至于可能没有足够多的数据去约束它来获得一个 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 04. 正则化
4.3. 线性回归的正则化 线性回归的正则化 正则化的梯度下降算法 在线性回归中,我们使用修改后的梯度下降算法: Repeat { \[θ_0:=θ_0-\alpha\frac{1}{m}\Sigma_{i=1}^{m}(h_θ(x^{(i)})-y^{(i)})x_0^{(j)} \tag{1}\] > \(θ_0\) 不需要正则化 \[θ_j:=θ_j-\alpha[\frac{1}{m}\Sigma_{ 2021-08-21 学习笔记 > 机器学习基础课程——吴恩达 > 04. 正则化
十级别语法 十级别语法 意志和判断(Unit 1) までだ 動詞辞書形+までだ・までのことだ 【只好做……】,用于表示觉悟,表示没有其他办法的情况下只能这样做。 【只是……】,表示辩解,表示没有别的意图。 例:これだけ頑張っても合格できないなら、あきらめるまでです。(觉悟) 例:私はこの点を考えるまでだ。(辩解) にはない 動詞辞書形・名詞+にはあたらない 【以 2021-07-31 语言 > 日语 > 樱花教材 #日语
9.3. K均值算法的优化 K均值算法的优化 多次随机初始化 初始化的状态不同,可能最后得到的结果是不一样的。 随机初始化聚类中心的其中一种方法为: 随机选择K个样本\(μ_1...μ_k\)作为\(K\)个聚类中心。 但是按如上的随机初始化方式可能导致最后的分类的结果不同,并且有可能使得代价函数\(J\)落入局部最优解而不是最小值。 解决这个问题的方法是多次(比如50-100次)随机初始化聚类中心并运行K- 2021-07-27 学习笔记 > 机器学习基础课程——吴恩达 > 09. K均值算法
九级别语法 九级别语法 假定(Unit 1) さえ 名詞・な形容詞~で・い形容詞~く+さえあれば 動詞ます形+さえすれば 【如果……了的话,就会……】,表示条件假设 例:私は家庭さえあれば、幸せです。 としたら 普通形+としたら 【如果……了的话,就会……】,和さえ相同。 后面既可以跟主观意见,也可以是客观的事情 例:お金持ちになれるとしたら、世界旅行に行きます。 普通 2021-07-27 语言 > 日语 > 樱花教材 #日语
卷积神经网络简介 卷积神经网络简介 针对用于图像识别的卷积神经网络而言 卷积神经网络的识别 卷积神经网络的结构分为输入层,隐含层和输出层。其中隐含层包括了卷积层(矩阵通过卷积层后还需要经过激活函数处理),池化层和全连接层。图像依次通过这三个层,然后通过softmax函数输出最终的概率。 输入层 彩色图像在输入层被分离为RGB三通道的三个大矩阵。 隐含层 卷积层 卷积的实质是图滤波,通过卷积核 2021-07-27 研究 > 神经网络
9.2. K均值算法的过程与实现 K均值算法的过程与实现 K均值算法(K-Means)是一种流行的聚类算法。 执行过程 以如下数据集的例子来说明K均值算法的执行过程: 对于如图所示的数据集,使用K均值算法将其分成两类数据。 K均值算法的第一步是在数据集中随机生成两点,称为聚类中心(Cluster Centroid)。(要分为多少类,就要生成多少个聚类中心) K均值算法是一个迭代算法,每一次迭代过程分为两部分: 2021-07-26 学习笔记 > 机器学习基础课程——吴恩达 > 09. K均值算法