11.4. 比较异常检测与监督学习算法
本文最后更新于 2024年1月27日 下午
异常检测与监督学习的对比
在上一讲:11.3.
异常检测算法的评价中使用的原数据集是一个有标签的数据集,既然如此,那为何不使用监督学习的方法?
使用监督学习方法来训练并识别异常目标是一个好的办法,和异常检测算法相比,两者适用于不同的数据集条件,具体如下:
类别 | 异常检测 | 监督学习 |
---|---|---|
数据集类型 | 非常少量的正向类(异常数据 \(y=1\)), 大量的负向类(\(y=0\)) | 同时有大量的正向类和负向类 |
异常的类型 | 异常的类型非常多。根据非常少量的正向类数据来训练算法。 | 异常的类型比较少且固定。有足够多的正向类实例,足够用于训练算法。 |
新产生的异常 | 未来遇到的异常可能与已掌握的异常、非常的不同。 | 未来遇到的正向类实例可能与训练集中的非常近似。 |
应用 | 欺诈行为检测 生产(例如飞机引擎)检测数据中心的计算机运行状况 | 邮件过滤器 天气预报 肿瘤分类 |
其中最根本依据是:如果数据集中的异常样本太少以至于无法完成监督学习时,就应当考虑异常检测算法。
另外由于正态分布的统计性质,一般采用异常检测算法时,数据量应该在万级单位左右。
11.4. 比较异常检测与监督学习算法
https://l61012345.top/2021/08/21/机器学习——吴恩达/11. 异常检测算法/11.4. 异常检测与监督学习/