0001.机器学习系统的类型

发布时间 2023-06-02 12:25:10作者: 興華

根据训练期间接受的监督数量和监督类型,可以将机器学习系统分为以下四个主要类型:有监督学习、五监督学习、半监督学习和强化学习。

一、 有监督学习

在有监督学习中,提供给算法的包含所需解决方案的训练集称为标签。

有监督学习方法有:k-近邻算法;线性回归;逻辑回归;支持向量机(SVM);决策树和随机森林;神经网络。

二、无监督学习

顾名思义,无监督学习的训练数据都是未经过标记的,系统会在没有“老师”的情况下进行学习。

无监督学习算法有:聚类算法;k-均值算法;DBCSAN;分层聚类分析(HCA);异常检测和新颖性检测;单类SVM; 孤立森林; 可视化和降维;主成分分析(PCA);核主成分分析;局部线性嵌入(LLE);t-分布随机近邻嵌入(t-SNE);关联规则学习;Apriori;Eclat。

三、半监督学习

由于通常给数据做标记是非常耗时和昂贵的,往往会有很多未标记的数据而很少有已标记的数据。有些算法可以处理标记的数据。这被称为半监督学习。

四、强化学习

强化学习 则是一个非常与众不同的“巨兽”。它的学习系统能够观察环境,做出选择,执行操作,并获得回报。所以它必须自行学习什么是最好的策略,从而随着时间的推移获得最大的回报。策略代表智能体在特定情况下应该选择的动作。

五、批量学习和在线学习

基于机器学习系统是否可以从传入的数据流中进行增量学习。

批量学习,系统无法进行增量学习,必须使用所有可用数据进行训练。通常是离线完成的,离线学习就是先训练系统,然后将其投入生产环境,这时学习过程停止,它只是将其所学到的应用出来。

在线学习,可以循序渐进低给系统提供训练数据,逐步积累学习成果。在线学习系统的一个重要参数是其使用不断变化的数据的速度,这就是所谓的学习率。

六、基于实例的学习和基于模型的学习

基于实例的学习,就是简单的死记硬背。系统用心学习示例,然后通过使用相似度度量来比较新实例和已经学习的实例,从而泛化新实例。

基于模型学习,从一组示例集中泛化的另一种方法是构建这些示例的模型,然后使用该模型进行预测。

七、机器学习的主要挑战

1. 训练数据的数量不足:大量的数据;

2. 训练数据不具代表性:训练数据一定要非常具有代表性;

3. 低质量数据:训练集中的错误、异常值、噪音等都需要提请进行清理;

4. 无关特征:垃圾入,垃圾出。 所以训练集需要选择最有用的特征进行训练,将现有特征进行整合,产生更有用的特征;

5. 过拟合训练数据:深度神经网络的复杂模型可以检测到数据中的微小模式,但是如果训练集本身是有噪声的,或者数据集太小(引入了采样噪声),那么很可能会导致模型检测噪声本身的模式。导致模型过拟合。

6. 欠拟合训练数据: 欠拟合与过拟合正好相反,就是模型太过简单,缺少一些特征值;

八、测试与验证

在建立模型时,通常将数据源分割成两部分,训练集和测试集。用训练集的数据来训练模型,然后用测试集的数据来测试模型。根据自己数据量的大小,进行分割,一般8:2。