0001.机器学习系统的类型-526互联

根据训练期间接受的监督数量和监督类型，可以将机器学习系统分为以下四个主要类型：有监督学习、五监督学习、半监督学习和强化学习。

一、有监督学习

在有监督学习中，提供给算法的包含所需解决方案的训练集称为标签。

有监督学习方法有：k-近邻算法；线性回归；逻辑回归；支持向量机(SVM)；决策树和随机森林；神经网络。

二、无监督学习

顾名思义，无监督学习的训练数据都是未经过标记的，系统会在没有“老师”的情况下进行学习。

无监督学习算法有：聚类算法；k-均值算法；DBCSAN；分层聚类分析(HCA)；异常检测和新颖性检测；单类SVM；孤立森林；可视化和降维；主成分分析(PCA)；核主成分分析；局部线性嵌入(LLE)；t-分布随机近邻嵌入(t-SNE)；关联规则学习；Apriori；Eclat。

三、半监督学习

由于通常给数据做标记是非常耗时和昂贵的，往往会有很多未标记的数据而很少有已标记的数据。有些算法可以处理标记的数据。这被称为半监督学习。

四、强化学习

强化学习则是一个非常与众不同的“巨兽”。它的学习系统能够观察环境，做出选择，执行操作，并获得回报。所以它必须自行学习什么是最好的策略，从而随着时间的推移获得最大的回报。策略代表智能体在特定情况下应该选择的动作。

五、批量学习和在线学习

基于机器学习系统是否可以从传入的数据流中进行增量学习。

批量学习，系统无法进行增量学习，必须使用所有可用数据进行训练。通常是离线完成的，离线学习就是先训练系统，然后将其投入生产环境，这时学习过程停止，它只是将其所学到的应用出来。

在线学习，可以循序渐进低给系统提供训练数据，逐步积累学习成果。在线学习系统的一个重要参数是其使用不断变化的数据的速度，这就是所谓的学习率。

六、基于实例的学习和基于模型的学习

基于实例的学习，就是简单的死记硬背。系统用心学习示例，然后通过使用相似度度量来比较新实例和已经学习的实例，从而泛化新实例。

基于模型学习，从一组示例集中泛化的另一种方法是构建这些示例的模型，然后使用该模型进行预测。

七、机器学习的主要挑战

1. 训练数据的数量不足：大量的数据；

2. 训练数据不具代表性：训练数据一定要非常具有代表性；

3. 低质量数据：训练集中的错误、异常值、噪音等都需要提请进行清理；

4. 无关特征：垃圾入，垃圾出。所以训练集需要选择最有用的特征进行训练，将现有特征进行整合，产生更有用的特征；

5. 过拟合训练数据：深度神经网络的复杂模型可以检测到数据中的微小模式，但是如果训练集本身是有噪声的，或者数据集太小（引入了采样噪声），那么很可能会导致模型检测噪声本身的模式。导致模型过拟合。

6. 欠拟合训练数据：欠拟合与过拟合正好相反，就是模型太过简单，缺少一些特征值；

八、测试与验证

在建立模型时，通常将数据源分割成两部分，训练集和测试集。用训练集的数据来训练模型，然后用测试集的数据来测试模型。根据自己数据量的大小，进行分割，一般8:2。