机器学习---绪论
数据挖掘: 从海量数据中挖掘知识
数据库: 为数据挖掘提供数据管理技术
机器学习: 为数据挖掘提供数据分析技术
一. 发展历程
1. 什么是机器学习:
① 主要目的:
让机器像人一样有学习能力
② 重要人物:
Tom Mitchell
③ 当前定义:
利用经验改善计算机系统自身性能
经验: 历史数据
计算机系统: 模型
性能: 对数据处理能力
2. 人工智能的三个学派:
符号主义: 启发式学习 -> 专家系统 ->知识计算
连接主义: 神经网络->深度学习
行为主义: 控制论->机器人学
3. 人工智能的三个时期:
推测期: 逻辑理论家 -> 通用问题求解 -> 定理证明 , 即让机器具体推理和逻辑能力
知识期: 知识工程 ->专家系统, 让机器具有知识
学习期: 机器学习 -> 统计学习
二. 应用现状
机器学习的三类学习方法的区别和联系:
① 无监督学习: 没有标签的学习过程
② 有监督学习: 有标签的学习过程
③ 强化学习: 试错为主的学习
三. 基本术语
1.机器学习的基本架构(基本过程)
经验 (历史数据) --> 计算机系统 (机器学习模型) --> 性能 (预测精度)
输入(非结构化, 半结构化, 结构化数据) --> 模型 (监督学习, 半监督学习, 无监督学习, 强化学习) --> 输出 (分类, 聚类, 回归)
2.样本 & 数据集
样本: 数据记录
数据集: 一组数据记录的集合
3.特征 & 特征向量
特征: 样本表现的性质
特征向量: 各种特征组成的向量
4.训练集 & 测试集
训练集: 训练模型参数时的数据集
测试集: 验证模型性能时的数据集
5.假设 &真值
假设: 数据存在的潜在规律
真值: 潜在规律的自身称之为"真相"的
6.分类 & 回归
分类: 预测值为离散值
回归: 预测值为连续值
二. 假设空间
1.科学推理的两种方法:
① 归纳: 从特殊到一般的 "泛化"
② 演绎: 从一般到特殊的 "特化"
2.假设空间
学习过程: 可看作在所有假设组成的空间中进行搜索的过程
假设空间取值可以为空
3.版本空间
① 搜索过程中不断删除与正例不一致的假设, 和与反例一致的假设, 最终得到与训练集一致的假设, 即学习结果
② 搜索方法:
自顶向下: 从一般到特殊
自底向上: 从特殊到一般
三. 归纳空间
1.存在问题
不同假设对同一个新样本, 会输出不同结果 ------>>> 任何一个有效的机器学习算法都有归纳偏好
2. 归纳偏好
奥卡姆剃刀: 核心思想是选择最简单的假设
3. 天生我才必有用
当有一个算法La, 在一些方面比算法Lb好, 那么La必定存在一些问题, Lb要比La好
4. 没有免费的午餐
总误差与学习算法无关, 无论模型的本身好坏, 重要在于学习与不学习
5.算法好坏要具体问题具体分析, 结合实际情况
思考:
1. 人工智能发展的三个时期和三个学派之间有什么联系?
人工智能的三个时期分别为 推理期, 知识期, 学习期
人工智能的三个学派分别为符号主义, 连接主义, 行为主义
其中 符号主义 的 启发式学习 与 推理期 的 逻辑推理 有着相似之处
而 连接主义 和 行为主义, 知识期 和 学习期 都相应得没有特别多得联系之处
人工智能的三个时期侧重机器学习的认知变化, 即纵向发展
而人工智能的三个学派更侧重人们对人工智能的历程, 侧重横向发展, 是并列的
而推理期与符号主义是两者的交界处
2.结合机器学习理论与实际需求, 你打算在这门课学习后做点什么?
3.上述版本空间在实际应用中是否存在问题?
提示: 版本空间的形成有可能随着时间的推移而失去时效性, 之前学习得到的结果不一定适合现在的问题