K-近邻算法-526互联

K-近邻算法

K-近邻算法概述

    简单的说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。

K-近邻算法的优缺点

    优点：精度高,对异常值和噪声数据不敏感。
    缺点：计算复杂度高、空间复杂度高。
    适用数据范围：数值型和标称型。

K-近邻算法的工作原理

    给定一个训练样本集，在这个样本集中的每一个样本都有相应的标签。当需要预测一个新数据的标签(类别)时，将新数据的特征值和样本集中的每一个样本的对应特征值进行对比(计算距离)，找到前k个最相似(最近邻/最近距离)的样本，提取它们的类别。再从这些类别中找到出现次数最多的分类，这个分类就是新数据的类别。k一般不大于20，k的选择需要具体问题具体分析。

使用K-近邻算法的一般流程

    1. 收集数据：可以使用任何方法。
    2. 准备数据：距离计算所需要的数值。最好是结构化的数据格式（字典）
    3. 分析数据：可以采用任何方法。
    4. 训练算法：此步骤不适用于K-近邻算法。
    5. 测试算法：计算错误率。
    6. 使用算法：首先需要输入样本数据和需要预测的新数据，然后运行K-近邻算法判定需要预测的新数据属于哪个分类，最后应用程序对计算出来的分类进行后续处理。

近邻算法horse-colic k-nearest

复杂度近邻算法过多

近邻算法

近邻