K-近邻算法

发布时间 2023-04-06 11:13:49作者: gao79138

K-近邻算法


K-近邻算法概述

    简单的说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。

K-近邻算法的优缺点

    优点:精度高,对异常值和噪声数据不敏感。
    缺点:计算复杂度高、空间复杂度高。
    适用数据范围:数值型和标称型。

K-近邻算法的工作原理

    给定一个训练样本集,在这个样本集中的每一个样本都有相应的标签。当需要预测一个新数据的标签(类别)时,将新数据的特征值和样本集中的每一个样本的对应特征值进行对比(计算距离),找到前k个最相似(最近邻/最近距离)的样本,提取它们的类别。再从这些类别中找到出现次数最多的分类,这个分类就是新数据的类别。k一般不大于20,k的选择需要具体问题具体分析。

使用K-近邻算法的一般流程

    1. 收集数据:可以使用任何方法。
    2. 准备数据:距离计算所需要的数值。最好是结构化的数据格式(字典)
    3. 分析数据:可以采用任何方法。
    4. 训练算法:此步骤不适用于K-近邻算法。
    5. 测试算法:计算错误率。
    6. 使用算法:首先需要输入样本数据和需要预测的新数据,然后运行K-近邻算法判定需要预测的新数据属于哪个分类,最后应用程序对计算出来的分类进行后续处理。