0001. Kmeans聚类算法

发布时间 2023-06-11 18:30:29作者: 興華

一、Kmeans原理

Kmeans算法是一种常见的聚类算法,用于将数据集划分成k个不重叠的簇。其主要思想是通过迭代的方式将样本电话分到不同的簇中,使得同一簇内的样本点相似度较高,不同簇之间的相似度较低。

Kmeans算法的详细步骤:

  • 初始化:选择k个初始聚类中心,可以是随机选择或者根据某种启发式方法选择。聚类中心通常是从数据集中选择的k个样本点;
  • 分配样本点:对于每个样本点,计算其与各个聚类中心的距离(如欧式距离),将样本点分配给距离最近的聚类中心所在的簇;
  • 更新聚类中心:对于每个簇,计算其所有样本点的均值,将该均值作为新的聚类中心;
  • 重复步骤2和3:直到聚类中心不再发生变化或者达到预定的迭代次数;
  • 输出结果:最终得到k个聚类簇,每个簇包含一组样本点。

Kmeans算法的特点:

  • kmeans算法是一种迭代算法,通过多次迭代优化聚类结果;
  • kmeans算法基于距离度量来进行样本点的分配和聚类中心的更新;
  • kmeans算法对离群点敏感,离群点可能会影响聚类结果;
  • kmeans算法要求事先指定聚类的个数k。

Kmeans算法的优化方法:

  • 通过增加迭代次数或设置收敛条件来控制算法的迭代次数;
  • 使用更好的初始化方法,如Kmeans++算法,可以更好地选择初始聚类中心;
  • 对于离群点的处理,可以使用基于距离的异常值检测方法,或者采用基于密度的聚类算法。

二、实验环境

三、Kmeans简单代码实现

1. 构造数据

import numpy as np

data = np.array([[3, 2], [4, 1], [3, 6], [4, 7], [3, 9], [6, 8], [6, 6], [7, 7]])

 

2. 可视化展示

3. 聚类成二分类

4. 获取结果

5. 结果可视化

6. 聚类成3类

7. 结果可视化

四、Kmeans案例实战

1. 案例背景

2. 读取数据

3. 可视化展示

4. 数据建模

5. 建模效果可视化展示