聚类算法实现流程

聚类算法实现流程

2023-08-03 08:01:02 阅读次数：359

python，算法，聚类

聚类算法实现流程

k-means其实包含两层内容：

K : 初始中心点个数（计划聚类数）
means：求中心点到其他数据点距离的平均值

1 k-means聚类步骤

1、随机设置K个特征空间内的点作为初始的聚类中心
2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
4、如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程

通过下图解释实现流程：

聚类算法实现流程

聚类算法实现流程

聚类算法实现流程

k聚类动态效果图

聚类算法实现流程

2 案例练习

案例：【选取15个点】

聚类算法实现流程

1、随机设置K个特征空间内的点作为初始的聚类中心（本案例中设置p1和p2）

聚类算法实现流程

2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别

聚类算法实现流程

聚类算法实现流程

3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）

聚类算法实现流程

4、如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程【经过判断，需要重复上述步骤，开始新一轮迭代】

聚类算法实现流程

5、当每次迭代结果不变时，认为算法收敛，聚类完成，K-Means一定会停下，不可能陷入一直选质心的过程。

聚类算法实现流程

3 小结

流程:

事先确定常数K，常数K意味着最终的聚类类别数;
首先随机选定初始点为质心，并通过计算每一个样本与质心之间的相似度(这里为欧式距离)，将样本点归到最相似的类中，
接着，重新计算每个类的质心(即为类中心)，重复这样的过程，直到质心不再改变，
最终就确定了每个样本所属的类别以及每个类的质心。

注意:

由于每次都要计算所有的样本与每一个质心之间的相似度，故在大规模的数据集上，K-Means算法的收敛速度比较慢。

版权声明：本文内容来自第三方投稿或授权转载，原文地址：https://blog.csdn.net/weixin_44799217/article/details/115770949，作者：IT之一小佬，版权归原作者所有。本网站转在其作品的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如因作品内容、版权等问题需要同本网站联系，请发邮件至ctyunbbs@chinatelecom.cn沟通。

上一篇：网络安全-OSI模型、TCP/IP协议簇和数据封装与解封装过程

下一篇：聚类算法之特征降维-特征选择、主成分分析

作者介绍

天翼云小翼

天翼云用户

文章

32168

阅读量

4664688

最新文章

归并排序算法

2025-04-09 09:14:24

列表的插入排序算法

2025-04-09 09:14:12

有序向量去重算法

2025-04-09 09:14:12

试探回溯法解决八皇后的问题

2025-04-09 09:14:12

python使用t-sne算法降维，方便可视化

2025-04-01 10:29:20

文心一言 VS 讯飞星火 VS chatgpt （22）-- 算法导论4.2 2题

2025-04-01 10:29:12

热门文章

5、使用PyTorch 实现线性回归

2023-02-27 09:14:47

Lc70_爬楼梯

2024-06-27 09:20:52

python使用numpy保存字典格式的数据

2023-04-17 10:55:24

pandas Dataframe读取数据表是自定义列名

2023-04-19 09:36:36

利用函数求出一个数组最大三个数的乘积

2023-02-13 08:10:07

冒泡排序法解析

2024-07-01 01:30:59

热门标签

算法 leetcode python 数据 java 数组节点大数据 i++ golang 链表 c++ 排序 django 数据类型

相关产品

弹性云主机

随时自助获取、弹性伸缩的云服务器资源

天翼云电脑（公众版）

便捷、安全、高效的云电脑服务

对象存储

高品质、低成本的云上存储服务

云硬盘

为云上计算资源提供持久性块存储

随机文章

P4715 【深基16.例1】淘汰赛

给定一个整型数组 arr，数组中的每个值都为正数，表示完成一幅画作需要的时间，再给定一个整数 num，表示画匠的数量，每个画匠只能画连在一起的画作。

使用pandas将表格中的数据进行处理

给定一个二维数组matrix，里面的值不是1就是0，上、下、左、右相邻的1认为是一片岛，返回matrix中岛的数量。

数据统计之月增用户统计

摆放着n堆石子。