当前位置：代码网 > 科技>人工智能>数据分析 > 聚类分析（文末送书）

聚类分析（文末送书）

2024年08月04日 • 数据分析 •我要评论

聚类分析是一种寻找数据之间内在结构的技术，将数据对象的集合分组为由类似的对象组成的多个类的分析过程。聚类把全体数据实例组织成一些相似组，而这些相似组被称作簇。处于相同簇中的数据实例彼此相同，处于不同簇中的实例彼此不同。聚类技术通常又被称为无监督学习，与监督学习不同的是，在簇中那些表示数据类别的分类或者分组信息是没有的。

目录

聚类分析是什么

一、定义和数据类型

聚类分析方法的性能指标

聚类分析中常用数据结构有数据矩阵和相异度矩阵

聚类分析方法分类

二、k-means聚类算法

划分聚类方法对数据集进行聚类时包含三个要点

k-means算法流程:

k-means聚类算法的特点

三、k-medoids算法

k-medoids算法特点

四、送书活动

五、抽奖规则

聚类分析是什么

一、定义和数据类型

聚类应用

市场营销: 帮助营销人员帮他们发现顾客中独特的群组，然后利用他们的知识发展目标营销项目
土地利用: 在土地观测数据库中发现相似的区域
保险: 识别平均索赔额度较高的机动车辆保险客户群组
城市规划: 通过房屋的类型、价值、地理位置识别相近的住房
地震研究: 沿着大陆断层聚类地震的震中

聚类分析方法的性能指标

可扩展性
自适应性
鲁棒性
可解释性

聚类分析中常用数据结构有数据矩阵和相异度矩阵

聚类分析方法分类

基于划分、基于分层、基于密度、基于网络、基于模型

二、k-means聚类算法

划分聚类方法对数据集进行聚类时包含三个要点

选定某种距离作为数据样本间的相似性度量
选择评价聚类性能的准则函数
选择某个初始分类，之后用迭代的方法得到聚类结果，使得评价聚类的准则函数取得最优值

标准测试函数：

均值：

k-means算法流程:

输入:包含n个对象的数据集聚类个数k，最小误差e
输出:满足方差最小标准的k个聚类
①从n个数据对象中随机选出k个对象作为初始聚类的中心
②将每个类簇中的平均值作为度量基准，重新分配数据库中的
数据对象
③计算每个类簇的平均值，更新平均值
④循环(2)(3)，直到每个类簇不在发生变化或者平均误差小于e

k-means聚类算法的特点

三、k-medoids算法

基本思想

k-medoids算法是一种聚类算法，与k-means算法相似，但它选择的中心点是簇中实际的数据点，而不是像k-means那样选择簇中心点的均值。

其基本思想是，给定一个数据集和聚类数k，随机选择k个点作为初始中心点，然后迭代以下两个步骤直到收敛：

1. 对于每个数据点，计算其与各中心点的距离，并将其划分到距离最近的簇中。

2. 对于每个簇，选择一个代表点（即中心点）来替换原来的中心点，使得代表点到簇中其他点的距离之和最小。

这个过程是一种优化过程，每次迭代会使得簇内的样本距离代表点更近，而簇间的距离更远，最终达到收敛。

与k-means算法不同，k-medoids算法不是适用于高维数据集，因为在高维空间中，欧几里得距离的性质会失效，需要使用更加复杂的距离度量方式。

k-medoids算法特点

四、送书活动

详情了解：《python从入门到精通（微课精编版）（软件开发视频大讲堂）》(前沿科技)【摘要书评试读】- 京东图书

五、抽奖规则

赞 (0)

相关文章:

【mmdetection小目标检测教程】四、修改配置文件，训练专属于你的目标检测模型

【mmdetection小目标检测教程】四、修改配置文件，训练专属于你的目标检测模型…

2024年08月04日 • 人工智能
【目标检测-复制粘贴数据增强】

在目标检测、分类和分割任务中，复制粘贴数据增强（Copy-Paste Data Augmentation）是一种创新的数据增广技术，它通过将训练集中的一部分物体... [阅读全文]
试读：目标检测定义及技术详解

试读：目标检测定义及技术详解…

2024年08月04日 • 人工智能
【深度学习】图形模型基础(5)：线性回归模型第四部分：预测与贝叶斯推断

本文探讨了贝叶斯推断的三个关键：结合数据形成后验分布、模拟传播不确定性、应用先验整合信息。以选举预测为例，展示`stan_glm`模拟验证参数估计。讨论了回归系... [阅读全文]
如何对TensorFlow_DataSets下的MNIST数据集进行画图

这里的代码首先使用tensorflow_datasets （简称tfds）读取mnist数据集，需要注意的是第一次读取过程中需要从服务器上下载数据，因此会比较慢... [阅读全文]
零基础入门转录组数据分析——数据处理（GEO数据库——高通量测序数据）

GEO数据库中高通量数据处理（结合了官方和自己理解），包括：基因symbol转化，获取count，fpkm处理，设置分组信息表。…

2024年08月04日 • 人工智能

版权声明：本文内容由互联网用户贡献，该文观点仅代表作者本人。本站仅提供信息存储服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 2386932994@qq.com 举报，一经查实将立刻删除。

发表评论


验证码：

Copyright © 2017-2026 代码网保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱：2386932994@qq.com