数据挖掘期末5_C/C++

聚类分析

数据聚类及离群点检测：什么是聚类分析：聚类的功能聚类的分类：基于划分的方法（k-means) 基于层次的方法（agens,dina) 基于密度的方法（dbscan) 基于网格的方法
1. 聚类：就是将数据分个簇，使得在同一个簇内对象之间具有较高的相似度，而不同簇之间的对象差别较大
2. 无监督学习
3. 聚类分析的目的是：寻找数据中潜在的自然分组结构
4. 聚类的分类：
  1. 基于划分方法
    1. 给定一个有n个对象的数据集，划分聚类技术将构造数据k个划分，每一个划分就代表一个簇，k $\leq$ n.
    2. 基本思路：对于给定的k,算法首先给出一个初始的划分方法，以后通过反复迭代的方法改变划分，使得没一次改进之后的划分方案都较前一次更好
    3. 经典的算法有：k-means（k-均值）、k-medoids（k-中心点）
  2. 基于层次的方法
    1. 层次聚类方法对给定的数据集进行层次的分解，直到某种条件满足为止
    2. 凝聚的层次聚类：是一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，知道某个终结条件被满足，agnes算法
    3. 分裂的层次聚类：采用自顶向下的策略，它首先将所有对象置于一个簇中然后逐渐细分为越来越小的簇，直到达到了某个终止条件，diana算法
  3. 基于密度的方法
    1. 密度聚类的指导思想：只要一个区域中的点的密度大于某个阈值，就把它加到与之相近的聚类中去
    2. 算法的优点：能克服基于距离的算法只能发现”类圆形“的聚类的缺点，可发现任意形状的聚类，且对噪声数据不敏感，dbscan算法
  4. 基于网络的方法
    1. 将对象空间量化为有限数目的单元，形成一个网络结构，所有聚类都在这个网格结构中上进行
k-means算法 a.初始中心点簇分配更改中心值
1. 任意选取k个点作为类中心点（簇的平均值）【一般是数据集中随机抽取】
2. 将每个点分配到最近的类中心点，这样就形成了k个类，然后重新计算每个类的中心点【即更新簇的平均值】
  1. 可用欧氏距离计算，用每个维度的平均值重新计算每个类的中心点
3. 重复第二步，直至类不发生变化，【或者可设置最大迭代次数，这样及时类中心点发生变化，但是达到最大迭代次数就会结束】
kmeans算法优点：简单，快速缺点:对k值敏感，对初始中心敏感无法发生非高斯簇，对离群点敏感。
1. 优点：
  1. 经典算法，简单、快速
  2. 对处理大数据集，该算法是相对可伸缩和高效率的
2. 缺点：
  1. k值敏感，要事先主观给出
  2. 初值敏感
  3. 不适合非球形状或者大小差别很大的簇
  4. 对于孤立点和噪声敏感
dbscan算法：基本思想：密度相连
dbscan流程：（了解）
1. 从数据库中抽取一个未处理的过的点
2. 如果抽出的点是核心点，找出从该点密度可达的对象形成一个簇
3. 如果抽出的点是边缘点，重复第1、2步
4. 当所有点都被处理结束
dbscan优点：可以发现任意形状的簇，可以检测噪声无需设置k的个数 ,缺点：很难设置参数。
1. 缺点：
  1. 对参数eps和minspt非常敏感，但是这两个参数选取主要依靠主管判断
  2. 如果数据库比较大的时候要进行大量的i/o开销
离群点检测：什么是离群点。
1. 离群点是一个数据对象，它显著不同于其它数据对象，好像它是被不同机制产生的一样
离群点的分类：全局离群点，局部离群点，集体离群点。
1. 全局离群点：跟别的点一点关系都没有
2. 局部离群点：对全局来说不是离群点，但是对某个簇说是离群点
3. 集体离群点：某一个集体和其他不同
检测方法：基于统计的方法基于距离的方法基于偏差的方法基于密度的方法（lof算法）。
- 基于统计学的孤立点检测
- 基于距离的孤立点的检测
- 基于偏离的孤立点检测
- 基于密度判断

深度学习——残差网络（ResNet）原理讲解+代码（pytroch）

残差的思想都是去掉相同的主体部分，从而突出微小的变化。从信息论的角度讲，由于DPI（数据处理不等式）的存在，在前向传输的过程中，随着层数的加深，Feature Map包含的图像信息…

2024年07月28日 • 编程语言

深度学习中常见的九种交叉验证方法汇总

深度学习中常见的九种交叉验证方法汇总 [阅读全文]

一文掌握ReLU激活函数：深度学习中不可或缺的神器

ReLU，全称为修正线性单元(Rectified Linear Unit)，在深度学习领域中，是一种非常普遍且重要的激活函数，在众多神经网络模型中广泛应用。Re... [阅读全文]

全网最新！| 深度学习发展史（1943-2024编年体）（The History of Deep Learning）

深度学习是人工智能领域的一个重要分支，它在图像识别、语音识别、自然语言处理等方面取得了显著的进展。学习任一门知识都应该先从其历史开始，把握了历史，也就抓住了现在与未来。那么深度学…

2024年07月28日 • 编程语言

MATLAB语音识别matlab语音识别，可以识别数字0-9，有gui界面

通过对这些统计结果的分析，用户可以对语音识别系统的性能进行评估，并进行相应的优化和改进。通过该程序，用户可以准确地识别从0到9的数字。无论是对于语音识别技术的研... [阅读全文]

MATLAB数字语音识别系统

本设计为基于MATLAB的HMM语音信号识别，可以识别0-9十个阿拉伯数字，带有一个丰富的人机交互GUI界面。算法流程为：显示原始波形图……显示语音结束处放大波... [阅读全文]


验证码：

验证码：

数据挖掘期末5

2024年07月28日 • C/C++ •我要评论

聚类分析

相关文章:

深度学习——残差网络（ResNet）原理讲解+代码（pytroch）

全网最新！| 深度学习发展史（1943-2024编年体）（The History of Deep Learning）

发表评论