西电数据挖掘期末复习_Python

名词解释

数据：数据一个载体，这个载体蕴含着信息。

数据集：是数据对象的集合，其中包含着数据对象。

数据对象：是用一组刻画对象基本特性的属性描述。

属性：是对象的性质或特性，用于描述数据的某个特征。

属性(特征)类型：按性质分为定位属性、定性属性、定量属性、时间属性，按表现形式分为数字数据、模拟数据。

数据类型：记录性数据，图数据，序列数据，典型的数据类型有标量、序数、区间和比率。

数据特性：维度，稀疏性，分辨率

数据约简主要策略：数据立方归并。维数约简。数据压缩。数据块约简。

相似度：是一个函数，输出一个[0,1]之间的实数值，用于量化相近程度，两个对象越接近，相似度就越高。

gini系数、信息熵、最大错误率：gini系数和信息熵是连续的，而最大错误率是不连续的。都是在p=0.5时取值最大。在两端时取值最小。以gini系数为划分准则更准确。
$x=(a_1,b_1,c_1)\\ y=(a_2,b_2,c_2)\\$
欧氏距离：
$\sqrt{(a_1-a_2)^2+(b_1-b_2)^2+(c_1-c_2)^2}$

余弦相似度：
$a_1\times a_2 +b_1\times b_2+c_1\times c_2 \over \sqrt{a_1^2+b_1^2+c_1^2} +\sqrt{a_2^2+b_2^2+c_2^2}$
jaccard相似系数：
${m_{11} \over m_{11}+m_{01}+m_{10}}$

k-means(流程)

输入：

数据集：包含 n 个样本的数据集，每个样本有 m 个特征。
聚类数 k：用户事先指定的要将数据分成的簇的数量。

输出：

k 个聚类中心：代表每个簇的中心点。
每个样本所属的簇：每个样本被分配到的聚类。

聚类过程（流程）：

初始化：随机选择 k 个样本作为初始的聚类中心。
分配：计算每个样本与 k 个聚类中心的距离，并将每个样本分配到距离最近的聚类中心所代表的簇。
更新：重新计算每个簇的中心，即将每个簇中所有样本的特征均值作为新的聚类中心。
迭代：重复步骤 2 和 3，直到满足停止条件，如达到最大迭代次数或聚类中心不再改变。

k-means 通过不断迭代优化簇的分配，使得簇内样本的相似度最大化，簇间的相似度最小化。最终得到 k 个簇的聚类结果，每个样本被归到其中一个簇中。

决策树(流程)

决策树是一种常用的机器学习算法，它可以用于分类和回归任务。在分类任务中，决策树通过对数据集进行递归的、树形结构的分割来进行分类。

基本构成：

节点（node）：代表数据集中的一个特征。
分支（branch）：代表特征的取值。
叶子节点（leaf node）：代表最终的分类结果。

分类过程：

选择特征：从数据集中选择最佳的特征来进行分割。常用的指标有信息增益、基尼不纯度等。
分割数据集：根据选定的特征和阈值，将数据集分割成不同的子集。
递归：对每个子集重复上述过程，直到满足某个终止条件，例如达到最大深度、节点样本数少于阈值等。

分类的步骤：

准备数据：收集并准备带有标签的数据集。
选择最佳特征：通过某种标准（如信息增益）选择最佳的特征来进行分割。
构建决策树：递归地构建决策树，选择最佳特征并分割数据集，直到满足停止条件。
分类：使用构建好的决策树对新样本进行分类，沿着树的分支根据特征值逐步判断，最终到达叶子节点即为分类结果。

k 折交叉验证(流程)

k 折交叉验证是一种评估机器学习模型性能的方法，可以在数据较少的情况下有效地评估模型的泛化能力。

步骤：

数据集划分：将数据集分成 k 个大小相似的子集。
循环验证：对模型进行 k 次训练和验证，每次使用其中一个子集作为验证集，其余 k-1 个子集作为训练集。
评估性能：每次训练模型后，使用验证集计算模型的性能指标（如准确率、精确率、召回率等）。
平均性能：将 k 次验证得到的性能指标取平均作为模型的最终性能评估指标。

k 折交叉验证能够更充分地利用数据集，减少因数据划分不同而引入的偶然性，提高了对模型性能的评估可靠性。

dbscan 聚类(流程)

dbscan是一种基于密度的聚类算法，其主要思想是通过样本点周围的密度来发现簇，并能识别出噪声点。

选择参数：设置半径 eps 和最小样本数 minpts。
寻找核心点：计算每个样本点的邻域，识别核心点。
扩展簇：从核心点开始，沿着密度可达的路径（相邻核心点的连接）扩展簇。
标记噪声点：将无法被核心点直接或间接连接的点标记为噪声点。

优、缺点

朴素贝叶斯(分类)：

优点：简单有效，对小样本数据效果好，对噪声数据的鲁棒性强。

缺点：朴素假设可能不符合实际情况，对特征相关性强较强的数据不适用。

决策树(分类)：

优点：利于理解和解释，能够处理数值型和类别型数据，对缺失值不敏感。

缺点：容易过拟合，不稳定，不适用特征性关系较强的数据。

knn(分类)：

优点：简单、适用广泛，对新数据集适应能力强，不需要假设数据分布情况。

缺点：计算开销大，需要大量存储空间，对异常值敏感。

k-means(聚类)：

优点：易于理解实现，计算效率高，适用广泛。

缺点：需要提前预定聚类数量k，对聚类中心和异常值敏感，可能陷入局部最优解。

dbscan (聚类)：

优点：不受初始值的影响，能够处理离群点和噪声，对任意形状的簇都有效。

缺点：对参数敏感，效率较低，簇密度过大时，无法准确识别簇的边界

apriori(关联规则)：

优点：易于理解实现，可用于大规模数据，灵活性强。

缺点：候选集庞大，需要多次扫描数据集，计算和存储开销大。

fp-tree(关联规则)：

优点：不产生候选集，只需扫描两次数据集，可处理连续值和高基数数据。

缺点：对内存要求过高，fp树构建过程可能比较缓慢。/

西电数据挖掘期末复习

2024年08月01日 • Python •我要评论