mann-whitney u检验
mann-whitney u检验是一种非参数统计方法,用于比较两个独立样本的分布。它特别适用于数据不满足正态分布或存在异常值的情况,是t检验的非参数替代方法。
一、起源
mann-whitney u检验由美国统计学家亨利·曼恩(henry mann)和德怀特·惠特尼(donald whitney)于1947年提出。它是wilcoxon秩和检验的独立样本版本,旨在提供一种不依赖于正态性假设的检验方法。
二、原理
mann-whitney u检验通过比较两个独立样本的秩次,评估它们是否来自同一分布。它假设两个样本的分布形状相同,只是位置参数不同。检验统计量u的计算公式为:
u = n 1 n 2 + n 1 ( n 1 + 1 ) 2 − r 1 u = n_1 n_2 + \frac{n_1 (n_1 + 1)}{2} - r_1 u=n1n2+2n1(n1+1)−r1
其中:
- n 1 n_1 n1 和 n 2 n_2 n2 分别为两个样本的样本量。
- r 1 r_1 r1 为第一个样本的秩次和。
计算出的u值需要与标准的u分布表进行比较,以确定是否拒绝零假设。较小的u值表明两个样本分布有显著差异。
三、步骤
- 数据准备:收集两个独立样本的数据。
- 合并排序:将两个样本的数据合并并按大小排序,分配秩次。
- 计算秩次和:分别计算两个样本的秩次和。
- 计算u值:使用公式计算u值。
- 确定显著性水平:选择显著性水平,查找u分布表确定临界值,比较u值与临界值。
四、应用场景
mann-whitney u检验广泛应用于各个领域,特别是在以下情况下:
- 比较两种治疗方法对患者效果的差异。
- 分析不同教学方法对学生成绩的影响。
- 评估不同市场策略对客户满意度的影响。
五、案例分析
假设我们有一组数据,包含两种不同教学方法下学生的考试成绩。我们希望通过mann-whitney u检验评估这两种教学方法对学生成绩的影响。数据如下:
教学方法a组:85, 78, 92, 88, 76
教学方法b组:80, 74, 88, 82, 78
-
数据准备:
教学方法a组:85, 78, 92, 88, 76
教学方法b组:80, 74, 88, 82, 78
-
合并排序:
合并两个样本并排序:
74, 76, 78, 78, 80, 82, 85, 88, 88, 92
-
计算秩次和:
计算两个样本的秩次和:
教学方法a组秩次和:
3 + 5 + 6 + 9 + 10 = 33 3+5+6+9+10 = 33 3+5+6+9+10=33
教学方法b组秩次和:
1 + 2 + 4 + 7 + 8 = 22 1+2+4+7+8 = 22 1+2+4+7+8=22
-
计算u值:
使用公式计算u值:
u a = n a n b + n a ( n a + 1 ) 2 − r a = 5 ∗ 5 + 5 ∗ 6 / 2 − 33 = 12 u_a = n_a n_b + \frac{n_a (n_a + 1)}{2} - r_a = 5*5 + 5*6/2 - 33 = 12 ua=nanb+2na(na+1)−ra=5∗5+5∗6/2−33=12
-
确定显著性水平:
在显著性水平0.05下,查找u分布表得出临界值为8。由于u值12 > 8,我们不能拒绝零假设,即两种教学方法对学生成绩没有显著差异。
六、python代码示例
使用python进行mann-whitney u检验,可以使用scipy
库中的mannwhitneyu
函数:
import numpy as np
from scipy.stats import mannwhitneyu
# 数据准备
group_a = np.array([85, 78, 92, 88, 76])
group_b = np.array([80, 74, 88, 82, 78])
# 计算mann-whitney u检验
u_stat, p_val = mannwhitneyu(group_a, group_b)
print(f"u统计量: {u_stat}")
print(f"p值: {p_val}")
七、r代码示例
使用r进行mann-whitney u检验,可以使用wilcox.test
函数:
# 数据准备
group_a <- c(85, 78, 92, 88, 76)
group_b <- c(80, 74, 88, 82, 78)
# 计算mann-whitney u检验
result <- wilcox.test(group_a, group_b)
print(paste("u统计量:", result$statistic))
print(paste("p值:", result$p.value))
八、注意事项
- mann-whitney u检验假设两个样本的分布形状相同,仅位置参数不同。
- 样本量较小时,u值的精确显著性水平可以通过置换检验或蒙特卡洛方法计算。
- 如果两个样本的分布形状不同,mann-whitney u检验可能不适用,建议使用其他非参数检验方法。
九、总结
mann-whitney u检验是一种强大的非参数统计方法,特别适用于比较两个独立样本的分布。通过mann-whitney u检验,研究者可以评估不同处理方法、条件或群体之间的差异,为科学研究和决策提供有力支持。
发表评论