python画箱线图展示数据分布情况
箱线图(boxplot)是一种常用的统计图表,用于展示数据的分布情况。
它由五个统计量组成:
最小值、第一四分位数(q1)、中位数(q2)、第三四分位数(q3)和最大值。
通过这些统计量,可以直观地了解数据的集中趋势、离散程度以及是否存在异常值。
构成要素
1.中位数(q2):
- 箱线图中的中间线代表数据的中位数,即将数据按大小排列后中间位置的数值。
2.四分位数(q1和q3):
- 箱体的上边界(q3)和下边界(q1)分别表示数据的第三四分位数和第一四分位数。
- 箱子的高度即为四分位距(iqr),是q3和q1的差值,用来衡量数据的离散程度。
3.盒须:
- 箱体外部的直线(盒须)延伸至数据集的最大值和最小值,用来显示非异常值的范围。
- 盒须外部的点表示可能的异常值,即相对于主体数据分布偏离较大的数据点。
4.异常值:
- 在盒须外部的点表示可能存在的异常值,即与其他数据点相比显著偏离的数据。
使用场景
箱线图常用于以下情况:
- 数据分布比较:可以同时比较多组数据的分布情况,帮助观察各组数据的中位数、四分位数和离散程度。
- 异常值检测:通过观察箱体外部的点,可以快速发现可能的异常值或离群点。
- 数据分散度分析:箱体的长度和位置反映了数据的分散程度,有助于对数据的离散程度进行比较。
# 创建示例数据
data = {
'group': ['a'] * 11 + ['b'] * 10 + ['c'] * 10,
'value': [23, 25, 19, 21, 24, 27, 22, 20, 21, 24, -1, # group a
30, 28, 36, 31, 34, 29, 35, 33, 32, 30, # group b
15, 17, 14, 16, 13, 18, 14, 15, 17, 16] # group c
}
# 转换为 dataframe
df = pd.dataframe(data)
# 设置绘图风格
sns.set(style="whitegrid")
# 绘制箱线图
plt.figure(figsize=(10, 6))
sns.boxplot(x='group', y='value', data=df)
# 添加标题和标签
plt.title('box plot of three groups')
plt.xlabel('group')
plt.ylabel('value')
# 显示图表
# plt.show()
plt.savefig('./boxplot_seaborn.png')
- 中位数(箱体内部的横线):每个组的数据中间值。
- 四分位数(箱体的上下边缘):分别表示25%和75%的数据点。
- 最小值和最大值(盒须的末端):除去异常值后数据的范围。
- 异常值(箱体外的点):与其他数据点相距较远的数值。
自定义箱线图
print('自定义箱线图')
# 示例数据
data = [
{'min': 10, '50%': 50, 'mean': 55, '95%': 90, '99%': 97, 'max': 100},
{'min': 20, '50%': 60, 'mean': 65, '95%': 85, '99%': 92, 'max': 95},
{'min': 5, '50%': 40, 'mean': 45, '95%': 80, '99%': 88, 'max': 90}
]
# 准备箱线图数据
box_data = []
means = []
positions = []
for i, d in enumerate(data):
box_data.append([d['min'], d['50%'], d['95%'], d['99%'], d['max']])
means.append(d['mean'])
positions.append(i + 1)
# 创建图形
fig, ax = plt.subplots()
# 绘制箱线图主体
ax.boxplot(box_data, vert=false, positions=positions, patch_artist=true, showmeans=false,
meanline=true, widths=0.6)
# 添加均值点
for i, mean in enumerate(means):
ax.plot(mean, positions[i], 'ro')
# 设置轴标签
ax.set_yticks(np.arange(1, len(data) + 1))
ax.set_yticklabels([f'data {i + 1}' for i in range(len(data))])
# 添加标题和标签
plt.title('custom box plot with multiple data sets')
plt.xlabel('value')
# 显示图形
plt.show()
plt.savefig('./boxplot_auto.png')
print('自定义箱线图')
plt.clf() # 清除当前图形内容
# 数据
# min、50%、mean、95%、99%、max
data = [
{'data1':[10,50,44,90,97,100]},
{'data2':[20,60,65,85,92,95]},
{'data3':[5,40,45,80,88,90]}
]
# 准备箱线图数据
box_data = [d[list(d.keys())[0]] for d in data] # 提取数据
labels = [list(d.keys())[0] for d in data]
means = [d[list(d.keys())[0]][2] for d in data]
# 创建图形
fig, ax = plt.subplots()
# 绘制箱线图主体
bp = ax.boxplot(box_data, vert=false, patch_artist=true, showmeans=true,meanline=true)
# 添加均值点
for i, mean in enumerate(means):
ax.plot(mean, i+1, 'ro')
# 设置轴标签
ax.set_yticklabels(labels)
# 添加标题和标签
plt.title('custom box plot with multiple data sets')
plt.xlabel('value')
# 显示图形
# plt.show()
plt.savefig('./boxplot_auto.png')box_data提供了要绘制的数据。vert=false表示绘制水平的箱线图。patch_artist=true使得箱线图的箱体部分被填充颜色。showmeans=true在箱线图中显示均值。meanline=true用线条表示均值。

总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持代码网。
发表评论