当前位置: 代码网 > it编程>前端脚本>Python > 【Python数分实战】关于电商产品运营数据的探索

【Python数分实战】关于电商产品运营数据的探索

2024年08月02日 Python 我要评论
可一键运行复现的 电商产品运营 Notebook 数据分析项目

📣 前言

  • 👓 可视化主要使用 plotly
  • 🔎 数据处理主要使用 pandas
  • 🕷️ 数据爬取主要使用 requests
  • 👉 本文是我自己在和鲸社区的原创

今天这篇文章将给大家介绍【关于电商产品运营数据的探索
案例。

step 1. 导入模块

import pandas as pd
import plotly.express as px

step 2. 数据概览

数据下载:查看文章末尾获取


file_path = '/home/mw/input/bestbuy5195/best buy products.csv'
df = pd.read_csv(file_path)

df.head()

输出结果:
《》

step 3.数据分析可视化

3.1 价格分布

绘制最终价格(final_price)的分布图,以了解产品的价格范围

# 将 final_price 转换为数值类型,通过去除货币符号和逗号
df['final_price'] = df['final_price'].str.replace('$', '').str.replace(',', '').astype(float)

# 将 discount 转换为数值类型,通过去除前缀 'save ' 和逗号
df['discount'] = df['discount'].str.replace('save ', '').str.replace(',', '').str.replace('$', '')
df['discount'] = df['discount'].apply(lambda x: float(x) if isinstance(x, str) and x.isdigit() else float('nan'))
# 将 rating 转换为数值类型
df['rating'] = pd.to_numeric(df['rating'], errors='coerce')

# 将 reviews_count 和 questions_count 转换为数值类型
df['reviews_count'] = pd.to_numeric(df['reviews_count'], errors='coerce')
df['questions_count'] = pd.to_numeric(df['questions_count'], errors='coerce')

# 再次查看前几行以确保数据类型正确
df.head()

输出结果:
《》

fig = px.histogram(df, x='final_price', nbins=30, marginal='rug', title='distribution of final prices')
# 更新字体样式
fig.update_layout(
    template="plotly_white",
    font=dict(
        size=14,
        color="#000000"
    )
)
fig.update_layout(xaxis_title='final price', yaxis_title='frequency')
fig.show()

输出结果:
《》

从最终价格的分布图中可以看出,大部分产品的价格集中在较低的区域,尤其是在0到500美元之间。还有一些产品的价格超过了这个范围,但数量相对较少。

3.2 折扣情况

绘制折扣(discount)的分布图,查看折扣的普遍情况

输出结果:
《》

折扣分布图显示,大部分的折扣都集中在较小的数值范围内,尤其是在0到200美元之间。这表明虽然许多产品都有折扣,但大多数折扣的金额并不是很高。

3.3 品类分布

对产品所属的品类(root_category)进行计数,看看哪些类别的产品最多。

root_category_counts = df['root_category'].value_counts().reset_index()
root_category_counts

输出结果:
《》
在这里插入图片描述

品类分布图显示,某些品类下的产品数量远多于其他品类。在顶部的是产品数量最多的品类,而其他品类则相对较少。具体来说,排在前面的品类如 “appliances”(家电)和 “computers & tablets”(电脑和平板)等,这些品类的产品数量较多。

3.4 评分分布

绘制产品评分(rating)的分布图,了解产品的整体评分情况。

输出结果:《》

产品评分的分布图显示,大部分产品的评分集中在较高的区域,尤其是在4到5星之间。这表明在数据集中的产品大多数都获得了较高的评分。

3.5 评价数量和提问数量

分析评价数量(reviews_count)和提问数量(questions_count)之间的关系。

输出结果:《》

从评价数量与提问数量之间的关系散点图中可以看出,随着评价数量的增加,提问数量也呈现出一定的增加趋势。这表明产品受到的关注度越高,用户提出的问题也越多。

完整代码👇

https://www.heywhale.com/mw/project/661dded9d60ce3fe5b02b428

ps:访问链接点击【在线运行】即可查看完整代码,且不需要担心环境配置问题

数据获取方式

关注公众号,回复关键词【电商产品运营数据】即可免费获取

- end -

以上就是本期为大家整理的全部内容了,喜欢的朋友可以点赞、点在看也可以分享让更多人知道。
在这里插入图片描述
👆 关注**「布鲁的python之旅」**第一时间收到更新

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com