pandas 作为 python 数据分析的核心库,其数据读取功能(如 read_csv、read_excel、read_sql 等)支撑着从数据接入到价值产出的全流程。以下是其典型应用场景及实例:
一、数据加载与初步探索
场景:接入各类数据源并快速预览数据结构
实例:
import pandas as pd
df = pd.read_csv("sales_data.csv") # 读取csv文件
print(df.head()) # 查看前5行数据
print(df.info()) # 获取数据类型、缺失值等元信息
二、数据清洗与预处理
场景:处理缺失值、异常值、重复数据
实例:
df = pd.read_excel("user_data.xlsx")
df.drop_duplicates(inplace=true) # 删除重复行
df.fillna({"age": df["age"].mean()}, inplace=true) # 用均值填充缺失年龄
三、结构化数据分析
场景:统计分析、聚合计算、交叉表生成
实例:
df = pd.read_sql("select * from orders", conn) # 从数据库读取订单数据
monthly_sales = df.groupby(df["order_date"].dt.to_period("m"))["amount"].sum() # 按月汇总销售额
四、时间序列分析
场景:金融数据、传感器数据等时序数据处理
实例:
df = pd.read_csv("stock_prices.csv", parse_dates=["date"], index_col="date") # 解析日期并设为索引
df["rolling_mean"] = df["close"].rolling(window=30).mean() # 计算30天移动平均
五、机器学习数据准备
场景:特征工程、数据拆分、格式转换
实例:
df = pd.read_csv("titanic.csv")
x = df[["pclass", "age", "fare"]] # 提取特征
y = df["survived"] # 提取标签
x = pd.get_dummies(x, columns=["pclass"]) # 独热编码分类特征
六、报表自动化与数据导出
场景:生成动态报告、数据格式化输出
实例:
df = pd.read_json("api_response.json") # 读取api返回的json数据
summary = df.describe().t # 生成统计摘要
summary.to_excel("analysis_report.xlsx") # 导出为excel报表
七、多源数据集成
场景:合并不同格式/来源的数据集
实例:
df1 = pd.read_csv("sales_2023.csv")
df2 = pd.read_excel("sales_2024.xlsx")
combined_df = pd.concat([df1, df2], ignore_index=true) # 纵向合并两年销售数据
八、日志与非结构化数据处理
场景:解析半结构化日志数据
实例:
df = pd.read_csv("server_logs.csv", sep="|", header=none) # 自定义分隔符读取日志
df.columns = ["timestamp", "level", "message"] # 手动指定列名
九、教育与科研
场景:学术数据处理、论文图表数据准备
实例:
df = pd.read_csv("experimental_results.csv")
correlation = df[["temperature", "yield"]].corr() # 计算温度与产量的相关性
十、商业智能(bi)支撑
场景:为tableau、power bi等工具提供预处理数据
实例:
df = pd.read_parquet("large_dataset.parquet") # 高效读取大数据文件
df_filtered = df[df["region"] == "north"] # 按区域筛选数据
df_filtered.to_csv("north_region_data.csv") # 输出给bi工具
核心价值
pandas的数据读取能力不仅支持 csv/excel/json/sql/parquet 等20+种格式,更能无缝衔接后续的分析、建模和可视化流程,是数据工作流的“第一环”。
到此这篇关于pandas读取数据集的实现示例的文章就介绍到这了,更多相关pandas读取数据集内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论