Pandas数据如何读取与导出_Python

pandas数据读取与导出

pandas 是一个强大的 python 库，用于数据处理和分析。它提供了许多函数来读取和导入数据，支持多种文件格式，如 csv、excel、sql 数据库、json 等。

以下是一些常用的数据读取和导出方法：

常用方法

格式	文件格式	读取函数	写入（导出）函数
binary	excel	read_excel	to_excel
text	csv	read_csv read_table	to_csv
text	json	read_json	to_json
text	网页表格html	read_html	to_html
text	剪切板	read_clipboard	to_clipboard
sq!l	sql	read_sql	to_sql
xml	read_xml		read_xml
text	markdown		to_markdown

其中：

读取函数一般会赋值给一个变量 df, df = pd.read_()
输出函数是将变量自身进行操作并输出 df.to_()

常用函数方法

excel 对象

~ pd.excelfile 对象
~ pd.excelwriter 对象
~ pd.excelwriter 对象的属性和方法

读取数据

~ pd.read_csv()
~ pd.read_excel()
~ pd.json_normalize()
~ pd.read_pickle()
~ pd.read_table()
~ pd.dataframe.from_dict() 从字典创建 dataframe
~ pd.read_clipboard() 从剪贴板读取数据
~ pd.read_json() 读取 json
~ pd.read_sql() 读取数据库数据
~ pd.read_fwf() 读取固定宽度格式文件
~ pd.read_html() 从 html 文档提取表格数据
~ pd.read_parquet() 读取 parquet 文件

导出数据

~ to_csv() 导出为 csv文件
~ to_excel() 导出为 excel 文件
~ to_dict() 输出字典
~ to_pickle() 序列化为 pickle 文件
~ to_json() 转换为 json 格式字符串
~ to_html() 转换为 html 表格格式
~ to_sql() 写入到关系型数据库
~ to_parquet() 保存为 parquet 文件

数据读取

读取 csv 文件

import pandas as pd
 
df = pd.read_csv('file.csv')
# 可以使用参数来调整读取行为，如分隔符、缺失值标记、列名等

读取 excel 文件

df = pd.read_excel('file.xlsx', sheet_name='sheet1')
# 可以指定工作表名称或索引，或者使用 sheet_name=none 来读取所有工作表

从 sql 数据库读取

import sqlite3  # 或其他数据库连接库
 
conn = sqlite3.connect('database.db')
df = pd.read_sql_query('select * from table_name', conn)
conn.close()
# 对于其他数据库，如 mysql、postgresql，需要使用相应的连接库和驱动

读取 json 文件

df = pd.read_json('file.json')
# 可以使用 orient 参数来指定 json 数据的布局

读取 html 表格

df = pd.read_html('http://example.com/page_with_table.html')[0]
# read_html 返回一个 dataframe 列表，通常使用索引 [0] 来获取第一个表格

从剪贴板读取

df = pd.read_clipboard()
# 这对于从 excel 等应用程序中复制数据特别有用

数据导出

导出到 csv 文件

df.to_csv('output_file.csv', index=false)
# index=false 表示不导出 dataframe 的索引

导出到 excel 文件

df.to_excel('output_file.xlsx', sheet_name='sheet1', index=false)
# 可以指定工作表名称和其他选项，如引擎（对于较新的 pandas 版本，默认引擎为 'openpyxl'）

导出到 sql 数据库

conn = sqlite3.connect('database.db')
df.to_sql('table_name', conn, if_exists='replace', index=false)
conn.close()
# if_exists 参数可以是 'fail'（如果表存在则引发错误）、'replace'（替换表）、'append'（在表中添加数据）

导出到 json 文件

df.to_json('output_file.json', orient='records', lines=true)
# orient 参数可以指定 json 数据的布局，lines=true 表示每行是一个 json 对象

导出到 html 文件

with open('output_file.html', 'w') as f:
    f.write(df.to_html())
# 也可以使用 pandas 提供的 to_html() 方法生成 html 字符串，然后保存到文件中

导出到 excel 的多个工作表

with pd.excelwriter('output_file_with_sheets.xlsx') as writer:
    df1.to_excel(writer, sheet_name='sheet1', index=false)
    df2.to_excel(writer, sheet_name='sheet2', index=false)
# 使用 excelwriter 上下文管理器可以方便地写入多个工作表

注意事项：

文件路径：确保文件路径正确，并且程序有适当的读写权限。
数据类型：在导出时，注意数据类型的兼容性，特别是当数据包含特殊字符或日期时间类型时。
依赖项：某些导出方法（如到 sql 数据库）可能需要额外的库和数据库驱动。
性能：对于大型数据集，导出到某些格式（如 excel）可能会很慢，并且可能会受到内存限制。在这种情况下，考虑将数据分批导出或使用更适合大数据集的格式（如 csv）。