当前位置: 代码网 > it编程>前端脚本>Python > pandas批量拆分与合并Excel文件的实现示例

pandas批量拆分与合并Excel文件的实现示例

2025年11月25日 Python 我要评论
一、pandas 进行索引和切片的iloc、loc方法iloc是基于整数位置进行索引和切片的方法它允许您使用整数来访问 dataframe 或 series 中的特定行和列import pandas

一、pandas 进行索引和切片的iloc、loc方法

iloc是基于整数位置进行索引和切片的方法
它允许您使用整数来访问 dataframe 或 series 中的特定行和列

import pandas as pd

# 创建示例 dataframe
df = pd.dataframe({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]})

# 使用 iloc 访问特定行和列
value = df.iloc[0, 1]  # 获取第一行、第二列的值
row = df.iloc[1]  # 获取第二行的所有列
col = df.iloc[:, 2]  # 获取第三列的所有值
slice_df = df.iloc[1:3, 0:2]  # 获取第二行到第三行、第一列到第二列的切片

print(value)  # 输出: 4
print(row)  # 输出: a    2\nb    5\nc    8\nname: 1, dtype: int64
print(col)  # 输出: 0    7\n1    8\n2    9\nname: c, dtype: int64
print(slice_df)
# 输出:
#    a  b
# 1  2  5
# 2  3  6

loc是基于标签进行索引和切片的方法。
它允许您使用标签来访问 dataframe 或 series 中特定的行和列

import pandas as pd

# 创建示例 dataframe
df = pd.dataframe({'a': [1, 2, 3], 'b': [4, 5, 6], 'c': [7, 8, 9]}, index=['a', 'b', 'c'])

# 使用 loc 访问特定行和列
value = df.loc['a', 'b']  # 获取索引为 'a',列为 'b' 的值
row = df.loc['b']  # 获取索引为 'b' 的所有列
col = df.loc[:, 'c']  # 获取列标签为 'c' 的所有值
slice_df = df.loc['b':'c', 'a':'b']  # 获取索引为 'b' 到 'c',列标签为 'a' 到 'b' 的切片

print(value)  # 输出: 4
print(row)  # 输出: a    2\nb    5\nc    8\ndtype: int64
print(col)  # 输出: a    7\nb    8\nc    9\nname: c, dtype: int64
print(slice_df)
# 输出:
#    a  b
# b  2  5
# c  3  6

二、pandas批量拆分与合并excel文件

将一个大excel等分,拆成多个excel
将多个小excel合并并标记来源

import pandas as pd

df_path = '/users/python/desktop/means/ml-25m/ratings.csv'
df_source = pd.read_csv(df_path)
df_source.head()

	userid	movieid	rating	timestamp
0	1	296	5.0	1147880044
1	1	306	3.5	1147868817
2	1	307	5.0	1147868828
3	1	665	5.0	1147878820
4	1	899	3.5	1147868510
df.index    查看索引信息  总共行数1000209
rangeindex(start=0, stop=1000209, step=1)
df.shape    查看总的行列信息  总共1000209行 4列 
(1000209, 4)

获取总的行数信息
total_row_count = df.shape[0]
total_row_count

1000209

二、 将一个大的excel 等分拆成多个excel

计算拆分后每个excel的行数 (可能除不尽 取余 + 1)
user_names = ["zhangsan", "lisi", "wanger", 'mazi']
split_size = total_row_count // len(user_names)
if total_row_count % len(user_names) != 0:
    split_size += 1
拆分多个dataframe 

for idx, user_name in enumerate(user_names):
    begin = idx * split_size
    end = (idx + 1 ) * split_size    
    df_sub = df_source.iloc[begin:end]
    df_subs.append((idx, user_name, df_sub))
将多个datafame 写入csv

for idx, user_name, df_sub in df_subs:
    file_name = f'/users/python/desktop/means/ml-25m/ratings_{user_name}.csv'
    df_sub.to_csv(file_name, index=false)

三、 将多个excel合并成一个大的excel

1. 便利文件夹,得到要合并的excel 文件列表
2. 分别去读到dataframe, 给每个df添加一列用于标记来源
3. 使用pd.concat 进行批量合并
4. 将合并到的dataframe 输入到excel
读取要合并的excel,并添加username 列

df_list = []
fnames = ['ratings_mazi.csv', 'ratings_zhangsan.csv', 'ratings_lisi.csv','ratings_wanger.csv','ratings_mazi.csv']
for fname in fnames:
    file_name = f'/users/python/desktop/means/ml-25m/{fname}'
    df_split = pd.read_csv(file_name)
    username = fname.replace("ratings_", '').replace(".csv", '')
    df_split['username'] = username
    df_list.append(df_split)
使用pd.concat 进行合并
df_merged = pd.concat(df_list)

df_merged.shape    查看总的行列信息    总共1000209行 4列 
df_merged.head()   查看合并后的前几行信息

	userid	movieid	rating	timestamp	username
0	5109	508	3.0	840577637	mazi
1	5109	519	2.0	840577227	mazi
2	5109	524	2.0	840577346	mazi
3	5109	527	3.0	840576285	mazi
4	5109	529	3.0	840576680	mazi


df_merged['username'].value_counts() 查看username 的取值种类

username
mazi        500106
zhangsan    250053
lisi        250053
wanger      250053
name: count, dtype: int64
将合并后的dataframe输入到excel中

df_merged.to_csv('/users/python/desktop/means/ml-25m/ratings_merged.csv', index=false)

到此这篇关于pandas批量拆分与合并excel文件的文章就介绍到这了,更多相关pandas批量拆分与合并excel内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2026  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com