python使用TensorFlow读取和批处理CSV文件_Python

一、实验目的

本次实验旨在使用 tensorflow 库读取 csv 文件，并将其数据以批次的形式进行处理和展示。通过该实验，我们希望掌握 tensorflow 中 tf.data.textlinedataset 的使用方法，以及如何解析 csv 数据并进行批量处理。

二、实验环境

编程语言：python
主要库：tensorflow、os
操作系统：windows
实验数据：位于 c:\users\30597\desktop\sye\people.csv 的 csv 文件，包含 name、age 和 occupation 三列数据。

三、实验步骤

1. 导入必要的库

import tensorflow as tf
import os

导入 tensorflow 库用于数据处理，os 库用于文件路径验证。

2. 定义 csv 读取函数

def csv_reader(file_path, batch_size=2):
    # 1. 创建dataset并跳过表头
    dataset = tf.data.textlinedataset(file_path).skip(1)
 
    # 2. 定义csv解析函数
    def parse_line(line):
        record_defaults = [
            tf.constant(["unknown"], tf.string),  # name列
            tf.constant([0], tf.int32),  # age列
            tf.constant(["unknown"], tf.string)  # occupation列
        ]
        fields = tf.io.decode_csv(line, record_defaults)
        return fields
 
    # 3. 应用解析和批处理
    dataset = dataset.map(parse_line)
    dataset = dataset.batch(batch_size, drop_remainder=false)
    return dataset

创建 dataset 并跳过表头：使用 tf.data.textlinedataset 读取 csv 文件的每一行，并通过 skip(1) 跳过表头。
定义 csv 解析函数：parse_line 函数使用 tf.io.decode_csv 解析每一行数据，同时指定每列的默认值。
应用解析和批处理：使用 map 方法将解析函数应用到每个数据行，再使用 batch 方法将数据分成指定大小的批次。

3. 主程序逻辑

if __name__ == "__main__":
    # 指定具体文件路径
    csv_path = r"c:\users\30597\desktop\sye\people.csv"
 
    # 验证文件存在性
    if not os.path.exists(csv_path):
        raise filenotfounderror(f"csv文件未找到：{csv_path}")
 
    # 创建数据集
    dataset = csv_reader(csv_path, batch_size=2)
 
    # 迭代数据批次
    for batch_num, (names, ages, occupations) in enumerate(dataset):
        print(f"\n批次 {batch_num + 1}:")
 
        # 将字节字符串解码为普通字符串
        names_str = [name.decode('utf-8') for name in names.numpy()]
        occupations_str = [occ.decode('utf-8') for occ in occupations.numpy()]
 
        print("姓名：", names_str)
        print("年龄：", ages.numpy().tolist())
        print("职业：", occupations_str)

指定文件路径并验证存在性：使用 os.path.exists 函数检查 csv 文件是否存在，若不存在则抛出 filenotfounderror 异常。
创建数据集：调用 csv_reader 函数创建数据集。
迭代数据批次：遍历数据集的每个批次，将字节字符串解码为普通字符串，并打印每个批次的姓名、年龄和职业信息。

四、实验结果

实验成功读取了指定的 csv 文件，并将数据按批次处理和展示。每个批次包含两条记录，分别显示了姓名、年龄和职业信息。若 csv 文件中存在缺失值，将使用默认值进行填充。

五、实验总结与反思

优点

使用 tensorflow 的 tf.data 模块：该模块提供了高效的数据处理和迭代功能，能够方便地处理大规模数据集。
数据解析和批处理：通过定义解析函数和使用 map、batch 方法，实现了数据的自动解析和批量处理，提高了代码的可读性和可维护性。
文件路径验证：在读取文件前进行路径验证，避免了因文件不存在而导致的运行时错误。

不足与改进方向

错误处理：当前代码仅处理了文件不存在的情况，对于 csv 文件格式错误、数据类型不匹配等异常情况未进行处理。可以添加更多的异常处理逻辑，提高代码的健壮性。
代码可扩展性：代码中硬编码了 csv 文件的列数和默认值，若 csv 文件的结构发生变化，需要手动修改代码。可以考虑将列信息和默认值作为参数传递给 csv_reader 函数，提高代码的可扩展性。
性能优化：对于大规模数据集，当前的批处理方式可能会导致内存占用过高。可以考虑使用 prefetch 方法进行数据预取，提高数据处理的性能。

总体而言，本实验通过使用 tensorflow 成功实现了 csv 文件的读取和批处理，为后续的数据处理和分析奠定了基础。

以上就是python使用tensorflow读取和批处理csv文件的详细内容，更多关于python tensorflow读取csv的资料请关注代码网其它相关文章！