YOLO-V5分类实战系列 —— 快速训练自己的数据集_数据分析

yolo-v5 训练自己的分类模型

1、获取官方源码

2、测试官方源码

下图是官方的代码结构（v7.0），文件夹【classify】存放分类的相关代码，包括训练代码 train.py，预测代码 predict.py，评估代码 val.py，

在这里插入图片描述

2.1、公开数据集测试源码

按照上述代码结构，进入【classify】文件夹，打开训练脚本【train.py】。根据训练脚本最上面的注释内容：可以使用官方数据集，也可以使用自己的数据集，以及单卡和多卡的训练命令，

在这里插入图片描述

官方训练命令如下，

python classify/train.py --model yolov5s-cls.pt --data cifar10 --epochs 5 --img 224

运行上述命令，会【自动下载】所需的数据集【cifar10】和模型文件【yolov5s-cls.pt】。下载完成后，数据的存放结构如下图所示，包含测试集【test】和训练集【train】。注意，参考官方的数据存放结构，后续存放自己的数据集

在这里插入图片描述

如下图所示，每一个文件夹内，存放一个类别的图片

在这里插入图片描述

训练过程如下，训练基本正常，

在这里插入图片描述

3、源码模块解析

3.1、数据读取

训练类别数量：数据路径【data_dir/train】下的文件夹数量等同于训练的类别数量（存放数据时应该注意），具体代码如下：
```
nc = len([x for x in (data_dir / 'train').glob('*') if x.is_dir()])  # number of classes
```
数据读取

3.2、网络结构

分类网络【yolov5-cls 】的网络结构如下图所示，只用了目标检测网络的主干部分。基础模块包括：c3，cbs，其详细的结构，可以参考之前写的博文，yolo-v5 系列算法和代码解析（四）—— 网络结构
在这里插入图片描述

4、快速开始训练自己的数据

按照在官方数据集上的测试过程，要想快速开始训练，只要两方面的准备：（1）准备好自己的数据集；（2）配置部分训练参数。具体的过程在以下章节陈述

4.1、准备自己的数据

根据【2.1】节的陈述，依据官方数据的组织结构来存放自己的数据集，每一个文件夹放一个类别的图片。【mono_demo】就是存放自己的训练数据的根目录名称，也是训练时传入的数据标志。存放的结构如下图所示，

在这里插入图片描述

4.2、配置训练参数

为了训练自己的数据集，首先保证官方代码能够在自己的数据集上正常训练，并且达到基本的训练效果即可（判断标志就是网络能够正常收敛），之后再进行网络调优。所以，这一章节的目的是让官方源码在自己的数据集上快速开始训练，并且能够得到基本的训练效果。为此，修改训练脚本（train.py）的部分训练参数，具体如下，

模型选择，默认是 yolov5-cls.pt，也可以是 efficient-b0,b1,b2,b3，resnet18，

parser.add_argument('--model', type=str, default='yolov5s-cls.pt', help='initial weights path')

修改训练数据路径

parser.add_argument('--data', 
                    type=str, 
                    default='mono_demo', 
                    help='cifar10, cifar100, mnist, imagenet, etc.')

根据自己的需要，修改如下参数

parser.add_argument('--epochs', type=int, default=10)
parser.add_argument('--batch-size', type=int, default=64, help='total batch size for all gpus')
parser.add_argument('--imgsz', '--img', '--img-size', 
					type=int, 
					default=224, 
					help='train, val image size (pixels)')

根据是否需要预训练，修改参数

parser.add_argument('--pretrained', nargs='?', const=true, 
					default=true, 
					help='start from i.e. --pretrained false')

配置完参数后，开启训练，过程如下，从精度来看，基本正常，达到最基本的效果，

在这里插入图片描述

4.3、模型推理和评估

训练完成模型后，通常要经常进行推理和评估，根据结果评估模型，并且作为后续优化的参考

模型预测：

python classify/predict.py --weights runs/train-cls/exp24/weights/best.pt --source im.jpg

模型评估：

python classify/val.py --weights runs/train-cls/exp24/weights/best.pt --data datasets/biaozhu_train_1

训练可视化：

tensorboard --logdir=runs/train-cls/exp34

数据分析：旅游景点销售门票和消费情况分析

旅游景区作为旅游业持续发展的重要载体,在旅游业中起到中流砥柱的作用。随着人们的生活水平的不断提升,对旅游服务质量的要求也越来越高,特别是在旅游景区,大部分游客已经不再满足于现有的旅…

2024年08月05日 • 人工智能

社交网络分析：数据挖掘的新方向

1.背景介绍社交网络分析(Social Network Analysis，SNA)是一种利用数据挖掘和网络科学方法来研究人类社会中的人际关系和交流的方法。它广泛... [阅读全文]

数据挖掘任务一般流程

数据挖掘是从大量数据中提取有价值信息的过程。它涉及多个步骤，每一步都对整个数据挖掘过程至关重要。 [阅读全文]

基于在线教学平台的数据挖掘与学习行为分析

近年来，随着在线教育和MOOC（Massive Open Online Courses，大规模开放式在线课程）教育的兴起，积累了海量教学行为数据与知识资源。由于教育资源的繁杂，用户…

2024年08月05日 • 人工智能

深度学习新手指南：掌握 PyTorch 从基础到实战训练

切记以上代码可能刚开始看会有些困难，但这很正常，一定要克制住自己的好奇心直接看答案，哪怕实在想不出来，也应该先把自己的思考和尝试写下来。然后再去看答案，比对自己... [阅读全文]

pytorch 训练过程内存泄露/显存泄露debug记录：dataloader和dataset导致的泄露

查找内存泄露/显存泄露的位置：把数据送入模型的代码全部注释掉，观察显存是否上涨；上涨说明内存泄露出现在dataloader（出现在非 dataloader 地方... [阅读全文]


验证码：

验证码：

YOLO-V5分类实战系列 —— 快速训练自己的数据集

2024年08月05日 • 数据分析 •我要评论

yolo-v5 训练自己的分类模型

1、获取官方源码

2、测试官方源码

2.1、公开数据集测试源码

3、源码模块解析

3.1、数据读取

3.2、网络结构

4、快速开始训练自己的数据

4.1、准备自己的数据

4.2、配置训练参数

4.3、模型推理和评估

相关文章:

数据分析：旅游景点销售门票和消费情况分析

基于在线教学平台的数据挖掘与学习行为分析

发表评论