目录
1. 文章主要内容
本篇博客主要涉及两个主体内容。第一个:从autodl网站中租用gpu服务器。第二个:用pycharm软件远程连接租来的线上服务器,并以yolov5项目为例,线上训练模型。此过程中会记录重要的地方,以及本人踩坑之后,如何解决问题的所思所想(通读本篇博客大概需要15分钟左右的时间)。
本篇博客参考的主要内容来源于:
孟孟单单-autodl使用教程
嗜睡的篠龙-pycharm连接远程服务器(autodl)训练yolov5
2. 租用autodl服务器详细教程
2.1 注册autodl账号,并申请学生认证(学生认证有优惠,如果不是学生可以忽略此点)
首先,我们打开autodl的官网(autodl官网),选择右上角注册按钮,新用户官网是送了10元的代金卷,可以用来租用服务器。注册流程是比较简单的,这里不详细做过多的解释。
学生认证:注册并登录成功后,点击链接学生认证手册,根据教程操作即可,需要注意到的是,如果没有教育邮箱,添加认证页面下方的客服微信进行沟通,提供学生证相关信息、注册账号信息就可以通过学生认证。(给客服发送的学生证记得隐藏关键的信息,客服只需要一个学生证兜底就行)。
学生认证通过后,我们就会变成炼丹会员,这样我们租用gpu服务器就会较普通用户更加的便宜,时间用的越久,越划算。如下图所示,学生认证成功变成炼丹会员:
2.2 算力市场选择gpu,并选择初始化配置环境
认证通过以后,点击主页导航栏上面的算力市场,来到选择租赁gpu的算力市场,这里详细内容还请参考孟孟单单-autodl使用教程对每个类别的详细解释。博主在这里选择的是按量计费(类似于网吧上网,多少钱一个小时)。gpu我选择的是rtx 3060、显存12gb,点击下图红色箭头按钮即可跳转到租赁界面:
之后,选择服务器的镜像,说白了就是给服务器配置一些环境,这里我选择基础镜像,后续镜像中需要什么就自己配置即可(授人以鱼不如授人以渔)。选择的基础镜像如下图所示:
基础镜像是安装在conda的base环境当中,如果有小伙伴熟悉anaconda的话,应该能够理解这段话的意思,后续我们会在conda中新建一个环境来训练项目,不要什么都往base里面放,东西多了容易起冲突和混乱。
2.3 控制台参数解析,并使用相关参数登录xftp(windows与linux跨平台传输软件,很关键)
2.3.1 控制台参数解析
租赁gpu服务器之后,我们点击网页右上角的控制台,就可以看到自己租用服务器的实例,如下图所示:
首先博主得说明一点,如上图所示我们租用的084机器,里面的gpu显卡是共享用的,假如这台机器有8块gpu,如果租赁的是单gpu,那么当你选择开机之后就会占用一块gpu。所以当我们看到上图状态一栏下方的绿色字体gpu充足的时候,证明084这台机器中gpu至少有一块是充足的。但当084机器gpu都被占用的时候,就无法正常开机(但是可以无卡模式开机),一般的方式就是等待别人先用完再说。
假如此时的gpu充足,如上图所示,我们在操作一栏有两个按钮,一个是开机,一个是更多。鼠标移到更多的按钮上,会显示出栏目,如下图所示:
实例开机占用gpu分为两种,一种是无卡模式开机,一种是正常开机。无卡模式开机,意思是不占用gpu(一般gpu被别人占满的时候,无卡模式还是依然能开机的),有cpu,费用是0.1元/时,如下图所示:
正常开机就是按操作一栏的开机按钮,在算力市场中有明码标价说是多少钱一个小时,这种开机是占用gpu资源的,博主这里租用的rtx 3060卡的费用是0.6/时,如下图所示:
重要内容:无卡模式和有卡模式有什么区别?它们分别用于什么场景呢?
无卡模式和有卡模式从字面意思就知道是有无gpu卡的区别。无卡模式收费较有卡模式少很多,一般用于windows与服务器linux之间传输文件,而有卡模式收费较无卡模式收费比较多,一般用于训练模型(因为要用到gpu)。
无论是无卡模式还是有卡模式开机,之后控制台在ssh登录一栏出现登录指令和密码,这里的登录指令和密码非常重要,将会在xftp部分和pycharm远程连接部分详细说明,现在知道有这么回事即可,如下图所示:
2.3.2 xftp下载以及配置
首先我们介绍xftp跨平台传输软件,这是为了能够在windows和linux之间可以轻松、简单的传输文件,比如在服务器上训练好的模型想要下载到windows平台,只要通过xftp界面轻松移动即可。
进入到xftp官网xftp官网,点击download下载,然后找到免费授权页面,填写相关信息,收到邮箱信息之后,打开邮箱中的免费下载链接即可下载免费版的xftp,如下图所示:
安装完之后,我们打开xftp软件,点击左上角新建按钮,之后会弹出一个新建链接配置信息的对话框,如下图所示:
回到博客的上一部分,有简单说明ssh登录账号和密码相关信息,这里我们和xftp联系起来做一个参数详解,首先我们在autodl控制台部分复制自己的账号和密码(这里做一个演示,账号密码为虚构,但格式都是一样,博友们按照自己的账号、密码来就行)。格式如下:
登录指令:ssh -p 66666 root@region-8.seetacloud.com
登录密码:123456
参数解析:66666代表的是端口号、root代表的用户名(一般都是一样的)、region-8.seetacloud.com代表的是主机域名,是什么就是什么、123456即为登录的密码。
ok,我们介绍完参数解析,这时候将参数对应于上面的xftp参数框,名称是可以随便取的、主机对应于参数解析的主机域名、端口号对应于参数解析的端口号、用户名对应于参数解析的用户名,一般为root、密码对应于参数解析的登录密码,按照上面的例子,填写完的样例如下图所示:
到这里然后点击连接按钮,即可进行连接,连接成功后跳转到如下页面,要是想要传输文件,只需要挪动文件到另外一边即可,如下图所示:
3. 使用pycharm软件远程连接服务器,并训练模型(以yolov5项目为例)
3.1 pycharm配置服务器参数,远程连接服务器
首先我们需要下载pycharm软件,百度搜索进去官网下载。注意:pycharm需要下载专业开发版本,不能下载社区版本,因为远程连接服务器的相关功能社区版本不具有(另外:pycharm专业版本如何破解,自行搜索)。由于安装pycharm网上有很多详细教程,并比较简单,这里不做过多解释。
下载安装完成之后,打开pycharm软件,选择左上角file ->settings->python interpreter,如下图所示:
接着点击右上角的小齿轮按钮->add->ssh interperter,具体操作如下图所示:
来到ssh interpreter界面,熟悉的服务器参数界面,和xftp服务器参数配置页面很相似,这里做简单的解释:region-8.seetacloud.com代表的是host,root代表的username(一般都是一样的),port代表的是端口号。点击下方的next按钮(记住这里连接服务器操作的前提是autodl控制台服务器已开机,不然是连接不上的!)
跳转到输入密码的页面,输入服务器对应的密码即可,如下图所示:
点击下方的next按钮,跳转到服务器与本地项目连接的配置页面,这里需要关注的是三个点。第一点是interpreter,这是解释器,也是项目配置所需的环境,还记得我们租用服务器时,选择的初始化miniconda3的环境们,它的存放路径是在**/root/miniconda3/bin/python**,我们按下图进行选择配置:
第二点非常重要是sync folders同步文件夹操作,选择windows项目文件的根目录->服务器对应的项目根目录。我们点击选择文件路径按钮,可以自定义修改windows和服务器对应根目录的路径,如下图所示:
踩坑点:服务器直接选择默认路径,项目文件就会存储在系统盘中,一般来说系统盘比较小,一般尽量少放东西,不然等到系统盘满的时候会下载、安装不了很多东西,本人亲自经历过这样的问题。
解决办法:一般项目文件以及对应的数据集存放于数据盘中,在autodl中对应于/root/autodl-tmp/文件夹下,如下图所示:(auto-tmp文件夹后面的project文件夹为自己所创建,根据个人的需求来。比如yolov5项目,服务器的地址可以这样创建/root/autodl-tmp/project/yolov5。需要注意到:即使服务器对应的文件夹,比如/root/autodl-tmp/project/yolov5中的yolov5不存在,也会自动创建)。
第三点: 记得勾选automatically upload复选框,这个按钮的意思是,在本地pycharm中修改的代码,会自动上传到服务器对应项目的同样地方,如下图所示:
配置参数成功之后,点击tools->start ssh session即可连接服务器,之后弹出一个小窗口,选择remote python开头的服务器地址即可(当然每个不同的项目,可以创建不同的连接)连接成功的界面如下所示:
因为我这里开启的是无卡模式,所以没有gpu的显示信息(一般传数据集、修改相关代码都可以使用无卡模式,这样更省钱,训练模式的时候再切换有卡模式)。
3.2 配置pytorch和yolov5所需环境,以守护进程训练模型
在选择租用服务器那一章节,我曾说到自己一步步来配置服务器的环境,不用autodl提供的热门主流环境。由于目前的conda环境是base,我们重新创建一个conda的环境,名为yolo,并连同安装python的版本(建议python的版本>=3.8),并且刷新conda环境,使其生效。代码如下所示(操作都在命令行中进行):
$ conda create -n yolo python=3.8
$ conda init bash && source /root/.bashrc
$ conda activate yolo
我们已经切换成yolo环境,此时开始安装pytorch。首先我们要查看选择服务器的cuda的版本。通过如下命令查看即可:
nvcc -v
可以看到博主自己的版本号是11.1。打开pytorch官网,找到previous versions of pytorch,意思是pytorch以前的版本号,点击进去。
然后通过ctrl+f搜索11.1关键字,就可以定位到pip的下载命令,把命令粘贴到pycharm控制台窗口,回车下载即可(可能会比较慢),如下图所示:
下载完成之后,验证pytorch的gpu版本是否成功,首先通过python进入到python命令行界面,再使用如下命令即可:
#判断是否安装了cuda
import torch
print(torch.cuda.is_available()) #返回true则说明已经安装了cuda
#判断是否安装了cudnn
from torch.backends import cudnn
print(cudnn.is_available()) #返回true则说明已经安装了cudnn
踩坑点:博主在进行测试的时候,一直返回false。最初一直怀疑自己装的pytorch版本是cpu版本,后来反复确认是gpu版本,才知道是自己的服务器开启了无卡模式。无卡模式是没有gpu的,所以会返回false。只需要开启有卡模式,也就是正常开启,则就会返回true。
在第二节远程连接服务器的时候,我们把本地的yolov5项目映射到了/root/autodl-tmp/project/yolov5,所以我们进入到此文件夹中,通过requirements.txt下载yolov5所需要的其它环境,代码和图如下所示(记住是yolo环境,别搞错了):
pip install -r requirements.txt
至此,我们将yolov5所需要的环境都配置完毕,接下来可以训练数据,收集日志信息。
如果我们直接启动,那么相关的训练信息就会直接显示在控制台,一旦我们关闭了窗口,程序也就自动停止。我们是希望能够让程序在后台(守护进程)执行,并且收集日志到文件中,执行完毕立马进行关机。
首先,博主的linux是ubuntu系统,我们需要通过如下命令安装screen包(用来开启守护进程):
apt-get install screen
下载完screen之后,配置screen收集控制台信息的日志文件路径,使用如下代码:
vim /etc/screenrc
我这里存放的路径是/root/autodl-tmp/logs/screenlog_%t.log,后面的%t是通配符,在接下来会进行说明,在/etc/screenrc添加如下代码,并保存退出:
logfile /root/autodl-tmp/logs/screenlog_%t.log
随后,我们开启一个screen守护进程,使用如下命令:
screen -l -t xxx -s yolov5
这里的t也就是之前日志里面的通配符%t,这里可以用来传日志文件的名字,我这里用xxx代表。后面的yolov5是守护进程的名字。通过screen -ls 命令,可以查看当前的守护进程,如下图所示:
当screen小括号后面的状态变成(dead),则为死亡状态,我们可以通过screen -wipe消除掉这些死亡进程,如下图所示:
非常重要:我们开启守护进程后,切换到yolo环境,可以到存放环境的路径查看日志文件,也就是/etc/screenrc配置文件中的日志路径。我们在训练模型时,控制台会不断的输出信息,想要退出项目输出信息的控制台,只需要鼠标选中控制台,然后按ctrl+a+d即可退出screen界面。如果想看看训练的轮次多少了,第一种方法是看日志文件,第二种方法通过screen -r 657.yolov5(守护进程的名字,如上图所示)。
关于训练技巧方面,我们上传项目和数据集的时候,建议分开,单独上传,推荐使用无卡模式上传,这样更加省钱。项目(比如yolov5)中的数据集路径要和上传到服务器的数据集的绝对路径一样,切记要检查仔细了。另外,我们在训练yolov5项目时,如果要想训练完立刻关机,切换到yolov5项目根目录,可以使用如下命令:
python train.py && shutdown
小细节理解:其实我们用pycharm连接远程服务器,代码和数据集都放在服务器,本质上和本地没有一点关系,由于服务器没有ide友好界面,所以通过远程同步操作。pycharm代码一改变,就会自动上传,这是因为在配置远程服务器中我们勾选了勾选automatically upload复选框,如果不放心,可以在pycharm的tools一栏,选择如下图所示的操作:
4. 本篇总结
本篇主要介绍了autodl服务器租用流程,pycharm远程连接服务器并进行训练。通过详细的步骤和小提示,让更多的人少折腾在环境配置上面。另外,博客中如有任何问题,或者不理解的地方,欢迎在评论区交流。如博客对您有作用,点个小赞,谢谢大家!
发表评论