在k8s上部署pytorch分布式程序的完整步骤记录_Asp.net

集群配置

在k8s集群安装stable版training-operator：

kubectl apply -k "github.com/kubeflow/training-operator/manifests/overlays/standalone?ref=v1.7.0"

下载kubeflow training-operator对应的python sdk：

pip3 install kubeflow-training

简单的pytorch cpu分布式测试

demo.py文件内容如下：

import datetime
import torch
torch.distributed.init_process_group(init_method="env://",timeout=datetime.timedelta(minutes=1))
rank = torch.distributed.get_rank()
world_size = torch.distributed.get_world_size()
print(f"rank {rank} world_size {world_size}")
a = torch.tensor([1])
torch.distributed.all_reduce(a)
print(f"rank {rank} world_size {world_size} result {a}")
torch.distributed.barrier()
print(f"rank {rank} world_size {world_size}")

dockerfile文件如下：

from python:3.8
run pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
workdir /
copy demo.py demo.py

打包好镜像上传后，便可以在集群中跑pytorchjob，pytorch.yaml部署文件如下：

apiversion: "kubeflow.org/v1"
kind: pytorchjob
metadata:
  name: torchrun-cpu
spec:
  pytorchreplicaspecs:
    master:
      replicas: 1
      restartpolicy: onfailure
      template:
        spec:
          containers:
            - name: pytorch
              image: pytorch-demo
              command:
                - "python3"
                - "demo.py"
    worker:
      replicas: 1
      restartpolicy: onfailure
      template:
        spec:
          containers:
            - name: pytorch
              image: pytorch-demo
              command:
                - "python3"
                - "demo.py"

执行命令开始部署：

kubectl apply -f pytorch.yaml -n namespace

正常运行结束后可以看到两个pod均为complete状态，查看log输出：

training-operator的一些设计

当我们通过training-operator创建对应的pod资源时，describe worker可以看到如下的env信息：

可以看到master默认端口为23456，world_size即总共的运行节点为2，该worker对应的rank为1，master的地址为master的pod的name，这其实是training-operator为它创建了对应的svc，查看svc可以看到与pod同名的svc：

通过svc配置worker到master pod的tcp连接，以便在distributed.init_process_group以及接下来参数同步等需要网络传输的操作能够正常进行。

而training-operator通过解析yaml文件来为部署的pod配置环境变量以便init_process_group时不用自己配置分布式训练的参数，而是直接读取env配置好的参数，可以简化开发者的开发难度。不过这也能看出来，training-operator对pytorch分布式的支持实际上也是基于pytorch原有的pytorch分布式框架进行开发，在operator上添加相关代码给予支持。

总结

到此这篇关于在k8s上部署pytorch分布式程序的文章就介绍到这了,更多相关k8s部署pytorch分布式程序内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

C# Autofac的具体使用

一、为什么使用autofac?autofac是.net领域最为流行的ioc框架之一，传说是速度最快的一个。1.1、性能有人专门做了测试：1.2、优点1）与c#语言联系很紧密。c#里…

2024年08月26日 • 编程语言

C# 实现基于ADO.NET框架的DBHelper工具类(简化数据库操作)

在c#开发中，与数据库的交互是常见的需求。通常，我们会使用ado.net直接执行sql查询，虽然这种方法非常灵活，但容易导致代码重复，并且在处理多个sql语句时... [阅读全文]

TensorFlow实现数据增强的示例代码

电脑环境：语言环境：python 3.8.0编译器：jupyter notebook深度学习环境：tensorflow 2.17.0一、前期工作1.设置gpu（... [阅读全文]

C#获取文件、文件夹和驱动器的信息示例详解

一、获取文件信息fileinfo类提供了用于获取文件属性的方法。以下是一些常用的属性和方法：name：获取文件名。fullname：获取文件的完整路径。leng... [阅读全文]

PyTorch中的Subset类简介与应用示例代码

在深度学习框架pytorch中，torch.utils.data.subset是一个非常有用的类，用于从一个较大的数据集中选择一个子集。这种功能在机器学习的训练... [阅读全文]

C#查看/写入日志到Windows事件查看器的操作方法

windows事件日志windows 操作系统将与计算机的系统性能、应用程序和安全方面相关的每个事件记录在 c:\windows\system32\winevt 的日志中。事件查看…

2024年09月04日 • 编程语言


验证码：

验证码：

在k8s上部署pytorch分布式程序的完整步骤记录

2024年08月23日 • Asp.net •我要评论

集群配置

简单的pytorch cpu分布式测试

training-operator的一些设计

总结

相关文章:

C# Autofac的具体使用

C#查看/写入日志到Windows事件查看器的操作方法

发表评论