runtimeerror: get was unable to find an engine to execute this computation
nvcc -v nvcc: nvidia (r) cuda compiler driver copyright (c) 2005-2020 nvidia corporation built on tue_sep_15_19:10:02_pdt_2020 cuda compilation tools, release 11.1, v11.1.74 build cuda_1.1tc455_06.29069683_0
安装的torch版本是cuda11.8,但是机器环境指向的是11.1版本
vim ~/.bashrc # 将下面的命令追加到bashrc文件中 source ~/.bashrc
bashrc是全局变量文件,source后会在所有的虚拟环境里面生效。export导入多个cuda文件,最后生效的是最后一次export的cuda版本。
# 下面命令将机器环境cuda版本指向cuda11.8 export path=/usr/local/cuda-11.8/bin:$path export ld_library_path=/usr/local/cuda-11.8/lib64:$ld_library_path
cuda11.8
nvcc -v nvcc: nvidia (r) cuda compiler driver copyright (c) 2005-2022 nvidia corporation built on wed_sep_21_10:33:58_pdt_2022 cuda compilation tools, release 11.8, v11.8.89 build cuda_11.8.r11.8/compiler.31833905_0
执行完上述命令后,脚本不再报错。
runtimeerror: get was unable to find an engine to execute this computation 这个报错通常与 pytorch 在使用 gpu 时的问题有关,可能的原因有:
- cuda 驱动程序问题:cuda 驱动程序没有正确安装或版本不匹配。
- cuda 工具包未正确配置:cuda 工具包未正确安装或环境变量未正确配置。
- pytorch 编译时未正确支持 cuda:你安装的 pytorch 版本可能没有编译支持 cuda。
- gpu 被其他进程占用:当前 gpu 被其他进程占用,导致无法使用。
- 硬件问题:gpu 硬件可能有问题,导致无法执行计算。
解决步骤
1. 检查 cuda 驱动程序
确保 cuda 驱动程序已正确安装并且版本与 cuda 工具包版本匹配。使用以下命令检查:
nvidia-smi
如果输出显示 gpu 信息,说明 cuda 驱动程序已正确安装。
2. 检查 cuda 工具包
确保 cuda 工具包已正确安装,并且 nvcc 命令可以运行:
nvcc --version
确保输出显示 cuda 版本信息。
3. 检查 pytorch 是否支持 cuda
确保你安装的 pytorch 版本支持 cuda,并且 cuda 版本与 pytorch 版本兼容。运行以下代码:
import torch print(torch.__version__) print(torch.version.cuda) print(torch.cuda.is_available()) print(torch.backends.cudnn.version())
确保输出显示 cuda 可用,并且 cuda 和 cudnn 版本正确。
4. 检查 gpu 使用情况
确保 gpu 未被其他进程占用。使用以下命令检查 gpu 使用情况:
nvidia-smi
5. 重新安装支持 cuda 的 pytorch
如果问题仍然存在,尝试重新安装支持 cuda 的 pytorch 版本:
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113
确保将 cu113 替换为你实际需要的 cuda 版本。
示例代码进行检查
以下是一些示例代码来进行检查和调试:
import torch
# 检查 pytorch 和 cuda 版本
print("pytorch version:", torch.__version__)
print("cuda version:", torch.version.cuda)
# 检查 cuda 是否可用
cuda_available = torch.cuda.is_available()
print("is cuda available:", cuda_available)
# 检查 gpu 设备数量
device_count = torch.cuda.device_count()
print("cuda device count:", device_count)
if cuda_available:
for i in range(device_count):
print(f"device {i}: {torch.cuda.get_device_name(i)}")
# 尝试运行简单的 cuda 操作
if cuda_available:
try:
x = torch.tensor([1.0, 2.0, 3.0], device='cuda')
y = x ** 2
print("cuda computation result:", y)
except runtimeerror as e:
print("cuda computation failed:", e)pytorch version: 2.1.0+cu118 cuda version: 11.8 is cuda available: true cuda device count: 4 device 0: nvidia geforce rtx 3090 device 1: nvidia geforce rtx 3090 device 2: nvidia geforce rtx 3090 device 3: nvidia geforce rtx 3090 cuda computation result: tensor([1., 4., 9.], device='cuda:0')
通过这些步骤,你应该能找到并解决 runtimeerror: get was unable to find an engine to execute this computation 的原因。
到此这篇关于pytorch执行报错cuda版本不匹配的文章就介绍到这了,更多相关pytorch cuda版本不匹配内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论