华为云服务器GPU设备显示异常_云淘科技

问题描述

执行nvidia-smi查看GPU使用情况,显示如下:

单卡机器显示

No devices were found

多卡机器上显示卡数目不全

执行lspci | grep -i nvidia,显示卡数目正常。

处理方法

查看实例是否使用NVIDIA Tesla T4 GPU(例如,Pi2或G6规格)。

是,请参见T4 GPU设备显示异常进行处理。
否,请执行下一步。

查看系统日志“/var/log/message”,是否存在驱动相关报错。

如果出现“Failed to copy vbios to system memory”,可能是由于频繁加载/卸载驱动导致,建议开启驱动持久化模式,保持驱动处于加载状态。

图1 系统日志

执行以下命令,开启驱动持久化模式。

nvidia-smi -pm 1

执行以下命令,打开并编辑“/etc/rc.local”文件。

vim /etc/rc.local

配置开机自启动,将命令“nvidia-smi -pm 1”写入“/etc/rc.local”文件中。
按“Esc”,输入:wq保存并退出。
执行以下命令,添加启动权限。

chmod +x /etc/rc.d/rc.local

否,请执行下一步。

查看实例的Tesla驱动版本是否为510.xx.xx。

是,该驱动版本与镜像可能存在兼容性问题,建议更换驱动版本,操作指导,请参考安装GPU驱动。
否,请执行下一步。

请尝试重启云服务器,再执行nvidia-smi查看GPU使用情况,确认是否正常。

如果问题依然存在,请联系客服。

父主题: GPU驱动故障

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家