华为云服务器GPU加速型实例安装GPU监控插件(Linux)_云淘科技

操作场景

通过在GPU加速型Linux实例上安装GPU监控插件,可以为用户提供系统级、主动式、细颗粒度的GPU监控,包含GPU指标收集和GPU系统事件上报。GPU监控指标,请参见操作系统监控指标:GPU。

本章节介绍如何通过CES监控Agent安装脚本为GPU加速型实例安装GPU监控插件:

操作步骤(单台ECS安装)
操作步骤(多台ECS批量安装)

约束与限制

仅支持Linux操作系统,且仅部分Linux公共镜像版本支持GPU监控。

表1 支持安装GPU监控插件的Linux版本

类型

版本

CentOS(64bit)

7.6、7.9、8.2

Ubuntu(64bit)

16.04、18.04、20.04

支持的规格:G6v、G6、P2s、P2v、P2vs、G5、Pi2、Pi1、P1。

前提条件

已配置DNS和安全组,配置方法参考如何配置DNS和安全组?。

已配置委托,配置方法参考如何配置委托?。
已安装GPU驱动,未安装GPU驱动的云服务器不支持采集GPU指标数据及上报事件。

如果您的弹性云服务器未安装GPU驱动,可参见(推荐)GPU加速型实例自动安装GPU驱动(Linux)。

安装GPU驱动需使用默认路径。

GPU驱动安装完后,需重启GPU加速型实例,否则可能导致采集GPU指标及上报GPU事件失败。

GPU驱动正常安装后,最多10分钟将在控制台看到采集到的GPU指标数据。

已安装lspci工具,未安装lspci工具的云服务器影响GPU掉卡事件的上报。

安装lspci工具的方法,请参见(可选)安装lspci工具。

确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。

操作步骤(单台ECS安装)

本操作以Ubuntu 18.04 64bit操作系统、Pi2规格的GPU加速型实例为例,介绍单台ECS安装GPU监控插件的操作指导。

使用root用户,远程登录弹性云服务器。
执行以下命令,为单台ECS安装GPU监控插件。

以“华北-北京四”为例,其余区域的安装脚本,请参见获取安装脚本。

cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

其中,“cn-north-4”表示区域ID,“0.1.5”是uniagent版本号,“2.5.6.1”是telescope版本号。

当显示如下内容,表示GPU监控插件安装成功。

图1 GPU监控插件安装成功

操作步骤(多台ECS批量安装)

本操作以Ubuntu 18.04 64bit操作系统、Pi2规格的GPU加速型实例为例,介绍多台ECS批量安装GPU监控插件的操作指导。

批量安装的多台ECS需要归属于同一个VPC。

使用root用户,远程登录其中一台弹性云服务器。
执行以下命令,为这一台ECS安装GPU监控插件。

以“华北-北京四”为例,其余区域的安装脚本,请参见获取安装脚本。

cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

其中,“cn-north-4”表示区域ID,“0.1.5”是uniagent版本号,“2.5.6.1”是telescope版本号。

当GPU监控插件安装成功,且数据采集正常时,可以将此ECS作为跳板机,通过批量安装脚本依次为其他ECS批量安装GPU监控插件。

收集需要批量安装GPU监控插件的所有ECS的IP地址和root用户密码,以iplist.txt格式整理,并上传到ECS跳板机的/usr/local目录下。

iplist.txt格式为“IP地址,root用户密码”,每个记录一行。

示例如下所示(示例中abcd为root用户密码,请按实际值填写):

192.168.1.1,abcd
192.168.1.2,abcd

执行以下命令,为多台ECS批量安装GPU监控插件。

以“华北-北京四”为例,其余区域的批量安装脚本,请参见获取安装脚本。

cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

其中,cn-north-4是RegoinID,0.1.5是uniagent版本号,2.5.6.1是telescope版本号。

当显示如下内容,表示GPU监控插件安装成功。

图2 GPU监控插件安装成功

获取安装脚本

您可以通过执行以下命令,获取CES监控Agent的安装脚本。

表2 安装脚本的支持区域及获取方式

区域

安装脚本

华北-北京一

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

华北-北京四

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-4 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

华北-乌兰察布一

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-north-9 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-north-9 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

华南-广州

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-south-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-south-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

华东-上海一

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-east-3 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-east-3 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

华东-上海二

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-east-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-east-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

西南-贵阳一

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r cn-southwest-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r cn-southwest-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

中国-香港

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r ap-southeast-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

亚太-曼谷

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r ap-southeast-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-2 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

亚太-新加坡

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r ap-southeast-3 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r ap-southeast-3 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

非洲-约翰内斯堡

单台ECS安装:

cd /usr/local && curl -k -O https://uniagent-af-south-1.obs.af-south-1.myhuaweicloud.com/package/agent_install.sh && bash agent_install.sh -r af-south-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

多台ECS批量安装:

cd /usr/local && curl -k -O  https://uniagent-af-south-1.obs.af-south-1.myhuaweicloud.com/package/batch_agent_install.sh && bash batch_agent_install.sh -r af-south-1 -u 0.1.5 -t 2.5.6.1 -d agent.ces.myhuaweicloud.com

(可选)安装lspci工具

登录弹性云服务器。
更新镜像源,获取安装依赖。

wget http://mirrors.myhuaweicloud.com/repo/mirrors_source.sh && bash mirrors_source.sh

更多内容,请参见如何使用自动化工具配置华为云镜像源(x86_64和ARM)?

执行以下命令,安装lspci工具。

CentOS系统:

yum install pciutils

Ubuntu系统:

apt install pciutils

执行以下命令,查看安装结果。

lspci -d 10de:

图3 安装结果

父主题: 监控

内容没看懂? 不太想学习?想快速解决? 有偿解决: 联系专家