集群运维服务

依托网络和IPMI远程开关机服务,由景阳雷诺公司资深技术专家远程负责客户集群运维管理工作,可以保障集群高效,稳定的运行。

运维方式:

  • 通过ssh直接登录集群登录节点,在线运维集群,24小时响应客户的需求;

运维内容:

  • 集群硬件维护,远程开关机,硬件故障诊断,报修等;
  • 集群系统维护,用户管理,用户需求对接;
  • 集群并行环境运行状态监控及故障处理;
  • 作业调度平台运行状态监控、故障处理、队列划分,资源限制,用户限制;
  • 客户应用软件的安装,调优,软件故障排查,软件PBS脚本撰写;
  • 存储文件系统维护,设置,调优,故障处理;

实现方式:

  • 保证登录节点开机状态(公网IPMI或者机房人员协助先开机登录节点),配置登录节点和其余所有设备的IPMI地址通信,通过登录节点,可以开关机和重装其余节点。
  • 若客户集群登录节点直接配置公网ip,可以直接通过公网ip,ssh链接集群,若客户登录节点配置内网ip,由景阳雷诺公司提供公网地址服务器,通过ssh隧道转发的方式,把登录节点某一端口转到景阳雷诺公司的公网地址服务器上,实现ssh直接登录管理节点;
  • 签订运维合同后,景阳雷诺公司工程师会到现场勘查整个集群的部署情况,配置集群运维环境,如外网登录方式,节点IPMI地址等,提取所有设备的序列号,确认所有设备配置情况。
  • 在集群运维服务期间,节点硬件故障由景阳雷诺负责向浪潮报修,客户处提供机房接口人即可,若遇到无法远程解决的系统故障,景阳雷诺承诺现场予以解决。