高性能计算HPC运维服务方案
一、HPC运维的4个痛点
痛点一:架构设计
标准规范的顶层架构设计对HPC集群的工作及后期运维至关重要。没有标准规范的顶层设计,HPC集群后期的应用拓展、系统扩容、日常使用、运维会遇到巨大的困扰,往往会事半功倍。
痛点二:对运维人员技术全面性要求极高
HPC集群系统复杂,涉及硬件、软件,有服务器、交换机、存储,涉及操作系统、作业调度系统、应用环境、应用软件等等,对运维人员技术全面性要求极高。
痛点三:从全局角度解决局部问题
HPC集群各个模块及应用之前关联度极高,变量依赖到模块依赖到运维依赖,运维人员必须具备搭建集群系统能力,才能从全局角度解决局部问题。
痛点四:不断增加的应用与客户使用习惯
HPC集群是多用户、多应用的集中使用跟管理的系统,不断会有新的应用需要部署,新应用或者老应用新版本与平台兼容性问题,不断新增的用户群体使用习惯的持续培养等等这些都是HPC运维日常遇到的挑战。
智能运维架构图
二、湾博智能运维方案
在线运维:
依托互联网在线工具为客户提供远程运维服务,具有强大知识库,能够自我学习分析,能够实时发送运维报警信息,并在客户授权下远程解决集群系统问题。主要特点是快速、低成本、高效率。
驻场运维:
驻场运维是交钥匙式运维,主要针对大型HPC集群,规模大、系统复杂、客户缺少专业运维人员或者运维人员技术不够全面的场景。驻场运维能够给客户带来全方位、实时、专业的系统健康管理以、应急故障处理以及客户成长培训。
巡检运维:
定期对系统进行远程及现场检查,为用户提供详细的运维报告,报告包含用户管理、资源 使用、HPC集群组件(如作业调度系统、并行文件系统)运行状态等方面内容,并给出可行性建议,帮助用户更好地了解集群、使用集群。
应急运维:
提供全天候线上线下客户响应通道,随时响应客户系统突发事件,第一时间搜集系统故障信息并给出报表信息,提供解决方案,在经过客户授权并保证数据安全前提下快速对系统进行恢复,测试验证无误后第一时间交付客户上线使用。