AI智能管理平台
湾博AI智能管理平台是一套资源管理、作业调度、系统监控为一体的应用服务平台。
应用领域
深度学习训练(Training) |
深度学习推断(Inference) |
HPC药物开发 |
语音识别 |
机器视觉 |
地理信息抽取 |
系统总体架构图
功能模块 |
详细功能 |
操作系统 |
支持基于最新版的64位企业级Linux内核操作系统Ubuntu CentOS |
多种主流框架 |
TensorFlow、Caffe、PyTorch、MxNet、Keras等多种主流深度学习计算框架 |
多节点并行 |
支持多节点GPU(TensorFlow、Caffe、PyTorch、MxNet、Keras等多种主流深度学习计算框架)的并行训练任务 支持基于MPI的Tensorflow和Caffe多机多GPU并行训练 |
集群管理 |
支持LDAP或NIS后台 支持用户分级管理 集中管理集群系统的配置文件 对单机或批量节点进行操作 提供远程批量开关机管理 集成SSH和VNC图形访问功能 可集中管理系统的IP、主机名等信息 |
集群监控 |
监控当前节点各部件的状态 监控集群整体网络运行情况 支持并行文件系统的监控 支持告警设置 |
作业调度系统 |
采用主流的作业调度软件,支持torque,maui.SGI,Slurm等作业调度系统 提供主流的调度策略 支持任务配额管理 支持CPU/GPU/MIC统一调度,支持异构机群作业调度 支持多种作业提交方式 |
产品特性
系统稳定 系统平台采用主流稳定架构 |
方便部署 模块化自定义批量部署 |
扩容简单 平滑扩容 |
高效运维 多种运维模式,确保快速响应运维 |