浪潮发布新一代HPC集群管理平台ClusterEngine（浪潮集群管理软件）-云科研-畜牧所_广西畜牧所

浪潮发布新一代HPC集群管理平台ClusterEngine（浪潮集群管理软件）

投稿用户 • 2024年4月22日下午5:42 • 科研百科 • 阅读 182

11月19日，在2020全球超算大会（SC20）上，浪潮发布新一代HPC集群管理平台ClusterEngineV5，支持超算中心HPC及AI计算负载，提供涵盖硬件运维、业务管理和应用性能分析的全栈式高效管理，帮助系统管理者轻松管理上万节点，大幅提升HPC集群的资源利用率和应用计算效率，满足面向未来的新型超算中心的创新业务增长需求。

近年来TOP500超算榜单中，近30%系统拥有加速卡/协处理器，也就是说，越来越多的超算系统配有大量低精度算术逻辑单元，用来支撑人工智能计算能力需求。可以预见的是，未来超算中心将承担更多的AI计算负载，这给超算中心的运维管理带来了更大的挑战。传统HPC集群管理软件通常是面向HPC负载设计的，往往只能管理单一的硬件或业务，而且监控数据不能打通。为了帮助超算中心更高效、更方便地管理HPC和AI负载，浪潮推出了新一代HPC集群管理平台ClusterEngineV5，包含硬件运维、业务管理、应用性能分析三大模块。

ClusterEngineV5的智能化硬件运维平台

面对底层硬件，ClusterEngineV5提供一体化硬件运维监控平台，实现服务器、存储、网络设备的全生命周期自动化运维，有效地帮助用户提高运维效率、降低运维成本。平台可实现7*24小时大规模硬件监控管理，快速识别200 类问题，内置30000 专家级大数据规则库，快速诊断故障根因并提供解决方案。同时可以自动监测数据中心功耗，进行智能分析、远程控制、功耗管理，帮助用户节省30%以上的功耗。

ClusterEngineV5的HPC业务管理平台

面对核心业务，ClusterEngineV5为上万节点HPC集群提供稳定、高效、易用的HPC业务管理平台。可实现HPC和AI应用的统一管理，作业提交流程极简化。并能根据用户业务需求实现灵活的作业调度和管理策略，保证资源充分利用。同时支持容器化，用户可快速部署应用，在多节点并行计算时，保证各节点系统环境一致，并且可通过容器快速部署开发环境，提升开发工作效率。

ClusterEngineV5的HPC应用性能分析工具

并且，ClusterEngineV5提供独有的HPC应用性能分析工具，帮助用户诊断应用瓶颈，提升HPC应用优化效率及质量。该工具可对异构集群进行全方位性能分析，针对AI计算提供函数级应用性能分析，及时定位性能异常，帮助用户深入分析和发现计算性能优化空间。基于该工具的分析结果，用户可结合自身平台的资源使用情况及设备特征，提升应用计算效率及资源利用率。

浪潮ClusterEngineV5打通了硬件监控、业务管理和应用性能分析，提供了一套面向HPC与AI应用场景的全栈式超算中心管理解决方案，涵盖全生命周期集群硬件智能运维、全方位集群监控、应用性能监控、异构集群算力调度分析和调优等，帮助管理人员高效管理HPC和AI负载，降低集群部署和管理门槛，提高资源利用率和计算效率，实现降本增效，推动面向未来的超算中心业务创新。

浪潮发布新一代HPC集群管理平台ClusterEngine（浪潮集群管理软件）

相关推荐

分享到：