随着智能时代的到来,AI算力需求激增,内存系统面临更大容量和更高带宽的挑战。然而,GPU等AI加速器的高带宽内存(HBM)容量增长缓慢,导致存算失衡,影响了大模型的落地与创新速度。为解决这一难题,浪潮信息近日推出了元脑服务器CXL内存池化方案,通过软硬件协同设计,灵活扩展内存容量,提升GPU利用率,降低访问延迟,全面释放GPU算力。
元脑服务器CXL内存池化方案的核心优势
浪潮信息的元脑服务器CXL内存池化方案以高性能CXL交换单元为核心,解耦并重构了服务器存储架构,实现了内存资源的重组与异步迭代。该方案不仅能够灵活扩展内存容量和带宽,还创新设计了内存管理引擎,支持按需扩展内存资源,提升数据中心的内存利用率和GPU性能。此外,方案还集成了元脑KeyarchOS服务器操作系统的智能化内存分层功能,能够自动识别、迁移和监控冷热数据,实现内存细粒度分层应用,显著提升池化内存的性能。
在AI推理场景下,该方案可将内存容量和带宽提升一倍以上,GPU利用率大幅提升,推理时间显著缩短。目前,元脑服务器CXL内存池化方案已在元脑第七代和第八代算力平台上全面适配优化,能够满足AI推理、EDA仿真、向量数据库、内存数据库等场景对高内存容量和带宽的需求。
CXL内存池化技术的应用挑战
尽管CXL内存池化技术在解决存算失衡问题上展现出巨大潜力,但其在实际应用中仍面临诸多挑战。首先,不同工作负载对内存的需求和使用模式各异,如何确保内存池化技术能够适应多样化的工作负载,按需调节内存容量和带宽,是亟待解决的问题。其次,数据中心内存资源碎片化严重,导致内存池整体利用率偏低,复杂的内存管理机制成为技术实现的关键。此外,系统稳定性和可靠性在多主机内存共享场景下尤为重要,硬件或软件故障可能导致系统崩溃或数据丢失,因此需要强大的容错能力。
CXL内存池化技术虽然能够弥补DDR内存与SSD存储层级间的鸿沟,但其访问延迟比DDR内存增加2倍以上,这也带来了多级内存细粒度管理的问题。如何在带宽收益和延迟裂化之间找到平衡,成为应用程序性能提升的关键。
浪潮信息的软硬件协同创新
自2019年CXL协议推出以来,浪潮信息持续进行CXL技术研究和探索,基于CXL内存池化方案,通过硬件架构创新与软硬协同优化,研发了系列内存池化原型系统。这些系统能够灵活扩展系统内存容量和带宽,实现内存细粒度分层管理,满足客户大内存工作负载场景需求。
浪潮信息自研的CXL内存远端扩展原型系统在百纳秒级访问延时的条件下,将系统内存容量和带宽扩大了一倍。同时,内存扩展产品覆盖多种形态,包括业界最大单卡扩展规模的CXL内存扩展卡、支持DDR4/DDR5 DIMM扩展方案以及自研E3.S CXL内存模组,满足客户不同场景的应用需求。
此外,浪潮信息还开发了内存池化原型系统,通过CXL互连重构服务器架构及内存层次结构,实现多主机内存共享。目前,单系统最大能扩展到16TB内存资源池,相比传统服务器内存容量和带宽均扩大2倍,满足AI计算、向量数据库、内存数据库等多场景应用需求。
三大核心场景性能卓越
经过测试,元脑服务器CXL内存池化方案在AI推理、向量数据库和内存数据库三大核心场景中表现出色。在AI推理场景下,使用CXL扩展内存后,GPU利用率提升72%,推理耗时缩短35%;结合内存分层技术后,GPU利用率进一步提升3.6%,推理耗时进一步缩短10%。在向量数据库应用场景中,通过调整DDR和CXL内存占比,应用吞吐量提升了24%。在内存数据库应用场景中,数据库吞吐量提升92%,内存分层功能进一步提升了12%的吞吐量。
浪潮信息的CXL内存池化及分层技术不仅推动了CXL内存技术的创新,还为AI大模型、大数据等场景提供了更高效的解决方案。随着CXL技术的成熟,未来它将在计算架构中扮演更加重要的角色,助力更多数据中心用户提升算力效率。
HTML5+CSS3 响应式设计,博客、杂志、图片、公司企业多种布局可选,集成SEO自定义功能,丰富的主题选项,众多实用小工具。

评论