目录

元脑R1推理服务器单机部署满血版DeepSeek R1,性能大幅提升

jyhpc 行业新闻829阅读模式

近日,高算效AI计算平台元脑R1推理服务器NF5688G7成功实现单机部署满血版DeepSeek R1 671B模型,性能表现优异,引发行业关注。该服务器原生搭载FP8计算引擎,提供1128GB HBM3e高速显存,显存带宽高达4.8TB/s,GPU P2P带宽达900GB/s,成功实现单用户解码最高33 tokens/s及最大用户并发超1000的优异性能表现,对比业内2机8卡方案分别提升60%、300%以上。

服务器繁忙问题一直是行业痛点。DeepSeek周活跃用户规模最高近1亿,用户量激增带来流量高峰,推理算力需求爆炸性增长,造成服务器超负荷运行。此外,网络与带宽限制拥堵,也可能误触发服务器繁忙提示造成服务器超负荷运行。

满血版 DeepSeek R1 671B是典型的长思维链模型,具有短输入、长输出的应用特点,推理过程中对硬件的显存容量、显存带宽、互连带宽和延迟要求非常高。在FP8精度下,显存不仅要满足模型参数部署要求,至少需要约800GB显存承载,还必须为KV Cache,中间激活值等留下足够的显存空间。而FP16/BF16精度下需1.4TB以上的显存空间。

元脑R1推理服务器NF5688G7通过硬件调优、算子优化、混合并行、多token预测等多方面的工程实践,成功实现了单机部署满血版DeepSeek R1 671B模型。该服务器已完成对开源框架SGLang最新版本的深度适配,保障单机部署张量并行最佳通讯性能。

针对PCIe互连方案,元脑R1推理服务器NF5868G8创新设计,业界首次实现单机支持16张标准PCIe双宽卡,显存容量高达1536GB,支持在FP16/BF16精度下单机部署DeepSeek 671B模型。创新研发基于PCIe Fabric的16卡全互连拓扑,任意两卡P2P通信带宽可达128GB/s,降低通信延迟超60%,相较传统2机8卡PCIe机型,NF5868G8可将DeepSeek 671B模型推理性能提升近40%,并支持多元AI加速卡选配。

如果要建设自己的小型智算中心,1~20台的区间,会是企业部署私有化算力比较适合的规模,20台机器大概可满足上万人规模大型公司全员流畅的应用体验。

HTML5+CSS3 响应式设计,博客、杂志、图片、公司企业多种布局可选,集成SEO自定义功能,丰富的主题选项,众多实用小工具。