元脑R1推理服务器单机部署满血版DeepSeek R1，性能大幅提升

2025年 3月 12日09:39:29行业新闻829阅读模式

近日，高算效AI计算平台元脑R1推理服务器NF5688G7成功实现单机部署满血版DeepSeek R1 671B模型，性能表现优异，引发行业关注。该服务器原生搭载FP8计算引擎，提供1128GB HBM3e高速显存，显存带宽高达4.8TB/s，GPU P2P带宽达900GB/s，成功实现单用户解码最高33 tokens/s及最大用户并发超1000的优异性能表现，对比业内2机8卡方案分别提升60%、300%以上。

服务器繁忙问题一直是行业痛点。DeepSeek周活跃用户规模最高近1亿，用户量激增带来流量高峰，推理算力需求爆炸性增长，造成服务器超负荷运行。此外，网络与带宽限制拥堵，也可能误触发服务器繁忙提示造成服务器超负荷运行。

满血版 DeepSeek R1 671B是典型的长思维链模型，具有短输入、长输出的应用特点，推理过程中对硬件的显存容量、显存带宽、互连带宽和延迟要求非常高。在FP8精度下，显存不仅要满足模型参数部署要求，至少需要约800GB显存承载，还必须为KV Cache，中间激活值等留下足够的显存空间。而FP16/BF16精度下需1.4TB以上的显存空间。

元脑R1推理服务器NF5688G7通过硬件调优、算子优化、混合并行、多token预测等多方面的工程实践，成功实现了单机部署满血版DeepSeek R1 671B模型。该服务器已完成对开源框架SGLang最新版本的深度适配，保障单机部署张量并行最佳通讯性能。

针对PCIe互连方案，元脑R1推理服务器NF5868G8创新设计，业界首次实现单机支持16张标准PCIe双宽卡，显存容量高达1536GB，支持在FP16/BF16精度下单机部署DeepSeek 671B模型。创新研发基于PCIe Fabric的16卡全互连拓扑，任意两卡P2P通信带宽可达128GB/s，降低通信延迟超60%，相较传统2机8卡PCIe机型，NF5868G8可将DeepSeek 671B模型推理性能提升近40%，并支持多元AI加速卡选配。

如果要建设自己的小型智算中心，1~20台的区间，会是企业部署私有化算力比较适合的规模，20台机器大概可满足上万人规模大型公司全员流畅的应用体验。

HTML5+CSS3 响应式设计，博客、杂志、图片、公司企业多种布局可选，集成SEO自定义功能，丰富的主题选项，众多实用小工具。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

热门搜索