浪潮信息元脑R1服务器深度适配SGLang框架，单机支持DeepSeek 671B模型超1000并发

2025年 2月 26日09:35:08行业新闻629阅读模式

浪潮信息宣布，其元脑R1推理服务器已完成对开源框架SGLang最新版本的深度适配，成功实现在单机高性能运行DeepSeek R1 671B模型时，最大支持超过1000路的用户并发访问。这一突破标志着浪潮信息在大模型推理服务领域的又一重要进展。

DeepSeek R1模型挑战与优化

DeepSeek R1模型参数量高达6710亿，采用了MLA注意力机制和混合专家（MoE）架构，这一创新的模型架构在带来卓越性能的同时，也带来了推理服务上的挑战。浪潮信息团队从AI服务器和推理框架入手，开展了协同优化工作，确保模型在推理服务中的高效运行。

元脑R1推理服务器的技术优势

元脑R1推理服务器NF5688G7原生搭载FP8计算引擎，针对DeepSeek R1 671B模型的部署速度快且无精度损失。其1128GB HBM3e高速显存满足671B模型FP8精度下不低于800GB显存容量的需求，单机支持全量模型推理情况下，仍保留充足的KV缓存空间。显存带宽高达4.8TB/s，完美契合DeepSeek R1模型“短输入长输出、显存带宽敏感”的技术特征，在推理解码阶段可实现极致加速。此外，GPU P2P带宽达900GB/s，保障单机部署张量并行最佳通讯性能。

SGLang框架的适配与优化

SGLang作为新兴的开源推理框架项目，得到了活跃的社区支持，并在工业界获得了广泛应用。其核心特性包括快速的后端运行时、灵活的前端语言、广泛的模型支持等。SGLang针对MLA注意力机制开展了针对性的工程优化，并在框架上对MoE架构的推理做了优化设计。SGLang也是最早适配DeepSeek v3和R1的优选推理框架之一。

目前，元脑R1推理服务器NF5688G7已完成SGLang最新版本0.4.3的适配优化工作。通过硬件调优、算子优化、混合并行、多token预测等多方面的工程实践，在元脑R1推理服务器NF5688G7上运行DeepSeek 671B R1模型，成功实现了单用户解码最高33 tokens/s及最大用户并发超1000的优异性能表现。

性能测试与实测数据

DeepSeek R1 671B是一个稀疏度较高的MoE架构模型，具有模型参数量大、计算量小的特点。实测数据表明，基于单台NF5688G7，在使用DeepSeek R1进行带思维链深度思考的短输入长输出的问答场景下，使用100/1000作为输入输出长度，实测在单个用户并发时的解码性能为33.3tokens/s；在16个用户并发时，每个用户有约20 tokens/s的解码性能；在64个用户并发时，每个用户有约10.4 tokens/s的解码性能。而在使用1024个用户并发访问的极限测试时，单台NF5688G7实现了3975.76 tokens/s的吞吐性能，可以满足超高并发场景下多用户使用需求。

未来展望

浪潮信息团队正与业内团队密切合作，在计算架构、算子调优、并行策略、框架适配、调度管理等多个方面持续发力，旨在为用户带来高性能、高效稳定、性价比高的DeepSeek大模型部署服务方案，助力大模型快速落地应用。

浪潮信息是全球领先的IT基础设施产品、方案和服务提供商，通过发展新一代以系统为核心的计算架构，打造开放、多元、绿色的元脑智算产品和方案。浪潮信息致力于AI计算平台、资源平台和算法平台的研发创新，并通过元脑生态携手领先伙伴，加速人工智能的创新和应用落地。

HTML5+CSS3 响应式设计，博客、杂志、图片、公司企业多种布局可选，集成SEO自定义功能，丰富的主题选项，众多实用小工具。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

热门搜索