浪潮信息推出元脑CPU推理服务器，加速DeepSeek和QwQ大模型普及

2025年 3月 19日10:00:58行业新闻54阅读模式

近日，浪潮信息宣布推出全新元脑CPU推理服务器，旨在高效支持DeepSeek和千问QwQ等新一代大推理模型。该服务器系列包括NF8260G7和NF8480G7两款机型，采用4颗高性能通用CPU和多通道内存系统，结合先进的张量并行策略和AMX加速技术，能够高效运行DeepSeek-R1 32B和QwQ-32B等大模型，单用户性能超过20 tokens/s，并支持同时处理20个并发用户请求。这一创新设计为企业提供了快速、低成本的AI大模型部署方案，进一步推动了AI技术的普及与应用。

大模型应用加速落地，32B模型成企业首选

随着大模型在行业中的应用日益广泛，DeepSeek-R1 32B和QwQ-32B等模型凭借其卓越的中文处理能力、理解能力和知识储备，成为企业平衡性能与部署成本的最佳选择。浪潮信息与IDC联合发布的《2025年中国人工智能计算力发展评估报告》显示，目前92%的企业使用的生成式AI模型参数量小于50B。相较于超大规模参数模型（如671B），32B级模型在性能和成本之间实现了更好的平衡，尤其适合企业知识库问答、文档写作、会议纪要整理等场景。

DeepSeek-R1 32B在知识问答、智能写作和内容生成方面表现优异，而QwQ-32B则在数学推理、编程任务和长文本处理方面展现出强大能力。得益于海量高质量中文语料库的训练，这两款模型更贴合国内企业的需求，成为企业AI应用落地的理想选择。

元脑CPU推理服务器的技术优势

元脑CPU推理服务器基于通用处理器架构，通过软硬协同优化，为企业提供高效、灵活且稳定的AI通用算力支持。其核心优势包括：

1.高性能算力支持

采用4颗32核心的英特尔至强处理器6448H，支持AMX加速功能，具备强大的BF16精度AI推理能力。

多通道内存系统设计支持32组DDR5内存，最大内存容量达16TB，带宽高达1.2TB/s，满足大模型权重和KVCache的计算与存储需求。

2.创新算法优化

对业界主流的大模型推理服务框架vLLM进行深度优化，通过张量并行和内存绑定技术，充分释放CPU算力和内存带宽潜能。

采用AWQ（激活感知权重量化）技术，进一步提升解码性能，实现2倍性能提升。

3.高可靠性与稳定性

平均无故障时间可达200,000小时，确保关键应用和AI推理任务的持续稳定运行。

实测性能表现亮眼

在实际测试中，元脑CPU推理服务器展现了卓越的性能：

使用DeepSeek-R1 32B进行带思维链的深度思考问答场景时，单机解码性能超过20 tokens/s，20个并发用户下总token数达到255.2 tokens/s。
在使用QwQ-32B进行推理时，支持20个并发用户，总token数达到224.3 tokens/s，为用户提供了流畅稳定的体验。

推动大模型与业务场景深度融合

浪潮信息元脑CPU推理服务器的推出，不仅解决了中小规模并发场景下大模型部署的算力需求，还通过其卓越的通用性和灵活性，支持AI推理、云计算、数据库等多种工作负载，避免了专用AI硬件的局限性。这一设计使企业能够以较低的硬件投入快速实现大模型应用落地，同时与现有IT基础设施无缝融合。

未来展望

浪潮信息表示，元脑服务器研发团队将持续在计算架构、算子调优、并行策略、框架适配和调度管理等方面发力，与行业伙伴紧密合作，为用户提供更高效、稳定的大模型部署方案，助力AI技术在企业中的快速普及与应用。

随着DeepSeek等大模型在企业场景中的广泛应用，浪潮信息元脑CPU推理服务器的推出，无疑将为AI技术的落地与普及注入新的动力。

HTML5+CSS3 响应式设计，博客、杂志、图片、公司企业多种布局可选，集成SEO自定义功能，丰富的主题选项，众多实用小工具。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

热门搜索

大模型应用加速落地，32B模型成企业首选

元脑CPU推理服务器的技术优势

实测性能表现亮眼

推动大模型与业务场景深度融合

未来展望