近日,浪潮信息宣布推出全新元脑CPU推理服务器,旨在高效支持DeepSeek和千问QwQ等新一代大推理模型。该服务器系列包括NF8260G7和NF8480G7两款机型,采用4颗高性能通用CPU和多通道内存系统,结合先进的张量并行策略和AMX加速技术,能够高效运行DeepSeek-R1 32B和QwQ-32B等大模型,单用户性能超过20 tokens/s,并支持同时处理20个并发用户请求。这一创新设计为企业提供了快速、低成本的AI大模型部署方案,进一步推动了AI技术的普及与应用。
大模型应用加速落地,32B模型成企业首选
随着大模型在行业中的应用日益广泛,DeepSeek-R1 32B和QwQ-32B等模型凭借其卓越的中文处理能力、理解能力和知识储备,成为企业平衡性能与部署成本的最佳选择。浪潮信息与IDC联合发布的《2025年中国人工智能计算力发展评估报告》显示,目前92%的企业使用的生成式AI模型参数量小于50B。相较于超大规模参数模型(如671B),32B级模型在性能和成本之间实现了更好的平衡,尤其适合企业知识库问答、文档写作、会议纪要整理等场景。
DeepSeek-R1 32B在知识问答、智能写作和内容生成方面表现优异,而QwQ-32B则在数学推理、编程任务和长文本处理方面展现出强大能力。得益于海量高质量中文语料库的训练,这两款模型更贴合国内企业的需求,成为企业AI应用落地的理想选择。
元脑CPU推理服务器的技术优势
元脑CPU推理服务器基于通用处理器架构,通过软硬协同优化,为企业提供高效、灵活且稳定的AI通用算力支持。其核心优势包括:
1.高性能算力支持
采用4颗32核心的英特尔至强处理器6448H,支持AMX加速功能,具备强大的BF16精度AI推理能力。
多通道内存系统设计支持32组DDR5内存,最大内存容量达16TB,带宽高达1.2TB/s,满足大模型权重和KVCache的计算与存储需求。
2.创新算法优化
对业界主流的大模型推理服务框架vLLM进行深度优化,通过张量并行和内存绑定技术,充分释放CPU算力和内存带宽潜能。
采用AWQ(激活感知权重量化)技术,进一步提升解码性能,实现2倍性能提升。
3.高可靠性与稳定性
平均无故障时间可达200,000小时,确保关键应用和AI推理任务的持续稳定运行。
实测性能表现亮眼
在实际测试中,元脑CPU推理服务器展现了卓越的性能:
- 使用DeepSeek-R1 32B进行带思维链的深度思考问答场景时,单机解码性能超过20 tokens/s,20个并发用户下总token数达到255.2 tokens/s。
- 在使用QwQ-32B进行推理时,支持20个并发用户,总token数达到224.3 tokens/s,为用户提供了流畅稳定的体验。
推动大模型与业务场景深度融合
浪潮信息元脑CPU推理服务器的推出,不仅解决了中小规模并发场景下大模型部署的算力需求,还通过其卓越的通用性和灵活性,支持AI推理、云计算、数据库等多种工作负载,避免了专用AI硬件的局限性。这一设计使企业能够以较低的硬件投入快速实现大模型应用落地,同时与现有IT基础设施无缝融合。
未来展望
浪潮信息表示,元脑服务器研发团队将持续在计算架构、算子调优、并行策略、框架适配和调度管理等方面发力,与行业伙伴紧密合作,为用户提供更高效、稳定的大模型部署方案,助力AI技术在企业中的快速普及与应用。
随着DeepSeek等大模型在企业场景中的广泛应用,浪潮信息元脑CPU推理服务器的推出,无疑将为AI技术的落地与普及注入新的动力。
HTML5+CSS3 响应式设计,博客、杂志、图片、公司企业多种布局可选,集成SEO自定义功能,丰富的主题选项,众多实用小工具。
评论