浪潮信息：推出CPU推理服务器支持DeepSeek和QwQ，元脑加速AI普及

微信号：18391816005

陕西益东科技供应中科可控服务器|宁畅|H3C|飞塔|群晖等国产信创数据库、AI工作站等。

浪潮服务器|网站地图

您所在的位置：首页 > 信息动态 > 解决方案

信息中心

产品资讯

相关产品

浪潮信息：推出CPU推理服务器支持DeepSeek和QwQ，元脑加速AI普及

来源：www.ict029.cn | 发布时间：2025年03月20日

浪潮元脑CPU推理服务器NF8260G7/G7采用4颗高性能CPU与AMX加速技术，单机支持20并发用户，性能超20tokens/s，结合32B级模型DeepSeek-R1和QwQ-32B的中文处理优势，以通用算力实现稳定的大模型部署，助力企业低投入快速落地AI应用。

面对CPU服务器部署大模型面临算力和带宽方面的挑战，元脑CPU推理服务器采用了多项创新技术。

■ 在算力方面，元脑CPU推理服务器NF8260G7和NF8480G7，设计上采用4颗32核心的英特尔至强处理器6448H，具有AMX（高级矩阵扩展）AI加速功能，支持张量并行计算，并通过多通道内存系统设计可支持32组DDR5内存，从而在单机具备超强的BF16精度AI推理能力、支持16T内存容量和1.2TB/s内存带宽，可以更好满足模型权重、KVCache等计算和存储需求，快速读取和存储数据，大幅提升大模型推理性能。同时，元脑四路服务器具备高可靠性，平均无故障时间可达200,000小时，保障关键应用和AI推理应用持续稳定运行。

■ 在算法方面，元脑CPU推理服务器对业界主流的企业级大模型推理服务框架vLLM进行深度定制优化，通过张量并行和内存绑定技术，充分释放服务器CPU算力和内存带宽潜能，实现多处理器并行计算，效率可提升4倍，并使用AWQ（激活感知权重量化）技术进一步加速解码性能，实现了2倍解码性能提升。测试数据显示，基于单台NF8260G7，在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下，解码性能超过20tokens/s，20个并发用户下，总token数达到255.2tokens/s；在使用QwQ-32B进行模型推理时，支持20个并发用户数，总token数达到224.3tokens/s，可以提供流畅稳定的用户体验。

上一条: 浪潮元脑NF5270G7服务器，助力中小企业数字化转型 下一条: 浪潮元脑R1服务器支持开源框架SGLang，单机DeepSeek 671B并发超1000

产品导航

联系我们

联系人：张经理 183 9181 6005
电子邮箱：84059@163.com
公司地址：陕西•西安雁塔区西影路101号
网站备案：陕ICP备17020476号

关注我们

微信咨询
手机访问

绿色计算持续创新服务器、存储及软件技术服务

信息中心

产品资讯

相关产品

中科可控R6250A0 服务器

中科可控R6240H0服务器

中科可控H620-G30服务器

中科可控R620 H40服务器

绿色计算 持续创新服务器、存储及软件技术服务

信息中心

产品资讯

相关产品

中科可控R6250A0 服务器

中科可控R6240H0服务器

中科可控H620-G30服务器

中科可控R620 H40服务器

绿色计算持续创新服务器、存储及软件技术服务