+ 微信号:18391816005

陕西益东科技供应中科可控服务器|宁畅|H3C|飞塔|群晖等国产信创数据库、AI工作站等。

绿色计算 持续创新服务器、存储及软件技术服务

服务热线 183 9181 6005
您所在的位置:首页 > 信息动态  > 解决方案
浪潮信息:推出CPU推理服务器支持DeepSeek和QwQ,元脑加速AI普及
来源:www.ict029.cn  |  发布时间:2025年03月20日

浪潮元脑CPU推理服务器NF8260G7/G7采用4颗高性能CPU与AMX加速技术,单机支持20并发用户,性能超20tokens/s,结合32B级模型DeepSeek-R1和QwQ-32B的中文处理优势,以通用算力实现稳定的大模型部署,助力企业低投入快速落地AI应用。




面对CPU服务器部署大模型面临算力和带宽方面的挑战,元脑CPU推理服务器采用了多项创新技术。

■ 在算力方面,元脑CPU推理服务器NF8260G7和NF8480G7,设计上采用4颗32核心的英特尔至强处理器6448H,具有AMX(高 级矩阵扩展)AI加速功能,支持张量并行计算,并通过多通道内存系统设计可支持32组DDR5内存,从而在单机具备超 强的BF16精度AI推理能力、支持16T内存容量和1.2TB/s内存带宽,可以更好满足模型权重、KVCache等计算和存储需求,快速读取和存储数据,大幅提升大模型推理性能。同时,元脑四路服务器具备高可靠性,平均无故障时间可达200,000小时,保障关键应用和AI推理应用持续稳定运行。



■ 在算法方面,元脑CPU推理服务器对业界主流的企业级大模型推理服务框架vLLM进行深度定制优化,通过张量并行和内存绑定技术,充分释放服务器CPU算力和内存带宽潜能,实现多处理器并行计算,效率可提升4倍,并使用AWQ(激活感知权重量化)技术进一步加速解码性能,实现了2倍解码性能提升。测试数据显示,基于单台NF8260G7,在使用DeepSeek-R1 32B进行带思维链深度思考的短输入长输出的问答场景下,解码性能超过20tokens/s,20个并发用户下,总token数达到255.2tokens/s;在使用QwQ-32B进行模型推理时,支持20个并发用户数,总token数达到224.3tokens/s,可以提供流畅稳定的用户体验。



联系我们
  • 联系人:张经理 183 9181 6005
  • 电子邮箱:84059@163.com
  • 公司地址:陕西•西安雁塔区西影路101号
  • 网站备案:陕ICP备17020476号
  • 版权所有:陕西益东网络信息科技有限公司
关注我们
  • 微信咨询
  • 手机访问