浪潮信息元脑R1推理服务器已完成对开源框架SGLang新版本的深度适配,成功实现在单机高性能运行DeepSeek R1 671B模型时可支持超过1000路的用户并发访问。
浪潮元脑R1推理服务器NF5688G7原生搭载FP8计算引擎,针对DeepSeek R1 671B模型部署速度快且无精度损失,1128GB HBM3e高速显存满足671B模型 FP8精度下不低于800GB显存容量的需求,单机支持全量模型推理情况下,仍保留充足的KV缓存空间。显存带宽高达4.8TB/s,契合DeepSeek R1模型"短输入长输出、显存带宽敏感"的技术特征,在推理解码阶段可实现高速加速。在通信方面,GPU P2P带宽达900GB/s,保障单机部署张量并行通讯性能。