行业资讯

您当前的位置:首页 » 信息动态 » 行业资讯

吞吐性能飙升60%! 超聚变FusionOne AI单机跑满血DeepSeek

来源:www.ict029.com 发布时间:2025年04月07日

近日,超聚变FusionOne AI大模型一体机通过软硬协同,深度调优,成功打破了H20运行DeepSeek满血大模型的性能天*板。在模拟问题对话场景(上下文序列长度1K/1K)下,仅需1台FusionServer G8600搭载8张H20硬件,即可流畅运行DeepSeek R1满血版,支持1024并发访问数,总吞吐量高达6335 token/s,性能领*业内H20方案60%。其中,TPOT(Time per Output Token)时延相比业内H20方案减少40%,单台FusionOne AI大模型一体机即可支撑数千人规模企业使用,将单机H20运行大模型的性能推向新高度。


超聚变FusionOne AI大模型一体机以低成本、性能跃升的双重突破,大幅降低DeepSeek-R1 671B 模型的部署门槛,以普惠形态让更多企业和科研机构能够轻松应用。未来,超聚变将持续加大研发投入,聚焦AI算力化与应用拓展,加速企业AI应用落地。




软硬协同调优,打破 H20 性能天花板

• 算力释放,显存分配:通过内核优化,提升显存空间利用率20%,KV cache池使用率提升至93%,保障模型参数、过程KV运行

• 数据、模型并行调度:通过DP数据并行、TP模型张量并行技术,调度多卡分布式并行计算,提升token产生的吞吐效率50%,提升计算效能

• 推理任务切片混合调度: Prefill阶段(首token输出阶段任务)长文本切片, 加速初始内容生成速度,同时在每个切片计算过程中,混合调度Decode任务(后续token迭代生成任务)并行运行, 无需串行等待,提高资源利用率,降低 TTFT(Time to First Token) 和 TPOT(Time per Output Token )。


+ 微信号:18391816005