吞吐性能飙升60%！超聚变FusionOne AI单机跑满血DeepSeek

行业资讯

行业资讯

超聚变服务器

行业资讯

您当前的位置：首页 » 信息动态 » 行业资讯

吞吐性能飙升60%！超聚变FusionOne AI单机跑满血DeepSeek

来源：www.ict029.com 发布时间：2025年04月07日

近日，超聚变FusionOne AI大模型一体机通过软硬协同，深度调优，成功打破了H20运行DeepSeek满血大模型的性能天*板。在模拟问题对话场景（上下文序列长度1K/1K）下，仅需1台FusionServer G8600搭载8张H20硬件，即可流畅运行DeepSeek R1满血版，支持1024并发访问数，总吞吐量高达6335 token/s，性能领*业内H20方案60%。其中，TPOT（Time per Output Token）时延相比业内H20方案减少40%，单台FusionOne AI大模型一体机即可支撑数千人规模企业使用，将单机H20运行大模型的性能推向新高度。

超聚变FusionOne AI大模型一体机以低成本、性能跃升的双重突破，大幅降低DeepSeek-R1 671B 模型的部署门槛，以普惠形态让更多企业和科研机构能够轻松应用。未来，超聚变将持续加大研发投入，聚焦AI算力化与应用拓展，加速企业AI应用落地。

软硬协同调优，打破 H20 性能天花板

• 算力释放，显存分配：通过内核优化，提升显存空间利用率20%，KV cache池使用率提升至93%，保障模型参数、过程KV运行

• 数据、模型并行调度：通过DP数据并行、TP模型张量并行技术，调度多卡分布式并行计算，提升token产生的吞吐效率50%，提升计算效能

• 推理任务切片混合调度： Prefill阶段（首token输出阶段任务）长文本切片, 加速初始内容生成速度，同时在每个切片计算过程中，混合调度Decode任务（后续token迭代生成任务）并行运行, 无需串行等待，提高资源利用率，降低 TTFT（Time to First Token）和 TPOT（Time per Output Token ）。

上一条: 没有了 下一条: 超聚变CX5200 V5服务器是针对人工智能、HPC、云计算和大数据处理等业务需求推出的AI服务器

行业资讯

超聚变服务器

行业资讯

吞吐性能飙升60%！ 超聚变FusionOne AI单机跑满血DeepSeek

【相关文章】

【相关产品】

联系方式

吞吐性能飙升60%！超聚变FusionOne AI单机跑满血DeepSeek