深圳资讯
DeepSeek代码开源第二弹:DeepEP通信库,优化GPU通信
Feb 25, 2025 5:48:02 PM

2月25日消息,继昨天开源Flash MLA后,DeepSeek今日向公众开源了DeepEP——第一个用于MoE模型训练和推理的开源EP通信库。

据介绍,DeepEP是一个用于MoE 模型训练和推理的EP Expert Parallelism 通信库,它为所有GPU内核提供高吞吐量和低延迟,也称为MoE调度和组合。该库还支持低精度操作,包括FP8。

同时,DeepEP针对NVLink NVLink是英伟达开发的高速互联技术,主要用于GPU之间的通信,提升带宽和降低延迟 到RDMA 远程直接内存访问,一种网络数据传输技术‌,用于跨节点高效通信 的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM Streaming Multiprocessors 数量控制,兼顾训练和推理任务的高吞吐量表现。

对于对延迟敏感的推理解码,DeepEP包含一组低延迟内核和纯RDMA,以最大限度地减少延迟。该库还引入了一种基于钩子的通信计算重叠方法,该方法不占用任何SM资源。

DeepSeek称,DeepEP的实现可能与DeepSeek-V3论文略有不同。

DeepSeek还列出了DeepEP的实际性能:

在H800 NVLink的最大带宽约为160 GB/s 上测试常规内核,每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡 最大带宽约为50 GB/s ,并且遵循DeepSeek-V3/R1预训练设置 每批次4096个Tokens,7168个隐藏层单元,前4个组,前8个专家 模型 ,使用FP8格式进行调度,使用BF16格式进行合并 。

在H800上测试低延迟内核,每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡 最大带宽约为50 GB/s ,遵循DeepSeek-V3/R1的典型生产环境设置 每批次128个Tokens,7168个隐藏层单元,前8个专家 模型 ,采用FP8格式进行调度,采用BF16格式进行合并 。

DeepEP运行环境要求:

Hopper GPU 以后可能支持更多架构或设备

Python 3.8及以上版本

CUDA 12.3及以上

PyTorch 2.1及以上版本

NVLink用于内部节点通信

用于节点间通信的RDMA网络

温馨提示:微信搜索公众号【深圳之窗】,关注后在对话框内回复【资讯】即可获取深圳的各种资讯内容,包含深圳入户,深圳天气,深圳交通,深圳人文,同时,扫描关注文下企微号,可以了解深圳近期的各种福利活动优惠等信息



版权与免责声明:

感谢您访问我们的网站。请在阅读本免责声明之前注意以下内容:

1.该文章主要收集于互联网,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性。

2.本网站的所有信息仅供参考,不构成任何形式的建议或指导。用户应自行承担使用本网站信息的风险。

3.该文章主要来源于互联网,如发现本网站上的文章涉及侵权问题时,建议您立即联系本网站的站长或管理员进行删除处理。

相关推荐