DeepSeek代码开源第二弹：DeepEP通信库，优化GPU通信

2月25日消息，继昨天开源Flash MLA后，DeepSeek今日向公众开源了DeepEP——第一个用于MoE模型训练和推理的开源EP通信库。

据介绍，DeepEP是一个用于MoE 模型训练和推理的EP Expert Parallelism 通信库，它为所有GPU内核提供高吞吐量和低延迟，也称为MoE调度和组合。该库还支持低精度操作，包括FP8。

同时，DeepEP针对NVLink NVLink是英伟达开发的高速互联技术，主要用于GPU之间的通信，提升带宽和降低延迟到RDMA 远程直接内存访问，一种网络数据传输技术‌，用于跨节点高效通信的非对称带宽转发场景进行了深度优化，不仅提供了高吞吐量，还支持SM Streaming Multiprocessors 数量控制，兼顾训练和推理任务的高吞吐量表现。

对于对延迟敏感的推理解码，DeepEP包含一组低延迟内核和纯RDMA，以最大限度地减少延迟。该库还引入了一种基于钩子的通信计算重叠方法，该方法不占用任何SM资源。

DeepSeek称，DeepEP的实现可能与DeepSeek-V3论文略有不同。

DeepSeek还列出了DeepEP的实际性能：

在H800 NVLink的最大带宽约为160 GB/s 上测试常规内核，每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡最大带宽约为50 GB/s ，并且遵循DeepSeek-V3/R1预训练设置每批次4096个Tokens，7168个隐藏层单元，前4个组，前8个专家模型，使用FP8格式进行调度，使用BF16格式进行合并。

在H800上测试低延迟内核，每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡最大带宽约为50 GB/s ，遵循DeepSeek-V3/R1的典型生产环境设置每批次128个Tokens，7168个隐藏层单元，前8个专家模型，采用FP8格式进行调度，采用BF16格式进行合并。

DeepEP运行环境要求：

Hopper GPU 以后可能支持更多架构或设备

Python 3.8及以上版本

CUDA 12.3及以上

PyTorch 2.1及以上版本

NVLink用于内部节点通信

用于节点间通信的RDMA网络

温馨提示:微信搜索公众号【深圳之窗】,关注后在对话框内回复【资讯】即可获取深圳的各种资讯内容,包含深圳入户,深圳天气,深圳交通,深圳人文,同时,扫描关注文下企微号,可以了解深圳近期的各种福利活动优惠等信息

版权与免责声明:

感谢您访问我们的网站。请在阅读本免责声明之前注意以下内容：

1.该文章主要收集于互联网，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性。

2.本网站的所有信息仅供参考，不构成任何形式的建议或指导。用户应自行承担使用本网站信息的风险。

3.该文章主要来源于互联网,如发现本网站上的文章涉及侵权问题时，建议您立即联系本网站的站长或管理员进行删除处理。