DeepSeek一口气开源3个项目，还有梁文锋亲自参与，昨晚API大降价_新闻中心

实现顶级 AI 性能的秘诀，就在这里了。

DeepSeek 的开源周已经进行到了第四天（前三天报道见文末「相关阅读」）。今天这家公司一口气发布了两个工具和一个数据集：DualPipe、EPLB 以及来自训练和推理框架的分析数据。

DeepSeek 表示，DualPipe 曾在 V3/R1 的训练中使用，是一种用于计算 - 通信重叠的双向 pipeline 并行算法。

EPLB 是为 V3/R1 打造的专家 - 并行负载均衡器。

而公布训练和推理框架的分析数据是为了帮助社区更好地理解通信 - 计算重叠策略和底层实现细节。

DualPipe 链接：deepseek-ai/DualPipe

EPLB 链接：deepseek-ai/eplb

计算分析链接：deepseek-ai/profile-data

值得一提的是，在 DualPipe 的 GitHub 上，DeepSeek 创始人梁文锋位列开发者行列之中。

技术语言可能不好理解，我们来看一下网友给出的比喻：

想象一下，训练一个庞大的语言模型就像指挥一个交响乐团。每个 GPU 就像一位音乐家，执行其分配的计算任务，而训练框架则充当指挥，保持一切完美同步。在典型设置中，音乐家们可能需要等待彼此，造成尴尬的停顿。这些延迟，被称为流水线气泡，会减慢整个过程。

DualPipe 通过允许不同部分并行工作来消除这些低效，就像弦乐部演奏的同时铜管部也在排练。这种努力的重叠确保没有停机时间。

有网友评价说，「DualPipe 不仅仅是另一种流水线并行实现。它解决的根本问题是标准流水线并行中固有的低效率。传统方法如 1F1B（一次前向，一次后向）甚至 Zero Bubble（ZB1P）都存在流水线气泡 —— 即各计算单元等待数据时的空闲时间。DualPipe 旨在实现前向和后向计算 - 通信阶段的完全重叠，最大限度地减少了这些气泡。」

而关于 EPLB，我们可以这么理解：传统的数据并行就像给每个人一份整个项目的副本 —— 既浪费又缓慢。专家并行（EP），即每个专家驻留在不同的 GPU 上，如果可以平衡负载，则效率要高得多。EPLB 就是为了解决这种专家失衡问题而设计的。这不仅仅是分配专家；它是关于智能地分配它们，以最大限度地提高 GPU 利用率和最小化通信开销。

到现在为止，DeepSeek 似乎已经把发布 V3、R1 模型时未公布的很多训练、部署细节也公开了出来。人们不仅可以在此基础上更好地使用 DeepSeek 模型，在使用其他大模型时也能获得助益。

明天周五，是开源周的最后一天，DeepSeek 有可能用 R2 来收尾吗？

让我们先来看看今天开源的三个项目。

DualPipe

DualPipe 是在 DeepSeek-V3 技术报告中引入的一种创新的双向流水线并行算法。它实现了前向和后向计算 - 通信阶段的完全重叠，同时减少了流水线气泡。有关计算 - 通信重叠的详细信息，请参阅配置文件数据：deepseek-ai/profile-data

调度

DualPipe 调度示例：8 个流水线并行（PP）级别和 20 个双向 micro-batch。反向的 micro-batch 与前向的 micro-batch 对称，因此图中省略了它们的 batch ID 。被共享的黑色边框包围的两个单元格具有相互重叠的计算和通信。

有网友制作了 DualPipe 与其他两种方法 ——1F1B and ZB1P 的对比图：

Pipeline 气泡和内存使用情况比较

武汉欧拜科技有限公司

医药中间体|金属漆|盐酸|一元醇|柔软剂|羧酸

188

0

0

近期更新文章

主推文章

创作者推荐