DeepEP:MoE モデルを最適化した効率的な通信ライブラリ

この記事は約8分で読めます。

概要

DeepEP は、混合専門家モデル(Mixture-of-Experts、MoE)と専門家並列処理(Expert Parallelism、EP)向けに設計された効率的な通信ライブラリです。全対全 GPU カーネルの高スループットと低遅延を提供することで、分散トレーニングと推論における MoE モデルの通信ボトルネックを大幅に低減します。DeepEP の目標は、大規模 AI ワークロードをサポートし、トレーニングコストを削減し、パフォーマンスを向上させ、先進的な AI 研究をよりアクセスしやすくすることです。

コア機能

高効率な全対全通信

DeepEP は、MoE モデルの分離(Dispatch)と結合(Combine)操作に使用される効率的な全対全(All-to-All)通信カーネルを提供します。これらの操作は、複数の GPU 間の大量データ交換を伴う MoE モデルのコア通信タスクです。通信プロトコルを最適化することで、DeepEP は高スループットと低遅延を実現し、モデルのトレーニングと推論のパフォーマンスを最大化します。

ノード内とノード間の通信サポート

DeepEP は、ノード内(Intranode)とノード間(Internode)の通信をサポートし、それぞれに NVIDIA の NVLink と RDMA(Remote Direct Memory Access)技術を使用します。NVLink は、ノード内 GPU 間の超高帯域幅(最大 153 GB/s)と低遅延通信を提供し、密集型計算タスクに適しています。RDMA は、InfiniBand または他の高性能ネットワークを通じてノード間の効率的なデータ伝送を実現し、最大帯域幅は 50 GB/s に達します。

高スループットと低遅延カーネル

DeepEP は、異なる使用シーン向けに 2 種類のカーネルを提供します。

  • 高スループットカーネル:トレーニングと推論の事前充填(Prefilling)フェーズに適しており、データ伝送効率を最適化し、大規模なデータ交換を処理できます。

  • 低遅延カーネル:推論のデコード(Decoding)フェーズ向けに設計され、純粋な RDMA 技術を使用して遅延を最小限に抑えます(例えば、163 µs の分離遅延と 318 µs の結合遅延)。

ネイティブ FP8 サポート

DeepEP は、深度学習でますます一般的な低精度計算形式である FP8(8 ビット浮動小数点)をネイティブにサポートしています。FP8 は、メモリ使用量と計算コストを大幅に削減しながら、モデルの精度を維持するのに十分な性能を発揮し、MoE モデルの分離と結合操作に特に適しています。

ジェネレーティブ GPU リソースコントロール

DeepEP は、ユーザーが GPU のストリーミングマルチプロセッサ(Streaming Multiprocessors、SM)の数を柔軟に制御できるようにし、計算と通信のオーバーラップを最適化します。フックベースの通信 - 計算オーバーラップメカニズムを導入することで、DeepEP は SM リソースを占有せずに効率的な並列処理を実現し、システムリソースの利用率を大幅に向上させます。

技術実装の詳細

非対称ドメイン帯域幅転送

DeepEP は、DeepSeek-V3 論文で提案されたグループ制限ゲートアルゴリズム(Group-Limited Gating Algorithm)に従って、NVLink と RDMA 間のデータ転送を最適化しています。例えば、H800 GPU 上では、DeepEP はノード内 153 GB/s とノード間 43-47 GB/s の帯域幅ボトルネックを実現し、トレーニングと推論のスループットを大幅に向上させます。

低遅延 RDMA カーネル

遅延に敏感な推論デコードタスク向けに、DeepEP は純粋な RDMA カーネルを使用して極めて低い通信遅延を実現しています。例えば、典型的な生産環境(128 トークン毎バッチ、7168 隠れ層、Top-8 専門家、FP8 分離と BF16 結合)では、遅延は 163 µs(分離)と 318 µs(結合)に低減されます。さらに、DeepEP は、ネットワーク拥塞をさらに減らすために、アダプティブルーティング(Adaptive Routing)とトラフィック分離(InfiniBand Virtual Lanes 経由)をサポートしています。

PTX 指令の最適化

DeepEP は、Hopper アーキテクチャ GPU 上で極限のパフォーマンス最適化を実現するために、公式ドキュメントに定義されていない PTX 指令(例えば ld.global.nc.L1::no_allocate.L2::256B)を使用しています。ただし、これらの指令には未定義の動作のリスクがあるかもしれません。

ダブルバッチオーバーラップ

推論デコードフェーズでは、DeepEP はフックメカニズムを通じて、注意力、分散、MoE、結合フェーズの並列処理を実現するダブルバッチ(Double-Batch)オーバーラップ技術をサポートしています。これは、SM リソースを占有することなく実現されます。

アプリケーションシーン

大規模 MoE モデルトレーニング

MoE モデルは、複数の専門家間で計算タスクを動的に割り当てることによって、モデルの性能を維持しながら計算コストを削減することができます。DeepEP の高スループットと低遅延通信能力は、大規模な MoE モデル(例えば DeepSeek-V3)のトレーニングに理想的な選択です。

リアルタイム推論の最適化

推論フェーズでは、特にデコードタスクにおいて、低遅延通信が非常に重要です。DeepEP の低遅延カーネルと柔軟なリソースコントロールは、リアルタイム AI アプリケーションのパフォーマンスを保証します。

高性能計算と AI ワークロード

NVLink と RDMA を組み合わせることで、DeepEP はデータセンターとクラスタ環境における高性能計算タスクに適しています。特に、AI、データ分析、科学計算分野で活用できます。

DeepEP が重要な理由

MoE モデルの普及を促進する

MoE モデルは、その効率性和拡張性から注目されていますが、通信コストがボトルネックとなっていました。DeepEP は、通信プロセスを最適化することで、MoE モデルの導入のハードルを下げ、より多くの研究者や開発者がこの技術を利用できるようにします。

オープンソースコミュニティへの貢献

DeepSeek の #OpenSourceWeek の第 2 項目として公開された DeepEP は、オープンサイエンスと協力的なイノベーションへの DeepSeek のコミットメントを体現しています。詳細なドキュメントとコードを提供することで、DeepEP は世界中の開発者の改良と拡張を促進しています。

技術フロンティアのブレイクスルー

DeepEP は、最新のハードウェア技術(例えば NVLink、RDMA、FP8)とソフトウェアの最適化(例えば PTX 指令やフックメカニズム)を活用し、AI インフラストラクチャ分野の最新の進歩を代表しています。

DeepEP の入手と使用方法

DeepEP は現在、GitHub 上でオープンソースとなっており、アドレスは https://github.com/deepseek-ai/DeepEP です。DeepEP を入手して使用するための基本的な手順は以下の通りです。

1.リポジトリのクローン:以下のコマンドを使用して DeepEP リポジトリをクローンします。

git clone https://github.com/deepseek-ai/DeepEP.git

2.依存関係のインストール

システムに NVIDIA CUDA ドライバー、RDMA スタック(例えば OFED)と GPUDirect RDMA をサポートする GPU をインストールしてください。 GitHub リポジトリの NVSHMEM インストールガイドに従って、変更された NVSHMEM ライブラリをインストールしてください。

3.ビルドとテスト

リポジトリのビルド指示に従って DeepEP をビルドします。 提供されるテストスクリプトを実行して、高スループットと低遅延カーネルのパフォーマンスを確認します。

4.設定の最適化

具体的なワークロードに応じて SM の数、ルーティングポリシー、仮想レーンの割り当てを調整して、最適なパフォーマンスを得ます。

コミュニティフィードバックと今後の見通し

DeepSeek の Twitter 投稿の後、コミュニティからの反応は非常に熱烈でした。多くのユーザーが DeepEP を MoE のトレーニングと推論の「ゲームチェンジャー」と称賛し、その NVLink と RDMA のサポートを高く評価しました。しかし、一部のユーザーは技術的な詳細に困惑していることも表明しました。これは、DeepEP が初心者のためのより直感的なドキュメントやチュートリアルを必要とする可能性があることを示唆しています。今後、DeepSeek は DeepEP をさらに最適化し、より多くのハードウェアアーキテクチャや通信プロトコルのサポートを追加する可能性があります。また、現在の低遅延カーネルにおけるアダプティブルーティングの潜在的なデッドロック問題を解決する予定です。コミュニティのフィードバックと貢献は、DeepEP の継続的な改善を推進するでしょう。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました