Comet:ByteDanceが开発したMoEの最适化技术、训练コストを大幅に削减

この記事は約4分で読めます。

背景と动机

混合専门家モデル(MoE)は、伝统的な浓密モデルの计算ボトルネックを突破するためのスパースアクティベーションメカニズムを备えていますが、分散训练中には依然として巨大的な通信开销の问题が存在します。例えば、Mixtral-8x7BモデルはMegatron-LMフレームワークにおける通信时间の割合が40%に达することができ、训练効率とコストを著しく制限しています。この问题を解决するため、ByteDanceの豆包大モデルチームは、モデル训练コストを40%削减することに成功した次世代MoEの最适化技术Cometをオープンソースで公开しました。

技术の原理

Cometは、通信と计算の细粒度重叠を実现するための2つの鍵となる设计を采用しています。

  1. 共有テンソルに基づく依赖関系の解决

    Cometは、MoEモデルにおける通信と计算操作の间の複雑なデータ依赖関系を分析し、计算通信パイプラインの构造を最适化します。具体的には、共有テンソルをトークン次元(M)または隠れ层次元(N)に沿って切り分け、通信と计算の最小単位を対齐させます。例えば、MoEの最初の层(Layer0)ではM次元に沿って分解し、2番目の层(Layer1)ではN次元に沿って分解することで、细粒度の重叠を実现します。

  2. 适応的负荷分配

    Cometは、GPUスレッドブロックリソースを动态的に割り当てることで、通信と计算の负荷を正确にバランスを取ることで、パイプラインのバブルを排除します。具体的には、通信と计算タスクをそれぞれ独立したスレッドブロックに封入し、リモートI/Oが计算コアをブロックするのを避けることができます。システムは、入力规模(例えば、トークンの长さM)や并列戦略(EP/TP比)に応じてリアルタイムでスレッドブロックの割り当てを调整し、通信と计算の効率的な重叠を确保します。

性能向上

Cometは、多个の大规模MoEモデルでエンドツーエンドの性能を評価しました。结果は次のとおりです。

  • 8カードのH800实验クラスタにおいて、CometのエンドツーエンドMoEモデル(Mixtral-8x7B、Qwen2-MoEなど)のフォワード遅延は、他のベースラインシステムと比べて31.8%から44.4%低くなりました。

  • 単一のMoE层において、入力トークンの数が異なる場合、Cometの実行时间はベースラインソリューションよりも著しく短く、平均1.28倍から2.37倍の速度向上を実现しました。

核心优势

  1. 非侵入的アーキテクチャ设计

    Cometは、プラグイン化されたデプロイメントをサポートし、主流の大型モデルフレームワークに适応し、既存の训练フレームワークに複雑な侵入的な変更を加えることなく利用できます。

  2. 计算 - 通信演算子の深度融合

    Cometは、传统的なソリューションにおけるパイプライン配置の制限を避けて、通信と计算タスクを深度融合することにより、より効果的なリソースの利用を実现します。

  3. 动态リソース管理システム

    Cometは、ハードウェアの利用率をリアルタイムで最适化し、静态的なリソース割り当てのボトルネックを突破し、通信と计算のシームレスな重叠を确保します。

大规模な実装と検证

Cometは、ByteDanceの万カードGPUクラスタで生产验证を完了し、数百万のGPU时间の累积的な节省を达成しました。この技术は、MLSys 2025会议で5/5/5/4の高得点评审を获得し、大规模な生产环境における极めて高い应用価値が公认されました。

オープンソースと将来の展望

Cometの核心コードはすでにオープンソース化され、Tritonなどの编译エコシステムとの互换性を计画しています。Cometは、TP/EP/EP+TPの多种并列モードをサポートし、効率的で使いやすいMoE训练加速ソリューションを业界に提供する、プラグイン化されたデプロイメント缲り広げられています。

opensourceアドレス:https://github.com/bytedance/flux
论文リンク:https://arxiv.org/pdf/2502.19811

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました