Comet：ByteDanceが开発したMoEの最适化技术、训练コストを大幅に削减

背景と动机
技术の原理
性能向上
核心优势
大规模な実装と検证
オープンソースと将来の展望
aiスピーキング

背景と动机

混合専门家モデル（MoE）は、伝统的な浓密モデルの计算ボトルネックを突破するためのスパースアクティベーションメカニズムを备えていますが、分散训练中には依然として巨大的な通信开销の问题が存在します。例えば、Mixtral-8x7BモデルはMegatron-LMフレームワークにおける通信时间の割合が40%に达することができ、训练効率とコストを著しく制限しています。この问题を解决するため、ByteDanceの豆包大モデルチームは、モデル训练コストを40%削减することに成功した次世代MoEの最适化技术Cometをオープンソースで公开しました。

技术の原理

Cometは、通信と计算の细粒度重叠を実现するための2つの鍵となる设计を采用しています。

共有テンソルに基づく依赖関系の解决

Cometは、MoEモデルにおける通信と计算操作の间の複雑なデータ依赖関系を分析し、计算通信パイプラインの构造を最适化します。具体的には、共有テンソルをトークン次元（M）または隠れ层次元（N）に沿って切り分け、通信と计算の最小単位を対齐させます。例えば、MoEの最初の层（Layer0）ではM次元に沿って分解し、2番目の层（Layer1）ではN次元に沿って分解することで、细粒度の重叠を実现します。
适応的负荷分配

Cometは、GPUスレッドブロックリソースを动态的に割り当てることで、通信と计算の负荷を正确にバランスを取ることで、パイプラインのバブルを排除します。具体的には、通信と计算タスクをそれぞれ独立したスレッドブロックに封入し、リモートI/Oが计算コアをブロックするのを避けることができます。システムは、入力规模（例えば、トークンの长さM）や并列戦略（EP/TP比）に応じてリアルタイムでスレッドブロックの割り当てを调整し、通信と计算の効率的な重叠を确保します。

性能向上

Cometは、多个の大规模MoEモデルでエンドツーエンドの性能を評価しました。结果は次のとおりです。

8カードのH800实验クラスタにおいて、CometのエンドツーエンドMoEモデル（Mixtral-8x7B、Qwen2-MoEなど）のフォワード遅延は、他のベースラインシステムと比べて31.8％から44.4％低くなりました。
単一のMoE层において、入力トークンの数が異なる場合、Cometの実行时间はベースラインソリューションよりも著しく短く、平均1.28倍から2.37倍の速度向上を実现しました。

核心优势

非侵入的アーキテクチャ设计

Cometは、プラグイン化されたデプロイメントをサポートし、主流の大型モデルフレームワークに适応し、既存の训练フレームワークに複雑な侵入的な変更を加えることなく利用できます。
计算 - 通信演算子の深度融合

Cometは、传统的なソリューションにおけるパイプライン配置の制限を避けて、通信と计算タスクを深度融合することにより、より効果的なリソースの利用を実现します。
动态リソース管理システム

Cometは、ハードウェアの利用率をリアルタイムで最适化し、静态的なリソース割り当てのボトルネックを突破し、通信と计算のシームレスな重叠を确保します。

大规模な実装と検证

Cometは、ByteDanceの万カードGPUクラスタで生产验证を完了し、数百万のGPU时间の累积的な节省を达成しました。この技术は、MLSys 2025会议で5/5/5/4の高得点评审を获得し、大规模な生产环境における极めて高い应用価値が公认されました。

オープンソースと将来の展望

Cometの核心コードはすでにオープンソース化され、Tritonなどの编译エコシステムとの互换性を计画しています。Cometは、TP/EP/EP+TPの多种并列モードをサポートし、効率的で使いやすいMoE训练加速ソリューションを业界に提供する、プラグイン化されたデプロイメント缲り広げられています。

opensourceアドレス：https://github.com/bytedance/flux
论文リンク：https://arxiv.org/pdf/2502.19811

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品（pronunciation assessment）は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API（pronunciation assessment api）は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品（pronunciation assessment）を試してみませんか？

オンラインお試し