人工知能大規模言語モデル(LLM)の発展に伴い、モデルの規模拡大は技術進歩を推進する重要な方向となっています。しかし、それに伴う推論コストとメモリアクセス効率の問題が、大規模言語モデルの広範な応用を很大程度に制限しています。最近、ByteDance DouBao 大規模言語モデルチームは、全新的な希疏アーキテクチャ UltraMem を提案しました。このアーキテクチャは、推論コストを大幅に下げながら、推論速度を大幅に向上させ、大規模言語モデルの効率的な応用に新しい道を開きました。
背景紹介
ByteDance DouBao 大規模言語モデルチームは 2023 年に設立され、最先端の AI 大規模言語モデル技術を開発することを目指し、世界トップレベルの研究チームになることを目指し、科学と社会の発展に貢献することを目指しています。チームの研究分野は、ディープラーニング、強化学習、LLM、音声、ビジョン、AI Infra などに及び、中国、シンガポール、アメリカなど世界各地に研究所とポジションを設けています。
UltraMem アーキテクチャの提案
大規模言語モデルのトレーニングと推論プロセスにおいて、モデルの性能はパラメーターの数と計算の複雑さと対数関係にあります。モデルの規模が拡大するにつれて、推論コストが急激に増加し、速度が遅くなります。既存の MoE(Mixture of Experts)アーキテクチャは、計算とパラメーターを分離することに成功しましたが、推論時に、小さな batch size がすべての専門家を活性化するため、メモリアクセスのボトルネックが発生し、推論遅延が大幅に増加します。
この問題を解決するために、ByteDance DouBao 大規模言語モデルチームは UltraMem アーキテクチャを提案しました。このアーキテクチャは、モデルの効果を維持しながら、推論時のメモリアクセス問題を効果的に解決し、MoE アーキテクチャに比べて推論速度が 2-6 倍向上し、推論コストは最大 83% 下がります。
UltraMem アーキテクチャの主要な革新
UltraMem アーキテクチャの主要な革新は以下の 3 つです。
モデル構造の最適化:UltraMem は PKM(Product Key Memory)の設計を参考にしましたが、PKM の欠点を改善しました。チームは単一のメモリ層を複数の小さなメモリ層に分割し、Transformer 層に一定の間隔で配置しました。さらに、スキップ層操作を追加して、モデルがメモリ層のメモリアクセス操作と Transformer 層の計算を並列に実行できるようにしました。
value 検索方式の最適化:検索時には、UltraMem はより複雑な乗法方式である Tucker Decomposed Query-Key Retrieval(TDQKR)を採用しています。この方法は、組み合わせ乗算加算の方法で、各 value に複雑な score を生成し、検索効率を高めます。
希疏パラメーターの隠蔽拡張:希疏パラメーターを増やすことで性能を向上させることができます。しかし、多くのパラメーターを増やすと、メモリとデプロイコストが増加するため、チームは Implicit Value Expansion(IVE)方法を提案しました。virtual memory と physical memory の概念を導入することで、UltraMem は希疏パラメーターを隠蔽的に拡張し、計算量を維持したままモデルの性能を向上させることができます。
実験結果
実験結果は、UltraMem が複数のモデルサイズで MoE よりも優れた性能を示すことを示しています。151M、680M、1.6B の 3 つのサイズの活性化パラメーターで実施された広範な実験では、UltraMem は 680M と 1.6B のサイズで顕著な効果の優位性を示しました。希疏パラメーターが増加すると、UltraMem の効果と推論速度は大幅に向上しました。具体的には、UltraMem は希疏パラメーターを増やすと推論時間がほとんど変化しませんが、MoE は大幅な増加の傾向があります。
さらに、研究チームは、UltraMem の各改善措置がモデルの性能に与える貢献を検証するための包括的なアブレーション実験を実施しました。実験結果は、UltraMem が推論速度と性能の両方で MoE よりも優れており、推論コストは最大 83% 下がることが示されました。
未来の展望
UltraMem アーキテクチャの提案は、大規模言語モデルの効率的な応用に新しいアイデアを提供しました。このアーキテクチャは、推論速度とコストの両方に顕著な優位性を持ちながら、性能も既存の MoE アーキテクチャを上回っています。今後、チームは希疏パラメーターをさらに最適化する方法、希疏モデルの推論能力を向上させる方法、希疏パラメーターをより効果的に活性化する方法などの技術的方向性を継続して探求し、大規模言語モデル技術の更なる発展を推進します。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?