最近、智源研究院は複数の大学と協力して、多モーダル ベクトル モデル BGE-VL を開発しました。これにより、既存のエコシステムがさらに拡充されました。BGE-VL は、画像とテキストの検索、組み合わせ画像の検索など、主要な多モーダル検索タスクで最高の効果を発揮しました。BGE-VL は、大規模な合成データ MegaPairs を使用してトレーニングされ、優れた拡張性と卓越したデータ品質を備えています。
研究背景
大規模なモデル時代において、情報検索は人々のますます多様化するニーズを満たす必要があります。このニーズは、ユーザーの多モーダルなクエリ入力だけでなく、多モーダルな情報へのニーズにも表れます。例えば、ユーザーは車の外観の写真を撮影し、その車に関する指定の情報を取得したい場合があります。このような場合、多モーダル検索エンジンは、ユーザーの画像とテキストの指示を包括的に理解し、複数のモーダルな情報から最も関連性の高いコンテンツを検索する必要があります。しかし、既存の多モーダル検索モデルは、通常、単一形式のクロスモーダル ペア データ(例えば画像 - テキスト対)を用いてトレーニングされるため、複雑な組み合わせモーダル入力に対処するのが難しくなります。最近では、指令微調整技術は、テキスト検索と大規模言語モデルなどの分野で、マルチタスク能力を強化する効果を証明してきました。しかし、従来の多モーダル検索指令データセットは、大規模な多様なデータの取得を制限する人為的なラベル付けに依存していることが多かったです。この制限を解決するために、智源 BGE チームは革新的な MegaPairs データ合成方法を提案しました。
MegaPairs の構築
MegaPairs は、既存の大規模な画像とテキストのコーパスから、大規模で高品質な多モーダル検索指令データセットを掘り起こし、構築することを提案しました。具体的には、MegaPairs の構築は、以下の 2 つの鍵となるステップに分かれています:
- 複数の類似性モデルを使用して、画像データセットから多様な画像ペアを掘り起こす。
- オープンソースの多モーダル大規模モデルと大規模言語モデルを使用して、オープンドメインの検索指令を合成する。
MegaPairs はまず、大規模な画像データセットから、画像 - テキストデータのペアをサンプリングしてクエリデータとして使用します。次に、複数の画像とテキストの類似性モデルを使用して、関連する画像ペアの複数のグループ(例えば、同じ車の外装と内装、同じ車の異なる塗装、同じブランドの車の未来コンセプト図など)を掘り起こします。次に、これらの掘り起こされた画像ペアに対して、MegaPairs は 2 段階のラベル付け方法を採用します。最初に、多モーダル大規模言語モデル(MLLM)を使用して、2 枚の画像間の関連関係を要約し、次に大規模言語モデル(LLM)を使用して、最終的なオープンドメインの検索指令を書きます。注目に値するのは、MegaPairs は、オープンソースのデータセットとオープンソースのモデルをベースに、自動的に構築とラベル付けを行うことです。複数の類似性モデルと 2 段階のラベル付け方法を導入することで、MegaPairs は、人為的な介入なしに、大規模で高品質で多様な多モーダル検索指令データセットを拡張性を持って生成することができます。
BGE-VL モデル
MegaPairs によって合成された大規模な多モーダル検索指令データセットに基づいて、智源 BGE チームは、3 種類の異なるサイズの多モーダル検索モデルをトレーニングしました。これは、CLIP アーキテクチャに基づく BGE-VL-Base と BGE-VL-Large、そして多モーダル大規模モデルアーキテクチャに基づく BGE-VL-MLLM を含んでいます。チームは、MegaPairs トリプルデータのみを使用してトレーニングすると、モデルが複数のタスクで以前の方法をはるかに凌ぐ優れた性能を発揮することを見い出しました。
包括的な多モーダル埋め込みタスクのパフォーマンス
チームはまず、包括的なベンチマークテストである Massive Multimodal Embedding Benchmark(MMEB)上で BGE-VL モデルの性能を検証しました。MMEB は、4 つの主要カテゴリに分類される 36 の異なる多モーダル埋め込み評価タスクを網羅しています。これらは、分類(Classification)、視覚質問応答(Visual Question Answering)、検索(Retrieval)、視覚定位(Visual Grounding)です。ゼロショット性能において、BGE-VL は MMEB の複数のタスクタイプと全体評価で最優秀な性能を発揮しました。さらに興味深いことに、MegaPairs は MMEB のほとんどのタスクタイプのデータ(例えば、Classification、VQA、Grounding)を含んでおらず、にもかかわらず、優れたタスク汎化能力を発揮しました。
MMEB の設定に従って、チームはさらに BGE-VL を MMEB のインディストリビューション(IND)セット(36 の評価タスクのうち 20 タスクを含む)上でスーパーバイズされた微調整を実施しました。実験結果は、BGE-VL の平均パフォーマンス指標が、MMEB 上で直接微調整された VLM2Vec (LLaVA-1.6) モデルよりも 9.1 パーセンタイル高くなることを示しました。また、アウトオブディストリビューション(OOD)データセット上の平均パフォーマンスも、2 つの VLM2Vec バージョンよりもそれぞれ 11.6% と 7.1% 高くなりました。これらの結果は、MegaPairs データの高品質と汎化能力を証明しています。
組み合わせ画像検索のパフォーマンス
従来の画像検索は、「テキストから画像を検索」または「画像から画像を検索」という方法を採用していました。近年では、組み合わせ画像検索が新しい画像検索のパラダイムとして登場し、ユーザーが画像と検索コマンドを同時に入力して、より正確な画像検索の効果を実現できるようになりました。この方法は、Google によって「次世代の画像検索パラダイム」と呼ばれています。現在の主流の組み合わせ画像検索評価セット CIRCO において、BGE-VL は異なるモデルサイズで既存のベンチマークを大幅に更新しました。Google の MagicLens シリーズや NVIDIA の MM-Embed など、複数の比較基線を大幅に上回りました。具体的には、BGE-VL-MLLM は以前の最先端モデルよりも 8.1 パーセンタイル向上しました。さらに、BGE-VL-Base モデルは、パラメーター数が MM-Embed や E5-V などの大規模モデルベースの多モーダル検索エンジンの 1/50 以下であるにもかかわらず、それらを凌ぐ性能を発揮しました。これらの実験結果は、MegaPairs データの有効性を力強く示しています。
未来の展望
将来、智源は MegaPairs をより豊富な多モーダル検索シナリオと組み合わせることを継続的に探求し、さらに包括的で汎用的な多モーダル検索エンジンを開発していきます。詳細な方法と実験については、論文を参照してください。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?