Cohere、多モーダルで多言語のビジョン モデル Aya Vision を発表

この記事は約6分で読めます。

人工知能スタートアップ企業 Cohere は最近、世界中の多言語と多モーダル通信能力を高めるために、Aya Vision という多モーダルで多言語のビジョン モデルを発表しました。Aya Vision は、画像の説明を生成したり、視覚的な質問に答えたり、テキストを翻訳したり、23 の主要な言語の要約を生成したりするなど、複数のタスクを実行することができます。このモデルには、性能と計算効率の両方に優れた Aya Vision 32B と Aya Vision 8B の 2 つのバージョンがあります。

主な機能

  • 画像の説明の生成:Aya Vision は、入力された画像に基づいて正確で詳細な説明テキストを生成することができ、視覚障害者や画像情報を素早く抽出する必要があるシーンに適しています。
  • 視覚的な質問応答(VQA):ユーザーは画像をアップロードして、画像に関連する質問をし、Aya Vision は視覚情報と言語理解能力を組み合わせて正確な答えを提供することができます。
  • 多言語サポート:23 の主要な言語をサポートし、多言語のテキスト入力と出力を処理することができます。異なる言語環境で画像の説明を生成したり、質問に答えたり、テキストを翻訳したりして、言語の障壁を打ち砕くことができます。
  • テキストの翻訳と要約の生成:Aya Vision はテキストの内容を翻訳し、簡潔な要約を生成して、ユーザーが重要な情報拜师学艺を素早く入手するのを助けます。
  • クロスモーダル理解と生成:Aya Vision は視覚情報と言語情報を組み合わせることで、クロスモーダルのインタラクションを実現することができます。例えば、画像の内容をテキストの説明に変換したり、テキストの指示を視覚的な検索結果に変換したりすることができます。

技術の原理

  • 多モーダルアーキテクチャ:Aya Vision は、ビジュアル エンコーダー、ビジュアル ランゲージ コネクター、ランゲージ モデル デコーダーを含むモジュール式アーキテクチャを採用しています。ビジュアル エンコーダーは SigLIP2-patch14-384 をベースにしており、画像の特徴を抽出する責任があります。ビジュアル ランゲージ コネクターは画像の特徴をランゲージ モデルの埋め込み空間にマッピングし、デコーダーはテキストの出力を生成するために使われます。
  • 合成ラベルとデータ強化:多言語性能を向上させるために、Aya Vision は合成ラベル(AI によって生成されたラベル)を使用して訓練されます。これらのラベルは翻訳と言い換え処理を経て、多言語データの品質を強化します。モデルは、計算効率を高めるために、動的画像解像度処理とピクセル シャッフル ダウンサンプリング技術を採用しています。
  • 2 段階のトレーニングプロセス:Aya Vision のトレーニングは、ビジュアル ランゲージ アライメントとスーパーバイズド ファインチューニングの 2 つの段階に分かれています。最初の段階では、ビジュアルとランゲージの表現をアライメントし、2 番目の段階では、コネクターとランゲージ モデルをマルチモーダル タスク上で共同でトレーニングします。
  • 効率的な計算性能:Aya Vision のパラメーター規模は小さい(8B と 32B)ですが、Llama-3.2 90B Vision など、より大きな規模のモデルを凌ぐ性能を複数のベンチマークテストで発揮しています。これは効率的なトレーニング戦略と計算資源の最適化のおかげです。

評価結果

Aya Vision は、AyaVisionBench と mWildVision の 2 つの多言語ベンチマークで評価されました。Aya Vision 32B は AyaVisionBench で 50% - 64% の勝率を示し、mWildVision では 52% - 72% の勝率を示しました。Aya Vision 8B は AyaVisionBench で最大 79% の勝率を示し、mWildVision では最大 81% の勝率を示しました。Aya Vision モデルは、Llama-3.2 90B Vision、Molmo 72B、Qwen2.5-VL 72B など、より大きなモデルよりも多くのタスクと言語で常に優れています。

オープンソースとコミュニティ統合

Aya Vision 8B と 32B は、研究と開発を支援するために Hugging Face にオープンソースのウェイト形式で公開されています。AyaVisionBench と mWildVision のデータセットは公開されており、これらのモデルをテストするには WhatsApp と Hugging Face Spaces を使用することができます。また、これらのモデルをアプリケーションに統合するのに役立つ Colab ノートブックが提供されています。ただし、これらのオープンソースモデルは商用ライセンスではありませんので、研究とテストにのみ使用することができます。

应用场景

  • 教育分野:Aya Vision は、学生や教員が視覚的なコンテンツをよりよく理解するのに役立ちます。例えば、画像の説明機能によって、学生は芸術作品のスタイルや起源を素早く理解することができます。
  • コンテンツ制作:Aya Vision は、マルチリンガルウェブサイトに画像の説明を生成し、ユーザー エクスペリエンスを向上させることができます。ニュースレポート、ストーリー、詩など、創造的なコンテンツを生成するのにも使用できます。
  • 補助ツール:Aya Vision は、視覚障害者が画像の説明を通じて周囲の環境を理解するのを助ける補助ツールとして使用することができます。
  • 多言語翻訳とコミュニケーション:Aya Vision は、23 の言語のテキスト翻訳と要約生成をサポートし、ユーザーが言語の障壁を越えてコミュニケーションを取ることができます。
  • 研究と開発:研究者は、効率性と多言語サポート能力に基づいて、新しいアプリケーション シナリオを探求することができます。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました