NVIDIA Cosmos-Reason1:実際の物理世界への推理の拡張

この記事は約4分で読めます。

NVIDIA Cosmos-Reason1は、NVIDIAが提供する一連のマルチモーダル大規模言語モデルであり、物理的な常識を理解し、自然言語で適切な具現化された決定を生成するための長鎖思考プロセスを持っています。Cosmos-Reason1には、Cosmos-Reason1-8BとCosmos-Reason1-56Bの2つのモデルが含まれており、これらは視覚事前学習、汎用SFT、物理AI SFT、強化学習の4つの段階でトレーニングされています。

主な機能

  • 物理常識の理解:空間、時間、基本物理法則などの物理世界の基本知識を理解し、イベントの妥当性を判断します。

  • 具現化された推論:物理常識に基づいて、ロボットや自動運転車両などの具現化されたエージェントのための合理的な決定と行動計画を生成します。

  • 長鎖思考:詳細な思考プロセスを生成する長鎖思考(chain-of-thought reasoning)に基づいて、決定の透明性と説明可能性を向上させます。

  • マルチモーダル入力処理:ビデオ入力をサポートし、視覚情報と言語命令を組み合わせて推論を行い、自然言語で応答を生成します。

技術の原理

  • 階層化された本体論:空間、時間、基本物理の3つの主要カテゴリを含む物理常識の階層化された本体論を定義し、さらに16のサブカテゴリに細分化します。

  • 2次元本体論:具現化された推論のための2次元本体論を設計し、5つの具現化されたエージェントの4つの主要な推論能力をカバーします。

  • マルチモーダルアーキテクチャ:入力ビデオは、テキストトークン埋め込みスペースにアライメントされたビデオトークンを生成する視覚エンコーダー処理後、LLMに投入されるデコーダーのみのマルチモーダルアーキテクチャに基づいています。

  • モデルの4つのトレーニング段階

    • 視覚事前学習:視覚とテキストモーダルをアライメントします。

    • 汎用SFT(スーパーバイズドファインチューニング):汎用ビジュアルランゲージタスクでのモデルのパフォーマンスを向上させます。

    • 物理AI SFT:専用のデータを使用して、物理常識と具現化された推論能力を強化します。

    • 物理AI強化学習(RL):ルール化された報酬に基づいて、モデルの推論能力をさらに最適化します。

  • 強化学習:ルール化された報酬メカニズムに基づいて強化学習を行い、モデルが物理常識と具現化された推論タスクでのパフォーマンスを向上させます。

実験の結果

  • 物理AIスーパーバイズドファインチューニングの効果:物理AIスーパーバイズドファインチューニングの後、Cosmos-Reason1の物理常識と具現化された推論能力が大幅に向上しました。Cosmos-Reason1-56Bは、物理常識タスクでのパフォーマンスがOpenAIのο1を上回りました。

  • 物理AI強化学習の効果:強化学習は、モデルが物理常識と具現化された推論タスクでのパフォーマンスをさらに向上させました。モデルは、問題が不明瞭な場合に慎重に評価を行い、保守的な行動をとるようになりました。

アプリケーションシーン

  • ロボット操作:ロボットがタスク目標を理解し、操作計画を立て、複雑な動作(把持、組立てなど)を完了するのを支援します。

  • 自動運転:道路ビデオを処理し、交通動向を予測し、安全な運転決定(避让、レーンチェンジなど)を生成します。

  • スマートモニタリング:ビデオ内の異常な行動(人間の転倒や機器の故障など)をリアルタイムで監視し、警報を発します。

  • 仮想現実(VR)/拡張現実(AR):仮想環境の入力に基づいて、インタラクティブな応答を生成し、ユーザーの没入感を高めます。

  • 教育とトレーニング:ビデオを使用して物理現象や操作プロセスを説明し、教育や職業技能培训を支援します。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました