昆仑万维がオープンソース化した Skywork R1V:マルチモーダル推論モデルのブレイクスルー

この記事は約6分で読めます。

はじめに

2025年3月、昆仑万维は、世界初の工業界マルチモーダル推論モデルである Skywork R1V(以下「R1V」という)を正式に発表しました。この38億パラメーターを有するモデルは、性能において既知のクローズドソースモデルである DeepSeek-R1 に迫り、多项の基準テストで優れたパフォーマンスを発揮し、現在の最先端技術(SOTA)を横扫一気です。昆仑万维は、技術の共有と進歩を促進するため、R1V をオープンソース化することを選択しました。これは、世界中の AI オープンソースコミュニティに新たな活力を注入することを目的としています。

Skywork R1V のコア機能

ビジュアルチェーン推論

Skywork R1V は、ビジュアル入力(画像やビデオなど)に対してマルチステップのロジカルな推論を行い、複雑な問題の答えを段階的に分析して導き出すことができます。例えば、医学画像診断推論において、R1V はX線画像から複数の合併症リスクを推論し、診断の正確性と効率を大幅に向上させることができます。

数学と科学問題の解決

R1V は、視覚的なタスクだけでなく、画像内の数学問題や科学現象を認識し、解析し、推論能力を組み合わせて段階的な解答を提供することができます。MATH-500 テストで、R1V は94.0点という高得点を取得し、他の主要なモデルを大幅にリードしました。

クロスモーダル理解

R1V は、ビジュアル情報とテキスト情報を深く融合させ、より豊かな意味理解を実現します。このクロスモーダルな能力により、複雑なビジュアルタスクを処理する際に、テキスト情報を組み合わせて推論と分析を行うことができます。

複雑なビジュアルタスクの処理

R1V は、医学画像診断推論や芸術作品の分析など、複雑なビジュアルタスクを処理する能力において優れたパフォーマンスを発揮します。その強力なビジュアル推論能力により、多项の権威ある基準テストでトップの成績を収めています。

技術の原理

クロスモーダルな思考の瀑布

R1V は、ビジュアルプロジェクター(Visual Projector)を使用して、テキスト推論能力を効率的にビジュアルタスクに移行します。言語モデルとビジュアルエンコーダーを再トレーニングする必要がありません。この方法は、大規模モデルのテキスト推論能力をビジュアルモーダルに効果的に移行し、マルチモーダル推論データの必要性を大幅に減らします。

マルチモーダルな混合トレーニング(Iterative SFT + GRPO)

R1V は、イテレーティブなスーパーバイズドファインチューニング(Iterative SFT)とグループ相対ポリシー最適化(GRPO)強化学習を組み合わせて、ビジュアルとテキスト表現を段階的にアライメントします。この混合トレーニング戦略は、思考チェーンの長さを動的に調整して、推論効率を向上させます。

適応的な長さの思考チェーンの蒸留

R1V は、ビジュアル-テキストの複雑さに基づく適応的な推論チェーンの長さのコントロールメカニズムを導入し、モデルの推論プロセスを動的に最適化します。この方法は、推論プロセスにおける「過度な思考」を避けて、推論の効率と品質を大幅に向上させます。

3段階のトレーニング方法

R1V のトレーニングプロセスは、初期アライメント、推論能力の移行、および精密アライメントという3つの段階に分かれています。この3つの段階を通じて、モデルはそのマルチモーダル推論能力を段階的に向上させます。

実用的な应用场景

医学画像診断

医学画像診断において、R1V はX線画像から複数の合併症リスクを推論し、診断の正確性和効率を大幅に向上させることができます。ある三甲病院の実験結果では、R1V の早期肺がんの判断の正確率は、副主任医師チームを上回っていました。

教育支援

R1V は、画像内の数学問題や科学現象を認識し、解析し、推論能力を組み合わせて段階的な解答を提供することができます。このため、R1V は教育支援分野で広い応用の可能性を持ち、学生が複雑な数学や科学の問題を更好地理解和解決するのを助けることができます。

芸術作品の分析

R1V のクロスモーダル能力は、芸術作品を深く分析し、ビジュアルとテキスト情報を組み合わせて推論と説明を行うことができます。これは、芸術作品の鑑賞と研究に新たな視点と方法を提供します。

オープンソースとコミュニティへの貢献

技術の共有と進歩を促進するため、昆仑万维は R1V をオープンソース化することを選択しました。これは、世界中の AI オープンソースコミュニティに新たな活力を注入することを目的としています。モデルの重み、推論コード、技術報告書はすべて公開されており、誰でも GitHub と Hugging Face から関連リソースを入手することができます。

Skywork R1V の実行方法

  1. リポジトリのクローン

    git clone https://github.com/SkyworkAI/Skywork-R1V.git
    cd skywork-r1v/inference
  2. 環境の設定

    pip install -r requirements.txt
    pip install flash-attn --no-build-isolation
  3. 推論スクリプトの実行

    CUDA_VISIBLE_DEVICES="0,1" python inference_with_transformers.py \
       --model_path path \
       --image_paths image1_path \
       --question "your question"

結論

Skywork R1V の発表は、マルチモーダル推論モデルが性能と応用において重要なブレイクスルーを達成したことを示しています。その強力なビジュアルチェーン推論能力和クロスモーダル理解能力は、医学画像診断、教育支援、芸術作品分析など、多くの分野で広い応用の可能性を持っています。昆仑万维のオープンソース化の取り組みは、技術の共有と進歩を促進するだけでなく、世界中の AI オープンソースコミュニティに新たな活力を注入しました。R1V の広い応用隨著、我們期待看到更多的創新应用场景和技术突破。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました