2025年2月14日、昆仑万维は正式にMatrix-Zero世界モデルを発表し、中国で初めて3Dシーン生成とインタラクティブビデオ生成モデルを同時に発表した企業となり、中国が空間知能分野で重要な一歩を踏み出したことを示しました。
Matrix-Zero世界モデルには、3Dシーン生成大モデルとインタラクティブビデオ生成大モデルの2つのサブモデルが含まれています。この2つのモデルの発表は、昆仑万维が人工知能分野での技術力を示すだけでなく、今後のデジタルコンテンツ制作に全新的な可能性をもたらしました。
3Dシーン生成大モデル:画像から没入型3Dワールドへ
昆仑万维が独自に開発した3Dシーン生成大モデルは、ユーザーが入力した画像を自由に探索できるリアルで合理的な3Dシーンに変換することができます。既存の3D AIGCツールと比較して、このモデルはより大きな探索範囲をサポートし、動的物理効果を備え、生成されるシーンがよりリアルで没入感があります。
Matrix-Zeroが生成する3Dシーンは、全体的な一貫性を持っており、ユーザーはシーン内で任意の方向への長距離、大範囲の探索を行うことができます。入力する画像がアニメ風スタイルかリアルスタイルかに関わらず、このモデルは合理的でスタイルが一致する3Dシーンを生成することができます。さらに、Matrix-Zeroは動的シーンの生成もサポートしており、光の効果、水流の動きなどもリアルに表現することができます。
Matrix-Zeroの3Dシーン生成大モデルには、シーンレイアウト生成モジュールとテクスチャ生成モジュールという2つのコアモジュールが含まれています。シーンレイアウト生成モジュールは、微分可能レンダリングと拡散モデル技術を用いて、入力画像と一致する3Dシーンレイアウトを生成することができます。テクスチャ生成モジュールは、画像生成モデルとビデオ生成モデル的基础上で訓練されており、ユーザーがシーン内で移動する際に、シーンのジオメトリとテクスチャを合理的に補完することができます。
インタラクティブビデオ生成大モデル:ユーザー入力をコアにしたドライブ
昆仑万维のインタラクティブビデオ生成大モデルは、先進的な生成型ビデオモデルに基づいており、独自に開発されたユーザーインタラクションモジュールを組み合わせることで、ユーザー入力をコアにした空間知能ビデオ生成ソリューションを実現しました。このモデルは、オープンドメインのビデオ生成能力を保証しながら、ビデオコンテンツ内の視点移動の正確な制御をさらに強化し、ユーザーのインタラクションニーズに合ったものとなっています。
ユーザーは、キーボードやマウスの入力でビデオ内の視点と動きを制御し、前後左右の移動や視点の変化を実現することができます。このモデルには、ユーザーの入力を処理するための複数のサブシステムが含まれており、ビデオコンテンツがユーザーの操作に正確に反応できるようにしています。例えば、離散運動制御モジュールは、ユーザーの離散制御信号(前進、ジャンプなど)を解析し、連続視点制御モジュールは、連続的な視点変化信号を解析して、視点の変化を滑らかにします。
昆仑万维:AI分野のリーダー
昆仑万维は、中国のAI分野のリーダー企業であり、通用人工知能の実現を目指し、誰もが自分を更好地塑造和表現できるように努めてきました。過去3年間で、昆仑万维は視覚多モーダル、深層学習、強化学習などのキーテクノロジーで顕著な成果を上げ、天工AI検索、Mureka音楽制作プラットフォーム、SkyReels短編ドラマプラットフォームなど、完整的なAIマトリックスを構築しました。
Matrix-Zero世界モデルの発表は、昆仑万维が空間知能分野での重要なブレイクスルーを達成しただけでなく、会社のAIビジネスマトリックスにも新たなエンパワーメントをもたらしました。4月に発表予定のMatrix-Zeroは、AIゲーム制作、AI短編ドラマ制作などのビジネスに更に強力なサポートを提供し、ユーザーと開発者に全新的なプラットフォームとツールを提供します。
将来、大規模モデルの発展は、よりスマートなツールとユーザーインタラクションに注目するでしょう。空間知能技術は、将来のスマートなエージェントの研究開発に仮想プラットフォームを提供するだけでなく、ユーザーに全新的なインタラクションエクスペリエンスをもたらし、昆仑万维は引き続きアップグレードとイテレーションを行い、より高度なAIプラットフォームを開発し、人工知能の繁栄を促進し続けます。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?