AIの大規模モデルの未来の発展：ビデオとテキストの対決

人工知能技術の急速な発展に伴い、AIの大規模モデルはすでに技術分野のホットトピックとなっています。最近、バイトダンスがAI分野で起こした事件は業界全体の注目を集めました：インターン生がチームの資源配分に不満を持って、モデルのトレーニングプロセスに悪意のあるコードを注入し、バイトダンスに相当な損失を被らせました。この事件はバイトダンスがテキストモデルのトレーニングにおいて十分な重視を払っていないことを暴露し、また現在のAIの大規模モデルの発展における重要な分岐点を反映しています：算力資源が限られている状況下で、将来の大規模モデルはビデオ方向に重点を置くべきですか、それともテキスト分野でさらに深掘りするべきですか？

ビデオ大モデルの課題と市場反応
深層推論：AIの大規模モデルの新方向
戦略選択と市場難

ビデオ大モデルの課題と市場反応

この重要な決断において、百度のCEOである李彦宏は、百度がSoraのようなビデオ生成分野に参入しないと明確に表明しました。彼は現在のビデオ大モデルがまだ成熟しており、商用化アプリケーションにはまだ長い道のりを残していると見ています。このような判断は根拠のないものではありません。世界をリードするAIビデオ生成企業であるLuma AIとRunwayのアクセスデータも、市場がAIビデオ生成技術に冷ややかな態度を示していることを示しています。

国内のAIビデオ生成モデルは一般的に2つの欠点があります：高コストと品質の不一致。快手の可霊を例にとって、5秒間のビデオを生成するコストが10元に上り、生成には2〜5分の時間がかかります。一方で、智普清言の「清影」は無料で利用可能ですが、生成効果と所要時間はともに満足のいくものではありません。さらに、AIビデオ生成の「恐怖の谷」効果も問題視できない問題です。これにより、ユーザーはAI作品に偏见を持つ傾向があります。

深層推論：AIの大規模モデルの新方向

トレーニングデータが次第に枯渇する中、LLMのscaling law神話はどのように続くべきですか？OpenAIのo1モデルが答えを提供しました：強化学習です。月ノ闇のCEOである楊植麟は、テキストモデルの能力上限が現在のAI技術の上限を決定すると指摘しています。テキストレベルの理解と推論は、多様なタスクにおいて不可欠です。Soraを例にとって、そのトレーニングデータには大量の「ビデオ-テキスト対」が含まれており、各ビデオフラグメントには対応する詳細なテキスト説明があります。この対方式により、モデルはテキストの意味と視覚表現との間のマッピングを確立できます。

ビデオモデルがより大きな進歩を遂げたい場合、例えば完全なナイティブ構造を発展させるには、テキストモデルが複雑な論理的推論を実行する能力が必要です。テキストモデルが複雑なナイティブを計画できない場合、ビデオモデルもこの上限を突破することは困難です。

そのため、LLMの未来の方向は実際にはすでにはっきりしています：テキストモデルがマルチモーダルの上限を決定し、深層推論が現在のテキストモデルの上限を決定します。

実際の性能では、国内の大手企業如きバイトダンス、智普清言、月ノ闇などが自社の大規模モデルに「深層検索」機能を追加しています。これは深層推論機能のオンラインバージョンと言えます。

分析全球スマートフォン市場の発展傾向を例にし、3年間における各大ブランドの市場シェアの変化、技術革新、消費者の好みの変化を分析するという問題を通じて、バイトダンス、智普清言、月ノ闇それぞれの大規模モデルを比較します。

まず評価するのはバイトダンスの豆包大モデルです。全体的なレベルでは、確かに鍵となるポイントがいくつかありますが、回答する際に全体の内容と構造が非常に腫れ上がり、混乱しており、あまり構造化や細分化の処理が行われず、ユーザーが読む際に大きな負担と圧力を感じさせます。

次に評価するのは智普清言の智普AIです。豆包と比較して、智普AIは深層推論を行なっている際に、明らかに豆包よりもより明確で整理された構造を持っており、アップル、サムスン、vivoなどの異なるブランドに対処して、異なる市場パフォーマンスや市場シェアを具体的に列挙しています。

しかし、全体的に見ると、各パートの概要と分析は依然として过于に簡潔です。

最後に登場するのは月ノ闇のKimiです。深層検索機能を有効にすることで、Kimiは情報の分析と概要においてより詳細で深入りした特徴を示し、異なる年に応じて異なるブランドが市場で占めるシェアの変化を詳細に展示し、トレンドを強調し、技術革新に関する分析では、異なる年に異なるブランドが導入した具体的な技術を非常に具体的な細部で展示しています。

総合的に見ると、Kimiは複雑な問題分析を行なっている際に、推論の深さと精密度が豆包、智普AIよりも顕著に優れています。

これにより、現在の「深層推論」というLLMの「内功」を試す重要な分水嶺において、国内のメーカーはすでに顕著な差を見せています。

戦略選択と市場難

前述のように、OpenAIがo1を発表して以来、現在の大規模モデルの発展はすでに戦略的な選択の分岐点に来ています。

そして、この重要な戦略的分岐点において、バイトダンスのような一部の国内大手企業は、自分たちのショートビデオビジネスへの配置の巨大な慣性のため、深層推論方向で深く耕作せず、安価な競争と「多様で精不在」の多機能性によって国内の大規模モデルランキングのトップに押し上げられました。

火山エンジンの社長である譚待によると、「豆包主力モデルは企業市場での価格が0.0008元/千トークンで、業界よりも99.3％安いです。」

しかし、安価な価格を追求して「コストパフォーマンス」を追求することは、ある程度、自らのモデルが核心競争力に乏しいことを示しています。

バイトダンスと同様に、「AI六小虎」の1つである智普清言も、「大而全」の道を歩んできた。簡単に言えば、現在の智普は「絵画、ビデオ、検索をすべて一揽子で手に入れる」AI企業となっています。

しかし、実際には、「大而全」を追求することは、商業的な「窮地の闘い」を反映しています。

なぜなら、国内の企業主がソフトウェア購入の意欲が低いため、To B端の大規模モデルが企業に提供する価値はまだ断片的であり、2023年の国内の大規模モデル市場規模はわずか50億元で、2024年も120億元にしか増加しないからです。

B端市場が狭く、C端がまだ開かれていない状況下で、大規模モデルを扱う企業は、絶えず資金調達し、お金を焼いて、ユーザーを水平的に拡大しなければなりません。

しかし、このような土地を争うロジックは、本質的にインターネット時代の思考であり、AIを本当に「救う」ことはできません。インターネットとは異なり、AI製品の境界はユーザー数によって決まりませんが、実際の技術力によって決まります。

少し反直觉な現実ですが：ビデオ生成のような目立つ技術と比較して、C端で突破をもたらす可能性が高いのは、深層推論のような難しく又不細工な技術かもしれません。

ビデオ生成は主にクリエイティブな表現にサービスを提供し、アプリケーションのシーンが比較的固定しており、ユーザーグループや変現モデルが比較的単一的で、その価値はコンテンツのアウトプットに体现されます。

本質的に言えば、それはより直观的なROIをもたらす効率ツールであり、突破的な変化をもたらす技術ではありません。

一方で、深層推論は基本的な認知能力に属し、各種のアプリケーションに力を与えることができます。その突破は、すべての方向に普遍的な向上をもたらし、その能力は転用可能で、協同効果をもたらしやすくなります。

さらに重要なのは、この技術が発展するにつれて、ユーザーに対する理解がより深まり、提供されるアドバイスがより個人化され、正確になるという点です。

この継続的な学習と進化の特性により、単純なツールやサービスに取って代わられることは困難であり、それはいくつかの短命な「爆発的なアプリケーション」が学ぶべき教训です。

残念ながら、この難しく正しい道を敢えて追求し、成果を上げている企業は、現在ではまだ非常に限られています。

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品（pronunciation assessment）は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API（pronunciation assessment api）は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品（pronunciation assessment）を試してみませんか？

オンラインお試し