階躍星辰Step-1oシリーズの重大アップグレード:マルチモーダル視覚と音声モデルのブレイクスルー

この記事は約5分で読めます。

近日、上海階躍星辰智能科技有限公司は、Step-1oシリーズモデルの重大アップグレードを発表し、全新的なStep-1o Visionマルチモーダル視覚理解モデルとアップグレード版Step-1o Audio音声モデルを発表しました。今回のアップグレードは、視覚認識と推論の分野で顕著なブレイクスルーを達成し、音声インタラクションの自然度と感情認識においても質的な飛躍を実現しました。この一連の成果は、階躍星辰がマルチモーダル人工知能分野におけるリーダーシップを示すことを意味しています。

Step-1o Vision:マルチモーダル視覚理解の新たな高み

Step-1o Visionは、階躍星辰が最新に開発したマルチモーダル視覚理解大モデルであり、画像認識、命令遵循、空間推論、複雑なシーン理解などのタスクに注目しています。前世代のモデルと比べて、Step-1o Visionはアーキテクチャを全面的にアップグレードし、特に視覚認識と推論能力で大幅な向上を達成しました。このモデルは、国内外の複数の権威あるランキングで優れた成績を収め、LMSYS Orgが発表したChatbot Arenaランキングでは国内の視覚分野で第1位を獲得し、国内の「司南」マルチモーダルモデル評価でもトップに立ちました。

より正確な視覚理解

Step-1o Visionは、自然なシーン、物体の詳細、グラフなど、さまざまな複雑な画像を正確に認識することができます。画像の品質が悪かったり、遮蔽や変形がある場合でも正確に認識することができます。例えば、画面のレトロフューチャースタイルを正確に捉え、「個人輸送機」や「未来の都市」などの重要な要素を認識し、小さなイタリア語の文字を認識して翻訳するなど、優れた複雑なシーン理解と多言語理解能力を示しています。さらに、複雑なシーン(物体が重なってぼやけていたり、複数の文字が存在する場合)を処理する能力も優れており、画像のスタイルと詳細を正確に捉えることができます。

より賢い視覚推論

Step-1o Visionは、画像の内容を認識するだけでなく、複雑な論理推論を行うことができます。例えば、真假の折りたたみスマートフォンの違いを認識し、常識に基づいてその設計の利点と欠点を推測することができます。さらに、グラフや画像要素を正確に認識し、ソフトウェアツールを分類し、その特徴を总结することができます。これらの能力により、複雑な視覚タスクを解決する際に優れたパフォーマンスを発揮します。

Step-1o Audio:音声インタラクションの新たな体験

Step-1o Audioは、階躍星辰が発表した国内初の1000億パラメーターのエンドツーエンド音声大モデルであり、今回のアップグレードにより、感情認識、多言語対応、自然な音声インタラクションの面でさらに向上しました。このモデルは、ユーザーのトーンに含まれる感情情報を正確に認識し、状況に応じて適切な応答を提供することができます。また、複数の言語と方言の認識と生成をサポートし、異なる地域のユーザーの言語習慣に対応することができます。

感情認識とパーソナライズされた表現

Step-1o Audioは、感情認識の面で優れており、ユーザーの感情状態に応じて適切な感情的なサポートを提供することができます。例えば、ユーザーが喜びを分かち合う場合、適切な質問をし、ユーザーが疲れている場合、慰めとアドバイスを提供することができます。さらに、Step-1o Audioは、状況に応じてトーンを調整し、自然で流暢な音声インタラクションの体験を提供するパーソナライズされたスタイルの表現をサポートします。

低遅延と多言語対応

Step-1o Audioは、低遅延のインタラクションを実現し、音声出力がより自然で流暢です。このモデルは、複数の言語と方言の認識と生成をサポートし、四川語などの方言で自然な会話をし、トーンと語彙を正確に把握することができます。これらの能力により、音声インタラクションにおいて優れたパフォーマンスを発揮し、ユーザーにリアルな会話に近い体験を提供することができます。

アプリケーションと未来の展望

Step-1o VisionとStep-1o Audioのアップグレードは、マルチモーダル人工知能のアプリケーションにさらなる可能性をもたらしました。Step-1o Visionは、画像認識、スマートモニタリング、自動運転等领域で使用することができ、Step-1o Audioは、感情的なサポート、方言会話、ニュースの読み上げ、オーディオブック等领域で強力なアプリケーションの可能性を示しています。階躍星辰は、今後もStep-1oシリーズのモデルを継続的に最適化し、マルチモーダルタスクでのパフォーマンスをさらに向上させ、ユーザーによりスマートで自然なインタラクションの体験を提供することを目指しています。

体験と使用

Step-1o VisionとStep-1o Audioはすでに躍問アプリに全面的に上线され、ユーザーは躍問アプリまたは躍問ウェブサイト(https://yuewen.cn)を通じてこれらの先進的なマルチモーダルモデルを体験することができます。階躍星辰の継続的な革新と最適化は、人工知能分野にもっと多くのブレイクスルーと驚きをもたらし続けるでしょう

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました