人工知能技術の急速な発展に伴い、AIの大規模モデル技術は、一つのテキストインタラクションから音声、ビジュアルなどの多様なインタラクションモードに拡張されています。2024年、OpenAIが発表したGPT-4oマルチモーダルバージョンは、音声とビジュアルの大規模モデル開発の新しい時代を象徴しています。これらの技術の進歩を数量化するために、中国語の大規模モデル評価基準SuperCLUEは最近、第一期のリアルタイム音声インタラクション製品のシステム的な数量化評価結果を発表し、業界の最新トレンドを明らかにしました。
GPT-4o高級音声のリードと課題
中国語のリアルタイム音声インタラクション能力において、GPT-4o高級音声は74.31点で基準テストをリードしており、特に話すスタイル、自然さ、言語理解、記憶能力において大きなリードを示しています。しかし、GPT-4oはセキュリティポリシーと幻觉の問題でまだ改善の余地があり、これらの問題の高頻度ミスタッチと不十分な処理は、そのコア問題における改善の必要性を示唆しています。
国内製品の競争力
中国語音声環境において、国内のトップ音声製品であるiFlytek XinghuoとHailu AIは強大な競争力を示し、GPT-4o高級音声との差がわずか2点にとどまっています。これらの製品はレスポンス遅延、中断能力、一般能力において優れており、特にレスポンス遅延においては、iFlytek Xinghuoが1121msの平均遅延でリードしており、科大讯飞が音声コア技術における深い蓄積を示しています。
シナリオアプリケーションの独特な優位性
中国語シナリオアプリケーションにおいて、国内のリアルタイム音声製品には独特な優位性が存在します。Wen Xiaoyanは健康コンサルティング、ショッピングコンサルティングにおいて優れたパフォーマンスを示し、Zhipu Qingyanは感情コンサルティングにおいて良いパフォーマンスを示し、Tongyiはリアルタイム翻訳と教育指導において比較的得意で、Doubaoは教育指導においてより得意です。
SuperCLUE-Voice評価方法
SuperCLUE-Voice評価基準体系は中国語を対象にしたマルチモーダルリアルタイム音声インタラクション製品の評価のために設計されており、専用の評価セットを構築し、各次元を細かい粒度で評価し、詳細なフィードバック情報を提供します。評価プロセスは評価セットの構築、評価プロセス、スコアリングプロセス、人間一貫性分析を含み、評価の科学性と正確性を確保します。
評価結果と分析
評価結果は、GPT-4o高級音声がリアルタイム中国語音声の総合能力においてある程度のリードを示している一方で、国内のリアルタイム音声のトップ製品の能力もまだ大きな競争力があることを示しています。音声レスポンス速度においては、国内の音声製品に大きな優位性があり、特にiFlytek XinghuoとHailu AIが優れています。音声インタラクション能力においては、GPT-4oが非常にリードしており、特に話すスタイルと音声自然さにおいて優れたパフォーマンスを示し、国内製品は中断能力において良いパフォーマンスを示しています。一般能力においては、各リアルタイム音声製品にそれぞれ特徴があります。Hailu AIは記憶能力、ネットワーク接続能力、推論能力において優れており、Zhipu Qingyanはセキュリティにおいて大幅にリードしています。中国語アプリケーションシナリオにおいては、国内製品が優れており、Wen Xiaoyanがリアルタイム音声シナリオアプリケーションをリードしています。
結論
SuperCLUE-Voiceの評価結果は、リアルタイム音声インタラクション技術の発展の貴重な視点を提供しています。GPT-4o高級音声はある程度リードを示しているにもかかわらず、国内製品はレスポンス速度、中断能力、シナリオアプリケーションにおいて強大な競争力と独特な優位性を示しています。技術の絶え間ない進歩と最適化に伴い、国内のリアルタイム音声製品が未来の市場競争でより有利な位置を占めることを期待できます。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?