概要
現在の AI 音声合成分野では、多言語処理、自然な音声出力、リアルタイムレスポンスが音声生成システムの課題となっています。VALL-E や Fastspeech などの従来のテキストから音声への合成(TTS)モデルが広く使われていますが、これらのモデルは言語間の複雑な多音字、多言語変換、音声の自然度不足などの根本的な課題に直面しています。特に、多言語処理と自然な音声クローンが必要なアプリケーションシナリオでは、従来の TTS モデルはユーザーの高い要求を満たすことが難しかったのです。
これらの長期的な課題を解決するために、Fish Audio チームは全新的な製品である Fish Agent v0.1 3B を発表しました。この音声から音声へのモデル(Voice-to-Voice Model)は、革新的な Fish-Speech フレームワークに基づいており、双自回帰(Dual Autoregressive, Dual-AR) アーキテクチャと Firefly-GAN(FF-GAN)技術を採用しています。合成速度と多言語処理能力で大きな進歩を遂げただけでなく、伝統的なシステムが多言語と多音調処理で不足していた問題も克服しました。Fish Agent の登場は、音声合成技術のマイルストーン的な進歩を示しています。
従来の音声合成システムのボトルネック
現在の音声合成システムは、一般的に G2P(字形から音素への変換)を採用しています。テキストを音素に変換し、音声を合成します。しかし、この方法は跨言語、多音字、自然な音声生成を処理するときにパフォーマンスが悪く、音声品質が不安定になりがちです。特に多言語環境では、言語の発音規則がさまざまで、従来の G2P 変換は完全に解析や処理するのが難しく、TTS システムの多言語環境でのパフォーマンスを制限していました。
さらに、従来の TTS システムは、状況に依存する多音字や跨言語の音声生成を処理するのが難しく、これらの問題は現実の AI アプリケーションで非常に一般的です。例えば、スマートアシスタントでの跨言語対話や多言語アクセシビリティツールでのアプリケーションでは、音声システムは複雑な言語の混合とコンテキストに依存する状況に直面し、ユーザー エクスペリエンスと音声品質に影響を与えます。
Fish Agent v0.1 3B:音声合成の技術アーキテクチャを再定義
Fish Agent v0.1 3B は、従来の G2P メソッドの制限を突破しました。Fish Audio チームは、双自回帰(Dual-AR)アーキテクチャを構築し、新型の Firefly-GAN(FF-GAN)デコーダー を組み合わせて、音声生成プロセスを再設計しました。このモデルは、大言語モデル(LLM)を直接使用してテキストの言語特徴を抽出し、G2P 変換に頼らないことで、合成プロセスを簡素化し、多言語処理の効率を向上させました。
(1) 双自回帰アーキテクチャ:Slow & Fast Transformer の協調動作
Fish Agent v0.1 3B の Dual-AR アーキテクチャには、遅いトランスフォーマーと速いトランスフォーマーが含まれています。
- Slow Transformer:テキスト内のグローバルな言語構造を解析し、文と段落内の複雑な言語ロジックを捉えます。
- Fast Transformer:詳細と音声の音響特徴を抽出し、音声出力をより自然でクリアにします。
この高速と低速の組み合わせ構造により、Fish Agent は言語内の微妙な変化を迅速に解析し合成することができ、例えば多音字、状況に応じたトーンなど、効果的に跨言語シナリオでの音声品質を改善します。
(2) Firefly-GAN デコーダー:効率的に安定した音声を生成
Firefly-GAN(FF-GAN)は Fish Agent のコアデコーダーで、ベクトル量子化(Vector Quantization)技術 を採用しています。これにより、音声生成の安定性和音質を大幅に向上させます。FF-GAN は入力を正確に量子化エンコーディングし、異なる言語と音調間のスイッチングを滑らかに行います。さらに、グループ化された有限スカラー ベクトル量子化(Grouped Finite Scalar Vector Quantization, GFSQ)技術 を組み合わせることで、コードの圧縮効率と品質をさらに最適化し、音声出力は自然でありながら、低遅延で完了します。
パフォーマンスデータとテスト:Fish Agent v0.1 3B の優れたパフォーマンス
Fish Agent v0.1 3B は、大量のデータセットでトレーニングされ、強力な汎化能力を持っています。Fish Audio チームは、このモデルに 72 万時間の多言語オーディオデータでトレーニングを提供しました。これにより、モデルは多言語環境下でも安定した音声品質を維持できます。テスト結果では、Fish Agent は音声合成の正確性和レスポンス速度で他のシステムを大幅にリードしています。
- 単語誤り率(WER):Fish Agent の WER は 6.89% で、CosyVoice の 22.20% や F5-TTS の 13.98% よりもはるかに低く、異なる言語と状況下での優れたパフォーマンスを示しています。
- 遅延:Fish Agent の遅延はわずか 150 ミリ秒で、リアルタイム対話で明显的なアドバンテージを持ち、迅速なレスポンスが必要なシーンに適しています。
これらのデータは、Fish Agent が音声合成精度で優れているだけでなく、滑らかなリアルタイムアプリケーションを実現できることを示しており、音声 AI の実用的な価値をさらに推進しています。
Fish Agent v0.1 3B の実際のアプリケーションシナリオ
Fish Agent v0.1 3B は、音声から音声合成技術の最前線製品であり、実際のアプリケーションシナリオは非常に広範囲です。
- 多言語対話アシスタント:Fish Agent は簡単に跨言語対話に対応でき、スマート音声アシスタントにより自然な音声出力を提供できます。英語、中国語、その他の言語の切り替えも余裕です。
- アクセシビリティアプリケーション:聴覚支援が必要なユーザー向けに、Fish Agent は正確に捉え、異なる言語の音声情報を生成し、多言語環境でのアクセシビリティアプリケーションをサポートします。
- 音声クローンと音声合成:Fish Agent は音声クローンと音声合成で優れたパフォーマンスを発揮し、ユーザーの声を高度に類似して生成し、パーソナライズされた音声アシスタントや音声ナビゲーションなどのアプリケーションをサポートします。
未来の展望:音声合成の革新と課題
Fish Agent v0.1 3B の登場は、音声合成技術に顕著な進歩をもたらしました。多言語処理と音声生成の自然度の突破は、音声合成の将来の発展の基礎を築きました。しかし、AI 音声合成技術の急速な発展とともに、将来の課題も無視できません。例えば、より多くの言語や方言の処理ニーズを満たすために、将来のモデルはより強力な意味理解とより細かい音声合成能力が必要です。
Fish Audio チームは、将来モデルのアーキテクチャをさらに最適化し、拡張性を持たせる計画です。同時に、多言語トレーニングデータへの投資を継続的に増やし、Fish Agent の跨言語処理パフォーマンスをさらに向上させる予定です。
結語
Fish Agent v0.1 3B のリリースは、多言語音声合成の新天地を開きました。この革新的な音声から音声合成モデルは、Dual-AR アーキテクチャと Firefly-GAN デコーダーの組み合わせにより、伝統的な TTS システムの多言語処理と音声の自然度の問題を成功裡に解決しました。その卓越したパフォーマンスと広いアプリケーションシナリオは、AI 駆動の音声技術をより高いレベルの発展へと推し進めます。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?