QECon技術共有-大モデル音声対話時代のTTS評価実践

この記事は約4分で読めます。

はじめに

TTS(テキストトゥースピーチ、テキストから音声)技術は、コンピュータシステムがテキスト(文字、数字、数学記号など)を人間のような自然な話す音声に変換します。この技術は、本や記事をオーディオに変換してどこでも読書を楽しむこと、スマートボイスアシスタントがTTS技術を用いてユーザーと自然な対話を行うこと、ナビゲーションシステムが明確で正確な運転指示を提供することなど、多岐にわたるアプリケーションがあります。

大モデル時代に入ると、TTS技術は再構築されました。Transformerアーキテクチャは複雑なテキスト構造と意味理解を向上させ、大モデルは大量の語彙庫を学習して音素と韻律のマッピング品質を高め、音響モデルは声の特徴を細かく学習し、ボコーダーではTTSシステムがオーディオ出力をより細かい粒度(ピッチ、リズム、強さなど)で制御できるようになりました。

評価実践

従来のTTS評価には限界があります。主观的な品質評価如的整体MOSは包括的ではあるものの精度に欠け、客観的な品質評価如のASR認識率は音声の理解性を量化することしかできませんが、自然さ、流暢さ、感情表現などの聴覚体験には対応できません。したがって、未来のTTS技術評価には、より包括的で深入りした評価基準と方法を採用する必要があります。

TTS評価の新アプローチ

TTS評価プロセスは、客観的な評価指標と主観的な評価指標を含みます。客観的な評価指標にはASR認識率、有効周波数帯、発音正確さ、音質、韻律などが含まれます。これらの指標は、TTSシステムの性能を複数の次元から総合的に評価できます。

AIが強化するTTS評価は、大モデルの加護を通じて効率的で豊富な語彙生成を実現し、自動化評価を行うことができます。マルチタスク学習大モデル(L-MTLモデル)は、Mixture of Experts(MMoE)フレームワークとTransformer特徴抽出を組み合わせて、複数の関連評価タスクをサポートし、複数の鍵次元での包括的でバランスの取れた評価を確保します。

AIが強化するTTS評価の優位性

包括的評価:L-MTLモデルは、多岐にわたるタスクを同時進行することで、TTSシステムの包括的評価を保証します。

細部捕捉: Transformerアーキテクチャと組み合わせることで、L-MTLはオーディオシグナルから豊富な特徴を抽出し、音声の微妙な変化を正確に捕捉できます。

知能的なタスク割り当て:MMoEゲートメカニズムを利用して、モデルは特定の評価タスクを処理する最も適したエキスパートネットワークを動的に決定し、評価の正確さを高めます。

知識共有:異なる評価タスク間で学んだ知識を共有し、モデル全体の効率性和汎化能力を向上させます。

モデルの柔軟性:L-MTLのモジュール化設計により、モデルは拡張性和カスタマイズが可能で、異なるTTS評価ニーズと研究方針に適応できます。

L-MTLモデルの基本アーキテクチャは、均方誤差(MSE)を損失関数として使用し、モデル予測スコアと実際のスコアとの間の差を計算します。ビジネス価値において、L-MTLモデルは、日あたり10000以上の合成語彙を評価し、シングルバージョンアルゴリズムイテレーションで評価品質を維持しながら、評価時間を80%短縮し、人件費を70%削減します。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました