5 つの人気のあるオープンソース TTS モデル

この記事は約9分で読めます。

テキストから音声への変換(TTS)技術は、アクセシビリティ、教育、バーチャルアシスタントなどの業界で広く使われており、過去 1 年間でその需要が急増しています。LLM と画像生成モデルの進歩と同様に、TTS モデルも進化を遂げており、テキスト入力からよりリアルで人間らしい音声を生成できるようになりました。

システムに TTS を統合したい場合、オープンソースモデルは優れた選択肢です。独自の代替品と比べて、より大きな柔軟性、コントロール力、カスタマイズ性を提供します。この記事では、現在の人気のあるオープンソース TTS モデルについて探求します。それぞれの長所と短所を深く研究し、ニーズに最も適したモデルを選択するお手伝いをします。最後に、いくつかの一般的な質問に答えます。

1. XTTS-v2

XTTS は、最も人気のある音声生成モデルの 1 つです。最新バージョンの XTTS-v2 は、たった 6 秒の短いオーディオサンプルから、異なる言語への音声クローンを可能にします。この効率性は、大量のトレーニングデータが必要な状況を排除し、音声クローンと多言語音声生成の魅力的なソリューションとなっています。

悪いニュースは、XTTS の背後にある会社が 2024 年初めに閉鎖され、プロジェクトはオープンソースコミュニティに残されたことです。しかし、ソースコードは依然として GitHub で利用可能であり、XTTS-v2 は Hugging Face でダウンロード回数最多的な TTS モデルの 1 つです。

主な特徴:

  • 最小限の入力での音声クローン:XTTS-v2 は、たった 6 秒のオーディオフラグメントを使用して、複数の言語の音声をクローンすることができ、音声クローンプロセスを大幅に簡素化します。
  • 多言語サポート:このモデルは 17 の言語をサポートしており、グローバルな多言語アプリケーションにとって理想的な選択肢です。
  • 感情とスタイルの転送:XTTS-v2 は音声だけでなく、感情的なトーンや話すスタイルもコピーすることができ、よりリアルで表現力豊かな音声合成を実現します。
  • 低遅延パフォーマンス:このモデルは、コンシューマー級 GPU 上で純粋な PyTorch 実装を採用しており、150 ミリ秒未満のストリーミング遅延を実現します。

注意事項:

  • 非商用目的のみ:XTTS-v2 は Coqui 公共モデルライセンスに基づいており、これを商用目的に制限しています。特定のライセンス条項を協議しない限り、商業製品での使用が制限されます。
  • プロジェクト閉鎖:元の会社が閉鎖されたため、このモデルの将来の発展は完全にオープンソースコミュニティに依存しています。

2. ChatTTS

ChatTTS は、対話アプリケーション向けの音声生成モデルで、特に LLM アシスタントの対話タスクに適しています。また、対話オーディオ、ビデオ紹介、以及其他インタラクティブなタスクにとっても理想的な選択です。約 10 万時間の中国語と英語のデータでトレーニングされた ChatTTS は、2 つの言語で自然で高品質な音声を生成することができます。

主な特徴:

  • 高品質な合成:大量のトレーニングを経て、自然で流暢でクリアな音声を提供することができます。
  • 対話専用:ChatTTS は対話タスクに最適化されており、LLM アシスタントや対話システムにとって最適な選択です。
  • マークアップレベルのコントロール:限られたが役立つマークアップレベルのコントロールを提供し、笑い声や一時停止などの要素をコントロールすることで、対話の配信にある程度の柔軟性を提供します。

注意事項:

  • 言語サポートが限られている:他の TTS モデルと比べて、ChatTTS は現在英語と中国語のみをサポートしているため、他の言語アプリケーションでの使用が制限される可能性があります。
  • 感情コントロールが限られている:現在、このモデルは笑い声や一時停止などの基本的なマークアップレベルのコントロールのみをサポートしています。将来的なバージョンではより繊細な感情コントロールが提供されることが期待されますが、現時点では利用できません。
  • 稳定性の問題:ChatTTS は時々安定性の問題に遭遇することがあります。例えば、マルチスピーカー出力の生成や一貫性のないオーディオ品質の発生などです。これらの問題は自己回帰モデルでよく見られ、必要な結果を得るためには複数のサンプルを生成する必要があるかもしれません。

3. MeloTTS

MeloTTS は、MyShell.ai によって開発された高品質で多言語の TTS ライブラリです。このライブラリは複数の言語とアクセントをサポートしており、アメリカ英語、イギリス英語、インド英語、オーストラリア英語など、複数の英語方言を含んでいます。MeloTTS はリアルタイム推論向けに最適化されており、CPU 上での使用も可能です。

現在、その英語版(MeloTTS-English)は Hugging Face でダウンロード回数最多的な TTS モデルです。

主な特徴:

  • 多言語サポート:MeloTTS は複数の言語とアクセントを提供しています。一つの重要なハイライトは、中国語話者が中国語と英語の混合音声を処理できることです。このモデルは、二つの言語が必要なシーン、例えば国際ビジネスや多言語メディアコンテンツなどにおいて特に有用です。
  • リアルタイム推論:高速パフォーマンス向けに最適化されており、CPU 上での使用も可能であるため、低遅延応答が必要なアプリケーションに適しています。
  • 商用無料:MIT ライセンスに基づいており、商用と非商用の両方に使用することができます。

注意事項:

  • 音声クローン非対応:MeloTTS は音声クローンをサポートしておらず、パーソナライズされた音声コピーが必要なアプリケーションにとっては、これが制限となるかもしれません。

4. OpenVoice v2

MyShell.ai によって開発された OpenVoice v2 は、即時の音声クローンモデルで、短いオーディオフラグメントから話者の音声をコピーすることができます。このモデルは複数の言語の音声生成をサポートしており、感情、アクセント、リズム、一時停止、イントネーションなどの各種音声属性の細かいコントロールを提供します。

主な特徴:

  • 正確な音色クローン:OpenVoice v2 は参考話者の音色を正確にコピーし、複数の言語とアクセントのクローン音声を可能にします。
  • 細かい音声スタイルコントロール:ユーザーは感情、アクセント、リズム、一時停止、イントネーションなどの音声出力の細かい詳細をコントロールすることができ、他の多くの TTS モデルよりも多くのカスタマイズを提供します。
  • ゼロショットクロスランゲージボイスクローン:このモデルは、参考音声やトレーニングデータに存在しない言語の音声をクローンすることができます。言い換えれば、OpenVoice v2 に提供されるサンプル音声オーディオは、どんな言語であってもかまいません。
  • 商用無料:OpenVoice v2 は MIT ライセンスに従っており、商用と非商用のプロジェクトに使用することができます。

注意事項:

  • MeloTTS との違い:OpenVoice のメンテナーの一人である Zengyi Qin によると、OpenVoice はサポートする言語が少なく、

    自然度は MeloTTS ほどではありません。しかし、MeloTTS は音声クローンをサポートしていないため、自然度と音声クローン機能の特定のニーズに応じて、両者の間で選択する必要があります。

5. Parler-TTS

Parler-TTS は、Hugging Face によって開発された軽量級 TTS モデルの集合で、高品質で自然な音声を生成することを目指しています。このモデルは、性別、トーン、話すスタイル、甚至バックグラウンドノイズなどの various 音声特性をコントロールすることができます。Parler-TTS は完全にオープンソースのバージョンで、すべてのトレーニングコード、データセット、モデルウェイトが緩いライセンスのもとで公開されているため、コミュニティが独自の TTS モデルを構築し、カスタマイズすることができます。

主な機能:

  • 音声スタイルコントロール:Parler-TTS は、感情、話速、トーン、リバーブなどの音声特性(例えば)を細かくコントロールするためのシンプルなテキストプロンプトを使用します。
  • スピーカークローン:このモデルは 34 の事前に定義されたスピーカーのスタイルをコピーすることができ、一貫したスピーカーのアイデンティティが必要なアプリケーションにとって非常に有用です。
  • エフィシェンシーオプティマイゼーション:Parler-TTS は SDPA と Flash Attention 2 などの高速生成技術をサポートしているため、計算効率が高くです。デフォルトでは SDPA が使用されており、Eager Attention と比べて、生成時間が最大で 1.4 倍速くなることがあります。

注意事項:

  • モデルサイズ:Parler-TTS には 2 つのバージョンがあります - Mini(880M パラメーター)と Large(2.3B パラメーター)。Mini バージョンは軽量級モデルで、音声を高速かつ効率的に生成するのに適しています。しかし、より表現力豊かで、音声の詳細に対するコントロールが多く必要な場合は、Large バージョンはより高度な機能を提供しますが、より多くの計算リソースが必要です。

現在の 5 種類の人気のあるオープンソース TTS モデルを詳細に分析した結果、以下の結論に達しました。各モデルには独自の強みと制限があり、異なるアプリケーションシーンやニーズに適しています。

XTTS-v2 は、効率的な音色クローン能力和多言語サポートで頭角を現しており、複数の言語の音色を迅速に生成する必要があるアプリケーションに特に適していますが、商用使用は制限されています。ChatTTS は対話アプリケーションで優れたパフォーマンスを発揮し、自然で流暢な音声を生成することができ、チャットボットや音声アシスタントに適していますが、言語サポートは比較的限られています。MeloTTS は高品質な多言語サポートとリアルタイム推論能力を提供しており、国際ビジネスや多言語メディアコンテンツにとって理想的な選択肢ですが、音色クローンはサポートしていません。OpenVoice v2 は音色クローンと音声スタイルの細かいコントロールで優れており、クロスランゲージの音色クローンをサポートし、パーソナライズされた音声が必要なアプリケーションに強力なツールを提供しています。最後に、Parler-TTS はその軽量級デザインと高品質な自然な音声生成能力で注目を集めていますが、モデルサイズは計算リソースに一定の要求があります。

以上のことから、適切な TTS モデルを選択するには、具体的なアプリケーションニーズ、サポートする言語の種類、商用使用の必要性、音色クローンと音声スタイルコントロールの要求に基づるべきです。開発者はこれらの要因を総合的に考慮し、プロジェクトに最も適した TTS モデルを選択し、最高のユーザーエクスペリエンスとアプリケーション効果を実現する必要があります。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました