多分野スマート音声技術データセット

この記事は約3分で読めます。

スマート音声技術は、人間の対話を自然で行うように機器に音声を認識させ、音声合成、話者認識、言語認識など、多岐にわたタスクをカバーしています。以下のデータセットは、それぞれの分野での応用に特化されています。

音声認識

  1. Common Voice: 26,119時間の録音とテキストを提供し、104の言語をカバー。人口統計情報を用いたデータも含まれており、音声認識エンジンの精度向上に貢でいます。

  2. CMU Wilderness Multilingual Speech Dataset: 700以上の言語が含まれ、各言語あたり20時間の録音が提供されています。

  3. KeSpeech: 1542時間の中国語音声が含まれ、標準語と8つの地方言をカバー。多タスク音声処理タスクをサポートしています。

  4. GigaSpeech: 10,000時間の高品質な録音が監督学習に適しており、40,000時間の総録音は半監督学習や無監督学習に適しています。

  5. MagicData-RAMC: 180時間の中国語対話が含まれ、多岐にわたトピックがカバーされています。

話者認識

  1. CN-Celeb: 非実験室環境で収集された大規模な話者認識データセットで、1,000人以上の発話が含まれています。

  2. MTASS: 55.6時間のトレーニングセット、2.8時間の開発セット、2.8時間のテストセットが含まれています。

音声合成

  1. Speechocean762: 250人の英語発音が含まれ、発音評価用に特化されています。

  2. Hi-Fi Multi-Speaker English TTS Dataset: 10人の話者から約291.6時間の録音が含まれています。

  3. RyanSpeech: テキストから音声(TTS)システム研究用に特化された音声データベースです。

  4. AISHELL-3: 85時間の中国語普通話が含まれ、多話者合成システムに適しています。

言語認識

Speechocean762: 250人の英語発音が含まれ、発音評価用に特化されています。

これらのデータセットは、スマート音声技術の研究と応用において貴重な資源となっています。各分野での高度なタスクと多様な応用が可能です。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました