スマート音声技術は、人間の対話を自然で行うように機器に音声を認識させ、音声合成、話者認識、言語認識など、多岐にわたタスクをカバーしています。以下のデータセットは、それぞれの分野での応用に特化されています。
音声認識
-
Common Voice: 26,119時間の録音とテキストを提供し、104の言語をカバー。人口統計情報を用いたデータも含まれており、音声認識エンジンの精度向上に貢でいます。
-
CMU Wilderness Multilingual Speech Dataset: 700以上の言語が含まれ、各言語あたり20時間の録音が提供されています。
-
KeSpeech: 1542時間の中国語音声が含まれ、標準語と8つの地方言をカバー。多タスク音声処理タスクをサポートしています。
-
GigaSpeech: 10,000時間の高品質な録音が監督学習に適しており、40,000時間の総録音は半監督学習や無監督学習に適しています。
-
MagicData-RAMC: 180時間の中国語対話が含まれ、多岐にわたトピックがカバーされています。
話者認識
-
CN-Celeb: 非実験室環境で収集された大規模な話者認識データセットで、1,000人以上の発話が含まれています。
-
MTASS: 55.6時間のトレーニングセット、2.8時間の開発セット、2.8時間のテストセットが含まれています。
音声合成
-
Speechocean762: 250人の英語発音が含まれ、発音評価用に特化されています。
-
Hi-Fi Multi-Speaker English TTS Dataset: 10人の話者から約291.6時間の録音が含まれています。
-
RyanSpeech: テキストから音声(TTS)システム研究用に特化された音声データベースです。
-
AISHELL-3: 85時間の中国語普通話が含まれ、多話者合成システムに適しています。
言語認識
Speechocean762: 250人の英語発音が含まれ、発音評価用に特化されています。
これらのデータセットは、スマート音声技術の研究と応用において貴重な資源となっています。各分野での高度なタスクと多様な応用が可能です。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?