概要
過去10年間、深層学習の台頭に伴い、音声認識(ASR)技術に大きな関心が集まり、多くの公開可能なASRシステムが登場しました。しかし、これらのシステムを公正で再現可能な性能評価を行うことは依然として挑戦的です。本稿では、ASR評価を設計したオープンソースプラットフォームであるSpeechColab Leaderboardを紹介します。このプラットフォームを通じて、現在の最先端のASRシステムの性能を明らかにするベンチマークテストを報告し、様々なオープンソースモデルや商用サービスをカバーしています。さらに、テストプロセスにおける処理の細かい部分が最終結果にどのように影響するかを定量的に研究し、従来のToken Error Rate(TER)を改善したModified Token Error Rate(mTER)を提案しました。
はじめに
音声認識技術の進展に伴い、効率的な評価方法への需要があります。SpeechColab Leaderboardはオープンソースプラットフォームとして、ASR技術の発展と比較を促進することを目的としています。
SpeechColab Leaderboardプラットフォーム
SpeechColab Leaderboardを通じて、現在のASRシステムの性能を示すベンチマークテスト結果を報告しました。これらのテストは多种のオープンソースモデルや商用サービスをカバーしており、ASR性能の包括的なビューを提供します。
テストプロセスと処理の細かい部分
実践では、参照注釈と認識結果はしばしば異なる形式を持ち、差異をなくすために前処理が必要です。私たちは大文字小文字、句読点、挿入語、スペルバリアンスなどの多岐にわたるテキスト正規化の問題に対処しました。さらに、私たちはLevenshtein距離アルゴリズムを拡張し、動的代替経路のマッチング(DAE)をサポートし、省略語、同義語の複合語やフレーズなどを処理します。
テスト結果
過去10年間で音声認識技術は顕著な進歩を遂げました。例えば、OpenAI-Whisperモデルは2014年のSOTAモデルDeepSpeechと比較して、複数のテストセットで顕著なWER低下を実現しました。
処理コンポーネントの結果への影響
私たちはアブレーション実験を通じて、スコアリングプロセスにおける各コンポーネントがテスト結果にどのように影響するかを定量的に研究しました。これらのコンポーネントには、句読点、挿入語、非標準語の正規化、英米スペル変換などが含まれます。
評価指標TERの修正
従来のTERにはいくつかの問題があります。例えば、計測空間公理に違反したり、適切な数値正規化が行われていないことです。Kolmogorov ComplexityとNormalized Information Distance(NID)の概念に基づき、これらの問題を解決したmTERを提案しました。
まとめ
本稿では、自動音声認識のオープンソース評価プラットフォームであるSpeechColab Leaderboardを紹介しました。このプラットフォームを通じて、広範なベンチマークテストを実施し、研究と産業分野で最先端の自動音声認識システムの現状を明らかにしました。また、従来のTERよりも頑健な評価指標であるmTERを提案しました。将来的には、より多くのデータセットとモデルをプラットフォームに含める予定です。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?