音声認識技術は、人間のコミュニケーションを支えてくれる重要なツールです。近年の通信技術とインターネット・オブジェクトの発展に伴い、様々な音声アシスタントやスマートデバイスが次々と登場しています。人々はこれらのデバイスの必要性も越来越高(たかわっています。音声認識技術は人間の対話中で重要な役割を果たしており、認識エラーが人間の対話に失敗を招く可能性があります。そのため、中国語と英語の混在音声認識システム(CSSR)の研究と開発は学問的価値と応用価値を兼ね備えています。
業界現状と課題
中国語・英語混在音声認識は多言語音声認識の分野に属していますが、通常の多言語音声認識とは一つの文で一つの言語が使われる場合を指します。しかし、混在音声認識とは、一つの文の中で話者言葉が二つの言語を切り替えて使われることを指します。音声技術の進歩が最近20年間で人々に重視されるようになり、特に中国語と英語の混在音声認識への研究も十多年前に始まりました。
技術的な難点は、非母国語の口音による影響が深刻で、異なる言語の音素構成による違いが混在音学モデルの構築に大きな困難をもたらします。また、標識付された混在音声のトレーニングデータが非常に少なく、伝統的な音声フレームワークは一つの言語に基づいてモデリングされており、多言語認識への拡張性が低いです。
エンド・トゥ・エンドモデルの優位性
エンド・トゥ・エンドモデルは文字モデリングを通じて、モデリングユニットと音響属性との関連性をぼやかし、言語切り替え点の音響属性をよりよくモデリングすることができます。最近几年、研究はエンド・トゥ・エンド方式で混在言語音声認識システムを構築する傾向にあります。深層学習に基づくエンド・トゥ・エンドモデルは柔軟性があり、複雑で、多タスク学習を融合させることができます。混在言語認識の特有の属性を考慮に入れて、LIDモデルが言語の違いを識別し、分類化を行うと提案されています。これにより、異なる言語に対する識別能力が向上します。
実験と結果
実験では、約1,000時間の中国語と英語の授業混在音声データセットを使用し、ランダムに30時間をトレーニング・開発セット、6.7時間をテストセットとして選びました。中国語は漢字を最小モデリングユニットとして、英語は単語をモデリングユニットとして使用し、モデルのトレーニングの鲁棒性を強化します。評価指標は文字誤り率(CER)と単語誤り率(WER)、合わせて混在誤り率(MER)と呼ばれます。
基盤認識モデルはWenetフレームワークを採用し、その基礎之上で実験的改善を行いました。また、言語情報の共同トレーニングを試み、フレームレベルとトークンレベルの言語ロス共同トレーニングを通じて、モデル性能が顕著に向上しました。最終的な実験結果は、トークンレベルの言語情報共同トレーニングを追加することで、認識効果が顕著に向上し、相対基盤モデル約1.76%向上し、言語識別精度が98%に達しました。
誤りタイプ分析と最適化戦略
言語情報トレーニングの有効性を検証した上で、認識誤りを詳細に分類し、エラー率の割合を統計、次の最適化戦略を決定しました。置換エラーが比較的に高く見受けられ、特に英語単語の置換エラーが7.8%と高く見受けました。言語モデルを追加することで、同言語間の置換エラーを減らす期待で、実験結果は、TLGを追加することで、テストセット上的エラー率が約2.71%相対減少し、さらに言語モデルの追加の有効性が検証されました。
概要と展望
モデルトレーニング、データ、言語モデルの三つの面での最適化を通じて、中国語・英語混在音声認識効果が顕著に向上しました。実験結果は、混在エラー率、中国語エラー率、英語エラー率がすべて顕著に減少しました。将来的には、異なるトレーニング方法を探求することで、中国語・英語混在音声認識モデルの認識効果をさらに向上させ将继续进行研究,例如训练模型参数调优、预训练和无监督学习等方法,以进一步提升中英文混合语音识别模型的性能。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?