PaddleSpeechの中国語・英語混在音声認識技術

現代のグローバル化時代において、音声認識技術は、スマートフォンアプリ、人車連携、ロボット対話、音声書き出しなどの多岐にわたる場面で重要な役割を果たしています。これらの場面での音声入力はしばしば多言語が混在しており、特に中国語環境では、専門用語がよく英語で表現されることがあります（「GPS信号が弱い」や「Javaエンジニア」など）。このような中国語・英語混在の音声認識は、技術に新しい課題を投げかけています。

中国語・英語混在音声認識の難しさ
PaddleSpeech中国語・英語音声認識方案
aiスピーキング

中国語・英語混在音声認識の難しさ

データ量が少ない： 中国語・英語混在音声データは、単一言語データに比べて希少です。現在、公開されている中国語音声認識データセットはWenetSpeech（1万時間の監督学習、2,500時間の弱監督学習、1万時間の非監督学習）、英語データセットはGiga Speech（1万時間の監督学習、3万3,000時間の非監督学習）などがあり、万時間規模に達していますが、混在の公開データセットはSEAME（120時間）とTAL_CSASR（587時間）の2つのみです。

中国語・英語似た発音が混同しやすく： 中国語・英語音声認識は、一つのモデルで多言語を学ぶ必要があり、似たが異なる意味を持つ発音はモデルの複雑さと計算量を増加させます。また、異なる言語の似た発音を区別する必要があるため、モデル構築時に異なる言語のモデル単位を区別する必要があります。

PaddleSpeech中国語・英語音声認識方案

モデルの選択と紹介： PaddleSpeechでは、端到端音声認識モデルConformer U2を使用し、CTCとAttention機構を組み合わせ、dynamic chunkのトレーニング技術を用いて、Shared Encoderが任意の長さの音声断片を処理できるようにしています。モデルはストリーミングとノンストリーミング音声認識をサポートし、推論遅延を制御します。

データセットの紹介： TAL_CSASR中国語・英語混在音声データセットを使用し、587時間の音声講義音声、中国語・英語混在講義を含む情况进行扱います。

中国語・英語混在音声認識モデル単位：PaddleSpeechの事前トレーニング済み中国語・英語音声認識モデルはConformer U2を使用し、言語モデルは接続されていない状态下、中国語文字/単語と英語サブワードのモデル方法を用いて、中国語と英語を分離してモデル化し、モデル推論を通じて直接認識結果を得ます。

試験結果比較：プロジェクトでは中国語・英語混在データセットを使用しているため、評価指標として混在誤り率（MER、Mix Error Rate）を使用し、中国語部分では文字誤り率（CER、Character Error Rate）、英語部分では単語誤り率（Word Error Rate）を計算します。テストデータセットはTAL_CSASRで既に分割されているテストセットを使用します。異なるデコード方式による認識効果の違いを考慮し、Attention、CTC Greedy Search、CTC Prefix Beam Search、Attention Rescoringの4つのデコード方式を使用して試験を行い、Attention Rescoringが最良の結果を出し、混在誤り率MERは0.084となり、一般的に言えば音声認識正確率91.6％に相当します。

さらなる最適化と効果向上：現在の中国語・英語音声認識方案の効果はさらに向上の余地があり、Conformer U2モデルの後に言語モデルを追加し、言語モデルを通じて中国語・英語の言語情報を学ぶことで効果を向上させることができます。また、トレーニング過程で言語IDを追加し、トークンレベルまたはフレームレベルの言語IDタグ情報を用いることで、中国語・英語音声認識の効果をさらに向上させることができます。更大な中国語・英語混在データセットや場面関連のデータセットがあれば、微調整やさらなるトレーニングを通じてビジネス場面での認識効果を向上させることができます。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品（pronunciation assessment）は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API（pronunciation assessment api）は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品（pronunciation assessment）を試してみませんか？

オンラインお試し