音声評価技術が古詩朗読シーンに適用される

はじめに
音声評価技術の紹介
1. 2.1 評価指標
2. 2.2 技術フレームワーク
DNN音韻モデルの改善
1. 3.1 Conformerモデル
3.2 チャンク（chunk）に基づくマスク流式ソリューション
古文朗読アプリケーションにおける特別な処理
評価エンジンのローカル化
技術的な総括と展望
aiスピーキング

はじめに

言語教育カリキュラムでは、口語セクションがますます重要視されています。一対一の教師と生徒のコミュニケーションは、話すスキルを向上させる有効な方法ですが、多くの話す学習者のニーズを満たすのは困難です。コンピューター技術と音声評価技術の急速な発展おかげで、コンピュータ支援付き言語学習（CALL）技術が生まれ、朗読、暗唱、復述、自由表現など、多种の口語評価プランを提供しています。これらのプランは学生に追加の学習機会と豊富な学習資料を提供し、教師が学生の発音練習を指導したり、発音の誤りを指摘したり、診断フィードバックを提供したり、学生の全体的な発音レベルを評価することで、実際に話す学習の効率とレベルを向上させます。

音声評価技術の紹介

2.1 評価指標

発音評価は、正確さ、流暢さ、完全さ、リズム、イントネーションなどの次元を含みます。正確さはユーザーの発音レベルを反映します。流暢さは朗読の流暢さ、語速、ポーズの次数に関連します。完全さは正しく発音された単語の割合を反映します。単語スコアと文スコアはそれぞれ、文の中の各単語と段落の中の各文のスコアを指します。合計スコアは上記のスコアを総合して得られる評価全体のスコアで、正確さは合計スコアに最も大きな影響を与えます。

話す評価は主観的です。専門家の人間は、自分の専門知識と経験に基づいて、各次元で優良中可差のレベルでスコアをつけます。機械の口語評価システムの性能を評価するためには、相関係数や一致性などの指標が一般的に用いられます。専門家のスコアに近いほど、システムは信頼性が高くなります。現在、人間と機械の相関性や一致性は、人間間の平均相関性や一致性を超えています。音声評価技術はすでに中国語と英語の口語評価とグレードリングに広く適用されています。

2.2 技術フレームワーク

現在の主流の音声評価方案は、隠れマルコフモデル-深層神経ネットワーク（HMM-DNN）モデルに基づいており、音声の後验確率を得て、評価テキストと強制的にアライメントした後、GOP方法を使用してスコアリングを行っています。

1）音韻特徴量の抽出：音声シグナルを周波数領域に変換し、MFCCやFbankなどの特徴量を獲得します。

2）HMM-GMMの無監督クラスタリング：DNNトレーニング後のフレームラベルを獲得します。HMMは音声の時間的制約と依存をモデル化し、GMMはHMMの観測確率（各音素に属する確率）をモデル化します。

3）DNN判別学習：DNNがGMMを置き換えてHMM観測確率の出力を行い、正確さを大幅に向上させます。

4）評価テキストによるHMMデコード図の構築：テキストの時間的関係を制約します。

5）Viterbiデコードによる強制アライメント結果の獲得。

6）GOP正確さスコアリング。

7）全体スコアリング：音素のGOPスコア、流暢さなどの特徴量を専門家のスコアにフィッティングします。

DNN音韻モデルの改善

3.1 Conformerモデル

ConformerモデルはTransformerをベースに卷積を組み込み、流式評価タスクに適していますが、計算複雑さと遅延の問題があります。

3.2 チャンク（chunk）に基づくマスク流式ソリューション

maskメカニズムを通じてattentionメカニズムによる遅延を減らし、流式評価タスクに適応します。

古文朗読アプリケーションにおける特別な処理

古文朗読アプリケーションでは、学生は携帯アプリケーションで古文を選択して朗読を行い、スクリーン上で朗読状況がリアルタイムに表示され、正しい部分は黒色で、発音エラーがある部分は赤色で色分けされます。朗読後に全体のスコアレポートを提供し、学生がチェックと朗読練習を行えるようにします。

評価エンジンのローカル化

超高並発、ネットワーク遅延、ロングリンクの安定性の問題を解決するために、ローカル評価方案を開発しました。この方案は低遅延、セキュリティ、安定性、クラウドリソースの節約を持ちます。

技術的な総括と展望

音声評価技術は音声認識タスクと非常に似ており、近年急速に発展しています。エンドツエンドアルゴリズムの適用により、トレーニングプロセスが簡素化され、全体的な誤り率が低下しています。評価技術もHMM-GMMからHMM-DNNにアップグレードされ、正確さは大幅に向上しています。将来的には、Auto-Encoder、Variational Auto-Encoder、attentionメカニズムなどの方法を借鉴して、完全なエンドツエンドトレーニングを実現し、正確さをさらに向上させる可能性があります。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品（pronunciation assessment）は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API（pronunciation assessment api）は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品（pronunciation assessment）を試してみませんか？

オンラインお試し