スマート音声技術が会話教育の効率を向上させる

この記事は約5分で読めます。

言語学習は、語彙、文法、会話学習など多くの面で構成されています。コミュニケーション的观点(げん點)から見れば、会話学習は最も重要な一部です。伝統的な会話教育は、標準的な発音并能(のう)の教師に依存していますが、実際の教育過程では、教師が少なく、生徒が多く、授業時間が限られているため、教師は一人ずつの会話指導やフィードバックを提供することが難しく、生徒の学習効率や授業への積極性を一部影響しています。現代の技術手段を活用して会話教育の問題を効果的に軽減し、授業の不足を補うことは、実践的価値と社会的意义(いぎ)が高くなっています。

統計的機械学習と深層神経ネットワークの発展に伴い、音声技術は音声合成、音声認識、発音逆解析などの重要な分野で顕著な進歩を遂げ、会話学習の問題を解決する可能性を提供しています。

音声合成技術は教師資源の問題を和らげます

音声合成技術は、入力されたテキストを音声に変換する技術です。伝統的な音声合成システムは、フロントエンドとバックエンドの2つのモジュールで構成されています。フロントエンドモジュールは、入力テキストを分析し、バックエンドモジュールに必要な言語学的信息(じょうほう)を抽出します。中国語合成システムにとって、フロントエンドモジュールは通常、テキストの正規化、単語分割、品詞予測、多音字の曖昧さ回避、リズム予測などのサブモジュールを含んでいます。バックエンドモジュールは、フロントエンドの分析結果に基づいて、音声波形を生成します。

実践では、主観的(しゅかんてき)または客観的(かかんてき)な方法で音声の質を評価します。主観的方法は、実験参加者(さんじょうしゃ)が音声に点数をつけることで、平均意見得点(Mean Opinion Score、MOS)、診断リムTEST(Diagnostic Rhyme Test、DRT)、劣化平均意見得点(Degradation Mean Opinion Score、DMOS)、診断的認可度測定法(Dignostic Acceptability Measure、DAM)などがあります。客観的方法は、アルゴリズムで音声の質を評価することです。音声合成の論文で、合成音声と実際の音声のメル倒譜誤差(Mel Cepstral Distortion)を計算して、合成音声の質を評価することもよく見られます。しかし、現在では、人間の音声感知過程を完全に模倣できる客観的な評価システムを確立することはできません。得られた情報を基にできるだけ正確な評価を行うことができ、作られた客観的な評価モデルも人間の感知能力とは大きく異なります。実際の応用では、主観的評価と客観的評価を組み合わせて使用することが多いです。客観的評価は、システムの設計、調整、リアルタイム監視段階でよく使用され、主観的評価は結果の最終的な検証として使われるべきです。

現在、主流の音声合成システムのMOSスコアは4.0以上に達しており、十分に標準的で自然な音声を合成し、会話学習における発音例として使用でき、教師の発音水準の不均衡や教師資源の不足の問題を効果的に和らげることができます。

音声評価技術の弱い部分

一般に言えば、音声評価技術は、コンピュータアルゴリズムを用いて発音を自動的に評価、誤りを検出しフィードバックを提供する技術であり、コンピュータ輔助言語学習とテスト分野で最も重要な技術の一つです。言語学習と会話試験で重要な役割を果たしています。音声評価技術の目的は、専門家や教師を代替し、生徒の発音をリアルタイムに自動的に評価し、誤りを検出し、人間の評価の主観性や効率の低さなどの問題を補うことです。

音声評価は、朗読評価と口頭表現評価の2つの重要な技術を含みます。前者は、単語、文、段落の朗読問題を主に含み、重点は生徒の発音誤りと発音の質です。后者は、口頭翻訳、口頭復述、絵を見ながら話す、トピック説明などの問題を主に含み、生徒の論理的思考力と言語組織能力を評価します。朗読評価技術は比較的早く研究され、現在は成熟したレベルに達しています。口頭表現評価技術は朗読評価よりもはるかに難しく、音声だけで生徒の口頭表現能力を評価することは非常に困難です。

発音逆解析技術の課題

発音逆解析技術は、音声音響信号から発音器の位置と形を推定する技術です。発音可視化技術と組み合わせて、教師としての役割を果たし、生徒にリアルタイムの視覚的フィードバックと発音指導を提供します。音声信号から発音器の形と位置を逆推出することは非常に困難なタスクです。発音モデルに基づく研究也罢、実際の発音データに基づく研究也罢、音声の音響信号と発音器の位置と形之间的关系には多対一(たたいち)の関係が存在することが発見されています。つまり、異なる声道形態が音響特徴の类似的(にほうてき)な音声信号を生成することができます。

近年、深層神経ネットワーク技術の発展と音声と発音データの同期収集手段の進歩に伴い、双方向長時間記憶ユニットに基づく再帰的神経ネットワークを発音逆推仕事に適用し、平均的なパフォーマンスを向上させました(発音器の平均位置誤差が約2

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました