人工知能の分野で、対話システムは常に研究のホットスポットの一つです。技術の進歩とともに、私たちはますますマシンが人間のように自然に会話に参加することを期待しています。最近、Standard Intelligence チームは、彼らのフルデュプレックス音声インタラクション基礎モデル Hertz-dev をオープンソースにしました。これは、私たちがこの目標を実現する上で重要な一歩を踏み出したことを意味します。
Hertz-dev とは
Hertz-dev は、8.5 億のパラメーターを持つフルデュプレックス、オーディオオンリーのトランスフォーマー基礎モデルです。このモデルの設計目標は、デバイスが人間の言葉を理解し、会話に参加できるようにすることです。このモデルのオープンソース化は、研究者と開発者に、次世代の音声インタラクションシステムの研究と開発に強力なツールを提供しました。
コアコンポーネント
Hertz-dev は以下のいくつかのコアコンポーネントで構成されています:
-
hertz-codec:これは、単一チャンネル、16kHz の音声を 8Hz の潜在表現に変換する畳み込み音声オートエンコーダーです。ビットレートは約 1kbps です。主観評価では、このエンコーダーは 1kbps のビットレートで 6kbps の Soundstream と Encodec を超え、8kbps の DAC と同等の性能を発揮し、1 秒あたりのトークン数は人気のあるトークナイザーのどれよりも低く、これは言語モデリングにとって非常に重要です。エンコーダーには 500 万のパラメーターがあり、デコーダーには 9500 万のパラメーターがあります。
-
hertz-vae:これは 18 億のパラメーターを持つトランスフォーマーデコーダーで、音声 VAE の学習事前に使われます。モデルは 8192 サンプルの潜在表現(17 分間)をコンテキストとして使用し、次のエンコードされた音声フレームをガウシアンミックスとして予測します。次のトークンからの 15 ビットの量子化情報は、セマンティックフレームとしてストリーミングで生成をガイダンスします。
-
hertz-dev:これは 66 億のパラメーターを持つトランスフォーマースタックです。主要なチェックポイント部分は、事前学習された言語モデルのウェイトから初期化され、次に 500B トークン上の 1 エポックでトレーニングされ、コンテキスト長さは 2048 トークン(4 分間)です。チームはまた、言語モデルの初期化されたアブレーションバージョンをリリースしました。これも 500B トークン上でトレーニングされています。
技術のハイライト
Hertz-dev は、公開された音声基礎モデルの最初のものです。基礎モデルは、研究製品として独特な価値を持っています。なぜなら、それらはトレーニングデータ分布を正確にシミュレートすることができ、大量の RL 調整によって生成分布を狭めるモデルとは異なります。これにより、基礎モデルは、多くの異なるタスクに微調整するための最適なスタート地点となります。
Hertz-dev の理論的な遅延は 65ms で、実際の世界の平均遅延は 120ms(RTX 4090 上)です。これは、世界中のどの公開モデルの遅延よりも約 2 倍低いです。これは、モデルが人間のようにあなたと対話するための前提条件であり、遅延が感じられる、断続的な電話会話のようにはなりません。Standard Intelligence は現在、より大きく、より高度な Hertz バージョンをトレーニング中です。これは、拡張された基礎モデルのレシピと RL 調整を使用して、モデルの原始的な能力と最終的な連続性を大幅に向上させます。Hertz-dev は、リアルタイム音声インタラクションの未来のひと目で、世界で最も研究者が微調整しやすく、対話音声モデルを構築しやすいものです。
使用ガイド
Hertz-dev を試してみたいユーザー向けに、Standard Intelligence は inference.ipynb
から始めることをお勧めします。これを使用して、モノラルまたはステレオの補完をプロンプトから生成します。次に、inference_client.py
と inference_server.py
を使用して、マイクを通じてリアルタイムでモデルと対話できます。この 3 つのスクリプトは、モデルを自動的に ./ckpt
ディレクトリにダウンロードします。
アプリケーションの展望
Hertz-dev のオープンソース化は、音声認識と生成の分野に新しい可能性をもたらしました。これは、既存の音声アシスタントを改善するだけでなく、全新的なアプリケーションを開発するのにも使えます。例えば:
- スマートカスタマーサービス:より自然な対話能力を通じて、カスタマーサービスのエクスペリエンスを向上させます。
- 言語学習アプリ:ネイティブスピーカーの発音とイントネーションをシミュレートし、学習者の言語スキル向上を助けます。
- ゲームとエンターテインメント:仮想キャラクターによりリアルな音声インタラクションを提供し、没入感を高めます。
- 補聴器:聴力障害者が会話をよりよく理解し、参加できるように助けます。
結語
Hertz-dev のオープンソース化は、音声技術の発展の重要なマイルストーンです。これは、強力な研究ツールを提供するだけでなく、将来の音声インタラクション技術の方向性も示しています。技術の継続的な進歩とともに、Hertz-dev が音声認識と生成の分野にもっと多くの革新と突破をもたらすと信じています。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?