SPIRIT LM:Meta AIのシームレスなテキストと音声生成マルチモーダルモデル

この記事は約3分で読めます。

概要

SPIRIT LM は Meta AI によって開発されたマルチモーダル言語モデルであり、音声とテキストデータをシームレスに統合し、跨モーダル生成、意味表現、および少量のサンプル学習能力を持っています。このモデルは、テキストと音声マークを1つのストリームに統合するユニークな単語レベルの相互変換技術を使用し、テキストと音声マークの生成を滑らかに切り替えることができます。

特徴

SPIRIT LM には2つのバージョンがあります:

SPIRIT LM BASE: 音声ユニットを使用して音声モデリングを行います。

SPIRIT LM EXPRESSIVE:音声モデリングだけでなく、音声のピッチとスタイルモデリングも行い、口頭表現の微妙な違いを捉えます。

技術アーキテクチャ

SPIRIT LM のバックボーンは LLaMA 2 アーキテクチャであり、テキストと音声データに応じて微調整されています。主要な構成要素には以下の通りです:

音声エンコーダー: HuBERT を使用して原始オーディオを音声ユニットに変換します。

テキストエンコーダー:バイトペアエンコーディング(BPE)を使用して書面の入力をサブワードユニットにマークします。

相互変換メカニズム:音声マークのプレフィックスは SPEECH、テキストマークのプレフィックスは TEXT であり、モデルは単語の境界でランダムにモードを切り替えます。

音声デコーダー:生成された音声マークは HiFi-GAN ボコーダーを通じてオーディオに変換されます。

評価

SPIRIT LM はテキストと音声モードで広く評価され、優れたパフォーマンスを発揮しました:

ゼロショットと少量ショットの理解: WUGGY、BLIMP、StoryCloze などのタスクで優れた成績を収め、特に音声理解において純粋な音声ベースのベースラインを上回っています。

感情の保持:「音声-テキスト感情の保持」(STSP)ベンチマークテストで、音声とテキストの間の感情トーンを正確に保持しました。

少量学習:わずかな例で ASR と TTS などの新しいタスクに迅速に適応できます。

アプリケーションの展望

SPIRIT LM のアプリケーションの展望は広く、以下が含まれます:

支援技術:音声アシスタントや障害者向けのアクセシビリティツールに使用され、より自然で表現力豊かなインタラクションを実現します。

コンテンツ創作:ポッドキャスト、オーディオブック、および声優ビデオゲームの効果を強化します。

マルチモーダル翻訳:異なる言語とメディア間のリアルタイムコミュニケーションを改善します。

感情分析:人工知能駆動のインタラクションが必要なトーンと感情を維持することを確保します。

制限

SPIRIT LM は主に英語でのトレーニングが行われており、マルチリンガルアプリケーションでの有効性が制限されています。他の言語に拡張するには、大量の再トレーニングが必要です。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました