バイトダンスのオープンソースフレームワーク INFP：音声駆動のリアルな顔の表情と頭部の姿勢を生成する AI フレームワーク

オンラインお試し

人工知能の分野で、バイトダンスがオープンソース化した INFP フレームワークは、音声駆動の顔の表情と頭部の姿勢の生成に大きな突破をもたらしました。このフレームワークは、音声と単一の画像からリアルな顔の表情と頭部の姿勢を生成することができ、バーチャルインタラクションの分野に全新的な可能性をもたらします。

INFP フレームワークの概要
主な機能
技術原理
仕組み
アプリケーションシーン
aiスピーキング

INFP フレームワークの概要

INFP は、二元対話用の音声駆動インタラクティブな頭部生成フレームワークです。デュアルトラックオーディオと任意のエージェントの単一肖像画像に基づいて、リアルな顔の表情とリズミカルな頭部の動きを持つ口頭的、非口頭的、インタラクティブなエージェントビデオを動的に合成します。このフレームワークは軽量級ですが、強力な機能を持ち、ビデオ会議などのリアルタイムコミュニケーションシーンに適しています。INFP は、インタラクティブ（Interactive）、ナチュラル（Natural）、高速（Flash）、人物汎用（Person-generic）の特徴を表します。

主な機能

ロールの自動変換：二人の対話の中で、INFP はロールの自動変換が可能で、手動でのロール割り当てとロール変換が不要になり、コミュニケーションの自然さと流暢さが向上します。
軽量かつ効率的：強力な機能を維持しながら、INFP は軽量級の特性を持っています。Nvidia Tesla A10 では、40 fps を超える推論速度を実現し、リアルタイムのスマートエージェントインタラクションをサポートします。
インタラクティブな頭部生成：INFP には、運動ベースの頭部イミテーションと音声ガイダンスの運動生成という二つの重要な段階が含まれています。第一段階では、リアルな対話ビデオの顔のコミュニケーション動作を低次元の運動潜在空間にエンコードします。第二段階では、入力オーディオをこれらの運動潜在コードにマッピングし、音声駆動の頭部生成を実現します。
大規模な二人対話データセット DyConv：研究分野の進歩をサポートするために、INFP はインターネットから収集された豊富な二元対話を含む大規模な二人対話データセット DyConv を提案しました。

技術原理

運動ベースの頭部イミテーション段階：フレームワークは、リアルな対話ビデオの顔のコミュニケーション動作を低次元の運動潜在空間に投影する方法を学習し、大量のリアルな対話ビデオから顔のコミュニケーション動作を抽出し、運動潜在コードにエンコードします。
音声ガイダンスの運動生成段階：フレームワークは、入力されたデュアルチャンネルオーディオから運動潜在コードへのマッピングを学習し、ノイズ除去プロセスを通じてインタラクティブなシーンでの音声駆動の頭部生成を実現します。
リアルタイムインタラクションとスタイルコントロール：INFP はリアルタイムインタラクションをサポートし、ユーザーは対話中にいつでも仮想キャラクターを中断または応答することができます。任意の肖像ビデオからスタイルベクトルを抽出することで、INFP は生成結果の感情や態度をグローバルにコントロールすることができます。

仕組み

INFP は二つの段階で動作します。第一段階では、運動ベースの頭部イミテーションを行い、リアルな対話ビデオの顔のコミュニケーション動作を低次元の運動潜在コード空間に投影し、潜在コードを使用して静止画像をアニメートします。第二段階では、音声ガイダンスの運動生成を行い、ノイズ除去学習を通じて入力された二元オーディオから運動潜在コードへのマッピングを行い、音声駆動のインタラクティブな頭部生成を実現します。

アプリケーションシーン

ビデオ会議と仮想アシスタント：INFP はビデオ会議や仮想アシスタントなどのリアルタイムシーンに適しており、リアルな感覚、インタラクティブ性、リアルタイム性を提供し、自然で流暢なインタラクションエクスペリエンスを提供します。
ソーシャルメディアとインタラクティブエンターテインメント：ソーシャルメディアプラットフォームやインタラクティブエンターテインメントアプリケーションで、INFP は自然な表情と頭部の動きを持つインタラクティブなアバターを生成し、ユーザーのインタラクションエクスペリエンスを向上させます。
教育トレーニング：INFP は仮想教師やトレーナーを作成し、生き生きとしたインタラクティブな学習エクスペリエンスを提供します。
カスタマーサービス：カスタマーサービスの分野で、INFP は仮想カスタマーサービスレプレゼンタティブを生成し、人間らしいサービを提供します。
広告とマーケティング：INFP は魅力的な仮想スポークスパーソンを生成し、広告とマーケティング活動に使用され、リアルでインタラクティブな広告エクスペリエンスを提供します。
ゲームとシミュレーション：ゲームやシミュレーション環境で、INFP はリアルでインタラクティブなキャラクターを作成し、ゲームの没入感とインタラクティブ性を向上させます。

INFP フレームワークのオープンソース化は、バーチャルインタラクションの分野に新しい機会をもたらし、強力な機能と効率的なパフォーマンスにより、複数のアプリケーションシーンで広いアプリケーションプロスペクトを持っています。技術の継続的な発展とともに、INFP はユーザーにリアルでナチュラルでインタラクティブなバーチャルエクスペリエンスを提供する有望性があります。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品（pronunciation assessment）は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API（pronunciation assessment api）は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品（pronunciation assessment）を試してみませんか？

オンラインお試し