バイトジャンプがSeedFoleyを発表:ビデオサウンドエフェクトのインテリジェントな生成の新しい時代を開く

この記事は約5分で読めます。

デジタル時代の現代では、ビデオコンテンツの制作と配信がますます重要になっています。しかし、サウンドエフェクトの制作は、ビデオ業界の発展を制限するボトルネックでした。バイトジャンプの豆包大模型音声チームが最近発表したSeedFoleyモデルは、エンドツーエンドのアーキテクチャを採用してビデオスウンドエフェクトのインテリジェントな生成を実現し、ビデオ制作に革命的な変化をもたらしました。

SeedFoleyモデルの概要

SeedFoleyは、エンドツーエンドのビデオスウンドエフェクト生成アーキテクチャであり、ビデオのフレームレベルの視覚情報を正確に抽出し、アクションサウンドエフェクトと環境サウンドエフェクトを賢く区別することができます。空間時間ビデオフィーチャーと拡散生成モデルを融合することにより、サウンドエフェクトとビデオの高度な同期を実現しました。SeedFoleyは、リズミカルな音楽の瞬間や映画の緊張したシーンなどにおいても、正確にポイントを押さえ、没入感のあるリアルな体験を提供することができます。

コアテクノロジープリンシプル

ビデオエンコーダー

SeedFoleyのビデオエンコーダーは、高速フレームレートでフレーム間の局所運動情報を抽出し、低速フレームレートでビデオの意味情報を抽出する、高速と低速の特徴を組み合わせた方法を採用しています。この方法により、モデルは低計算リソースで8fpsのフレームレベルのビデオフィーチャー抽出を実現し、細かい動作の位置を特定することができます。最後に、トランスフォーマー構造を用いて高速と低速の特徴を融合し、ビデオの空間時間フィーチャーを抽出します。

オーディオ表現モデル

伝統的なメルスペクトルベースのVAEモデルとは異なり、SeedFoleyは、エンコード後に1Dの表現を得るための原始波形を入力として使用しています。オーディオは32kのサンプリングレートを使用し、高周波情報を保持します。1秒あたりのオーディオから32のオーディオ潜在表現を抽出することで、オーディオの時間軸上の解像度を向上させ、サウンドエフェクトの繊細さを向上させることができます。

拡散モデル

SeedFoleyは、拡散トランスフォーマーフレームワークを採用し、ガウスノイズ分布から目標オーディオ表現空間への確率マッチングを実現するための確率パス上の連続写像関係を最適化しています。伝統的な拡散モデルがマルコフ連鎖サンプリングに依存する特性と比較して、SeedFoleyは連続変換パスを構築することで、推論ステップ数を削減し、推論コストを削減します。トレーニング段階では、ビデオフィーチャーとオーディオ意味ラベルをそれぞれ潜在空間ベクトルにエンコードし、チャンネル次元を結合してこれらを時間エンコーディングとノイズ信号と混合し、結合条件入力を作成します。これにより、サウンドエフェクトとビデオ画面の時間軸上的一致性が向上します。

应用场景

SeedFoleyの应用场景は非常に広く、以下が含まれますがこれらに限定されません:

  • ライフスタイルVlog:個人のVlogにリアルな環境サウンドエフェクトを追加する。例えば、街の騒音やカフェのバックグラウンドミュージックなど。

  • ショートムービー制作:ストーリーに合致するアクションサウンドエフェクトと環境サウンドエフェクトを追加し、視聴者の没入感を高める。

  • ゲーム制作:ゲームビデオにリアルなサウンドエフェクトを追加する。例えば、戦闘サウンドエフェクトや環境サウンドエフェクトなど。

  • ビデオポストプロダクション:ビデオポストプロダクションでは、SeedFoleyはビデオコンテンツと高度にマッチするサウンドエフェクトを迅速に生成することができ、ポストプロダクションの時間とコストを節約する。

  • 広告ビデオ:広告ビデオに魅力的なサウンドエフェクトを追加し、広告の吸引力と伝播効果を高める。

  • 教育ビデオ:教育ビデオに適切なサウンドエフェクトを追加し、視聴者の学習意欲と集中力を高める。

使用方法

SeedFoleyの使用は非常に簡単で、ユーザーは即夢プラットフォームにアクセスし、登録してログイン後、ビデオ生成功能を選択してビデオコンテンツを生成し、「AIサウンドエフェクト」機能を選択すると、システムは自動的にビデオに3つのプロフェッショナルなサウンドエフェクトプランを生成します。ユーザーは、ビデオコンテンツに最も適したサウンドエフェクトプランをプレビューして選択し、それをビデオに適用することができます。

結語

SeedFoleyの登場は、ビデオ制作に新しい可能性をもたらしました。ビデオのフレームレベルの視覚情報を正確に抽出し、アクションサウンドエフェクトと環境サウンドエフェクトを賢く区別するだけでなく、複数のビデオ長さをサポートし、サウンドエフェクトの正確性、同期性、マッチング度で優れたパフォーマンスを発揮します。SeedFoleyが継続的に発展し、完全になるにつれて、ビデオ制作分野でより大きな役割を果たし、視聴者にますます豊富な視聴体験を提供すると信じています。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました