テキストからビデオ生成大規模モデル-英語-一般分野

この記事は約7分で読めます。

このモデルは、多段階テキストからビデオ生成拡散布モデルに基づいており、記述テキストを入力すると、テキストに合致したビデオが返されます。英語入力のみをサポートしています。

モデル説明 (Model Description)

テキストからビデオ生成拡散布モデルは、テキスト特徴抽出、テキスト特徴からビデオ潜在空間拡散布モデル、ビデオ潜在空間からビデオビジュアル空間の3つのサブネットワークで構成され、全体のモデルパラメータは約17億です。英語入力をサポートしています。拡散布モデルはUnet3D構造を採用し、純粋スノイズノイズビデオから、反復元過程を繰り返してノイズを除去し、ビデオ生成機能を実現しています。

モデルの使用方法および適用範囲 (How to expect the model to be used and where it is applicable) このモデルの適用範囲は広く、任意の英語テキスト記述的基础上推理を実行し、ビデオを生成できます。テキストからビデオ生成の例は以下の通りで、上部が入力テキストで、下部が対応する生成されたビデオです:

使用方法 (How to use)

モデルを体験しやすくするためには、Notebookの迅速なテキストからビデオ生成チュートリアルを参考にしてください。モデルは創作空間以及Huggingfaceでオンラインで利用可能で、直接体験できます。

このモデルは現時点、GPU上でのみ推論可能です。モデルには約16GBのメモリ以及16GBのGPUメモリが必要です。ModelScopeフレームワークの下で、簡単なPipelineを呼びることで現在のモデルを使用できます。入力は辞書形式のディクショナリーで、有効なキーは'text'、内容は一つの短いテキストです。入力の具体的なコード例は以下の通りです:

[2023.03.21 更新] ModelScopeが1.4.2バージョンをリリースし、テキストからビデオ合成モデルはモデルパラメータファイルをv1.1.0に更新しました。

[2023.03.21 更新] ModelScopeがバージョン1.4.2をリリースし、テキストからビデオ合成モデルはモデルパラメータファイルをv1.1.0に更新しました。

実行環境 (Operating environment)

pip install modelscope==1.4.2
pip install pytorch-lightning
pip install open_clip_torch==2.24.0

コード例 (Code example)

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys

p = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')
test_text = {
        'text': 'A panda eating bamboo on a rock.',
    }
output_video_path = p(test_text, output_video='./output.mp4')[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

結果の確認 (View Results)

上記のコードは、出力ビデオの保存パスを表示し、現在はVLCプレーヤーで通常再生可能です。システムのデフォルトプレーヤーではこのモデルが生成したビデオを通常再生できない場合があります。

モデルの限界以及可能性の偏り (Model limitations and biases) モデルはWebvidなどの公開データセットに基づいてトレーニングされ、生成結果にトレーニングデータの分布に関連する偏差が存在する可能性があります。

このモデルは完璧な映画級の生成を実現できません。

このモデルは明確なテキストを生成できません。

このモデルは主に英語資料でトレーニングされており、他の言語は現在サポートしていません。

このモデルは複雑な合成タスク上でのパフォーマンスが向上待ちます。

誤用、悪用以及範囲外の使用 (Misuse, Malicious Use and Excessive Use) このモデルは商業目的以外の提供され、研究用にのみ使用できます。

このモデルは人々やその環境、文化、宗教など的真实な表現をトレーニングされていないため、そのようなコンテンツの生成はモデルの能力を超えています。

人やその環境、文化、宗教などに轻蔑的、有害なコンテンツの生成は禁止されています。

淫秽、暴力的、流血内容の生成は禁止されています。

誤り以及偽偽keの情報を生成することは禁止されています。

トレーニングデータの紹介 (Training data) トレーニングデータにはLAION5B、ImageNet、Webvidなどの公開データセットが含まれられ、美学スコア、水印スコア、重複排除などの事前トレーニングで画像以及ビデオがフィルタリングされています。

関連論文以及引用情報 (Relevant papers and citation information)

@article{wang2023modelscope,
  title={Modelscope text-to-video technical report},
  author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
  journal={arXiv preprint arXiv:2308.06571},
  year={2023}
}

@inproceedings{luo2023videofusion,
  title={VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
  author={Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2023}
}

@inproceedings{rombach2022high,
  title={High-resolution image synthesis with latent diffusion models},
  author={Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj{\"o}rn},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  pages={10684--10695},
  year={2022}
}

@inproceedings{Bain21,
  author={Max Bain and Arsha Nagrani and G{\"u}l Varol and Andrew Zisserman},
  title={Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval},
  booktitle={IEEE International Conference on Computer Vision},
  year={2021},
}

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました