2025年2月25日、アリババクラウドの視覚生成基盤モデルである万象2.1(Wan2.1)が正式にオープンソースとなりました。今回のオープンソースはApache2.0ライセンスを採用し、14Bと1.3Bの2つのパラメータ仕様のすべての推論コードとウェイトがオープンソースとなり、テキストからビデオへの変換(T2V)と画像からビデオへの変換(I2V)の両方のタスクをサポートしています。この記事では、万象2.1モデルのローカルデプロイプロセスと異なるタスクにおけるアプリケーションについて詳しく紹介します。
ローカルデプロイ
リポジトリのクローン
他のオープンソースプロジェクトと同様に、まずコードリポジトリをクローンする必要があります。ターミナルで以下のコマンドを入力します。
bash
git clone https://github.com/Wan-Video/Wan2.1.git cd Wan2.1
依存関係のインストール
仮想環境を作成することをお勧めし、その後依存関係をインストールします。国内環境では、まずPythonのソースを国内ソースに切り替えることができます。公式の方法で直接依存関係をインストールすると成功しない場合があるため、いくつかの調整が必要です。
flash-attentionのインストール
依存関係にflash_attnがあり、バージョンが指定されていません。インストール時にコンパイルが失敗しやすいです。公式のバイナリリリースを調べると、最新バージョンはv2.7.4.post1で、Linuxバージョンしかないことがわかります。しかし、第三者がWindows用のwheelファイルを提供しているため、ダウンロード後、手動でインストールすることができます。
依存関係の再インストール
flash-attentionをインストールした後、以下のコマンドを実行して残りの依存関係をインストールします。
bash
pip install -r requirements.txt PytorchをCUDAバージョンに置き換え 国内環境では、Pytorchのソースを国内ソースに切り替えるか、手動でダウンロードしてインストールすることができます。例えば: bash Copy pip uninstall torch torchvision pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126
モデルのダウンロード
ローカルでWan2.1-T2V-1.3Bモデルをデプロイできます。国内環境では、huggingfaceのソースを変更するか、hf-mirrorから手動でダウンロードすることができます。以下のコマンドを使用してモデルをダウンロードします。
bash
pip install "huggingface_hub[cli]" huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B
CUDAとCUDNN
以前にCUDA11を使用していたプロジェクトがある場合、この部分も再インストールする必要があります。バージョン番号に注意し、正常な場合は下位互換性があります。最新のCUDA12.8バージョンを使用することができます。
CUDA Toolkit 12.8 と Visual Studio 2022 v17.13.0 の衝突
インストールプログラムのプログレスバーは、nsight visual studio editionで停止する可能性があり、エラーが表示されないことがあります。解決策を参照することができます。
ローカルジェネレーション
公式の例
「2匹の拟人化された猫が、快適なボクシングギアと鮮やかなグローブを着用し、スポットライトが照らすステージで激しく戦う」という例を使用して、以下のコマンドを実行してビデオを生成します。
bash
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
実行プロセス
実行プロセスでは、モデル構成、入力プロンプト、pipelineの作成などに関する情報が表示されます。ビデオの生成プロセスではプログレスバーが表示されますが、ハードウェア構成によって異なるため、予想される生成時間は異なります。例えば、CPUがi9-12900F、RAMが64GB、グラフィックカードが4060Ti16GBのコンピュータでは、予想される生成時間が2時間以上です。
実行結果
生成が完了すると、生成されたビデオファイルが保存されます。ただし、某些情况下,可能会出现保存文件失败的问题,如文件名格式问题等。可手动检查文件名格式并进行调整。
アプリケーションシーン
テキストからビデオへの変換(Text-to-Video)
Wan2.1は、テキストからビデオへの変換タスクで優れた性能を発揮し、テキスト記述に基づいて対応するビデオコンテンツを生成することができます。前述の公式例に加えて、異なるシーンにおけるモデルの生成能力を探求するため、他の説明的なテキストを試すことができます。
画像からビデオへの変換(Image-to-Video)
Wan2.1は、画像からビデオへの変換タスクもサポートしており、入力画像に基づいてビデオを生成することができます。例えば、静的なビーチの画像を入力すると、モデルは波、砂浜などの要素の動きを示すビーチシーンのビデオを生成することができます。
ビデオ編集(Video Editing)
ビデオ編集において、Wan2.1は既存のビデオを変更や最適化することができ、例えばエフェクトの追加や画面スタイルの調整などを行うことで、ビデオ制作にさらに多くの可能性を提供することができます。
テキストから画像への変換(Text-to-Image)
Wan2.1は主にビデオ生成モデルですが、画像とビデオデータの両方でトレーニングされているため、画像の生成にも使用することができます。テキスト記述を入力すると、モデルは対応する静止画像を生成することができます。
まとめ
アリババの万象2.1モデルのオープンソースは、ビデオ生成分野に新たなブレイクスルーをもたらしました。ローカルデプロイプロセスにはある程度の複雑さがありますが、詳細な手順説明と調整を行えば、成功することができます。異なるタスクにおけるアプリケーションは、その強力な生成能力和広い応用可能性を示しています。技術の継続的な発展と最適化により、万象2.1モデルはより多くの分野で重要な役割を果たし、クリエイターと開発者により強力なツールを提供することが期待されます。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?