智谱 AI の最新オープン ソース 文生図モデル CogView4 が正式に登場しました。強力な中英二か国語のサポート、任意の解像度の画像生成能力、そして目立つ漢字生成能力により、オープン ソース分野の注目を集めています。この記事では、CogView4 の主な特徴、技術原理、適用分野、そしてこのモデルの使用方法について詳しく紹介します。
CogView4 の主な特徴
- 優れた性能:CogView4 は DPG-Bench ベンチマーク テストで総合評価で 1 位を獲得し、複雑な意味の対応と命令の従う能力を示し、高品質の画像を生成することができます。
- 中英二か国語のサポート:CogView4 は任意の長さの英語と中国語の入力をサポートし、特に中国語の指示を理解し従うのが得意で、画像に漢字を生成することができます。広告やショート ビデオなどの分野の創造的なニーズを満たします。
- 任意の解像度とプロンプトの長さ:CogView4 は任意の長さのプロンプトを入力し、指定された範囲内の任意の解像度の画像を生成することができ、ユーザーの創造的な自由度とトレーニング効率を大幅に向上させます。
- 技術の先進性:
- テキスト エンコーダーのアップグレード:純英語の T5 エンコーダーから二か国語対応の GLM-4 エンコーダーにテキスト エンコーダーを変更し、英語と中国語の両方の画像で学習を行います。
- 画像位置のエンコーディング:画像の位置情報をモデリングするために二次元回転位置のエンコーディング(2D RoPE)を使用し、内挿位置のエンコーディングによって異なる解像度の画像生成タスクをサポートします。
- 拡散生成モデリング:Flow-matching 方式を使用して拡散生成モデリングを行い、パラメーター化された線形動的ノイズ計画を組み合わせることで、異なる解像度の画像の信噪比のニーズに対応します。
- アーキテクチャ設計:DiT モデル アーキテクチャ上で、前の世代の Share-param DiT アーキテクチャを継続し、テキストと画像モーダルにそれぞれ独立した適応 LayerNorm 層を設計します。
- マルチステージトレーニング:基本解像度トレーニング、汎用解像度トレーニング、高品質データの微調整、人間の好みの対応トレーニングを含むマルチステージトレーニング戦略を採用します。
- トレーニング フレームワークの最適化:従来の固定 token 長さの制限を突破し、より高い token 上限を許可し、トレーニングプロセスにおけるテキスト token の冗長性を大幅に削減します。
- Apache 2.0 プロトコルの遵守:CogView4 モデルは Apache 2.0 プロトコルをサポートし、今後は ControlNet、ComfyUI などのエコシステムのサポートを順次追加し、完全な微調整ツールキットも間もなく発表されます。
CogView4 の技術原理
CogView4 の技術アーキテクチャは全面的にアップグレードされ、強力な二か国語処理能力和靈活的画像生成能力を備えています。テキスト エンコーダーは GLM-4 にアップグレードされ、英語だけでなく中国語の入力もサポートし、以前のオープン ソース モデルが英語のみをサポートする制限を完全に打破了。モデルは、英語と中国語の両方の画像で学習を行うことで、中国語環境下での生成品質を保証します。テキスト処理では、CogView4 は従来の固定長設計を捨て、動的テキスト長方案を採用しています。平均的な説明テキストが 200-300 トークンの場合、従来の 512 トークンの固定方案と比較して、冗長性が約 50% 削減され、トレーニング効率が 5%-30%向上します。さらに、CogView4 は任意の解像度の画像を生成することができ、その背後には複数の技術的ブレイクスルーがあります。モデルは混合解像度トレーニングを採用し、二次元回転位置のエンコーディングと内挿位置の表現を組み合わせることで、異なるサイズのニーズに適応します。Flow-matching 扩散モデルとパラメーター化された線形動的ノイズ計画に基づいて、生成される画像の品質と多様性がさらに向上します。
CogView4 の適用分野
CogView4 の強力な機能により、次の創造的な分野に適用できます。
- 広告の創造性:英語と中国語の両方のプロンプトから高品質の画像を生成し、広告デザインの創造的なニーズを満たします。特定のテキストを含むポスター、コピーの画像などを作成します。
- ショート ビデオの制作:ショート ビデオのクリエイターに便利な画像生成ツールを提供し、ビデオの脚本や創造的な説明から対応する画像を生成し、ショート ビデオの制作効率と品質を向上させます。
- アート クリエーション:アーティストやデザイナーは、CogView4 を使用して特定のスタイルや意境の画像を生成し、創造的なインスピレーションを刺激し、アート ワークの制作を支援します。
- 教育分野:教師は、このモデルを使用して、古詩文の意境図や歴史的イベントのシーン図など、教育内容に関連する画像を生成し、教育の楽しさと直感性を高めます。
- ゲーム開発:ゲーム デベロッパーは、ゲームのプロットやキャラクター設定から対応するゲーム画面やキャラクターの画像を生成し、ゲーム開発の効率と品質を向上させます。
- その他の創造的な分野:漫画の創作、イラストのデザイン、ブランドの宣伝など、CogView4 はユーザーのニーズに応じて高品質の画像を生成し、異なる創造的な分野の創作ニーズを満たします。
CogView4 の使用方法
CogView4 の使用は比較的簡単で、以下の手順に従ってください。
-
依存関係のインストール:
pip install git+https://github.com/huggingface/diffusers.git
-
推論コード:
from diffusers import CogView4Pipeline import torch pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16) # GPU メモリの使用量を減らすために有効にします pipe.enable_model_cpu_offload() pipe.vae.enable_slicing() pipe.vae.enable_tiling() prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background." image = pipe( prompt=prompt, guidance_scale=3.5, num_images_per_prompt=1, num_inference_steps=50, width=1024, height=1024, ).images[0] image.save("cogview4.png")
まとめ
CogView4 は、智谱 AI の最新オープン ソース 文生図モデルであり、その優れた性能、強力な二か国語のサポート、そして靈活的画像生成能力により、オープン ソース分野の注目を集めています。Apache 2.0 プロトコルに従い、さまざまなエコシステムのツールをサポートするCogView4は、開発者やクリエイティブ ワーカーに強力なサポートを提供します。技術の継続的な進歩と最適化により、CogView4 は今後、さらに多くの分野で重要な役割を果たし、創造的産業にさらに多くの可能性をもたらすと期待されます。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?