CogView4：智谱 AI のオープンソース文生図モデル、中英二か国語をサポートし、漢字の生成が可能

オンラインお試し

智谱 AI の最新オープンソース文生図モデル CogView4 が正式に登場しました。強力な中英二か国語のサポート、任意の解像度の画像生成能力、そして目立つ漢字生成能力により、オープンソース分野の注目を集めています。この記事では、CogView4 の主な特徴、技術原理、適用分野、そしてこのモデルの使用方法について詳しく紹介します。

CogView4 の主な特徴
CogView4 の技術原理
CogView4 の適用分野
CogView4 の使用方法
まとめ
aiスピーキング

CogView4 の主な特徴

優れた性能：CogView4 は DPG-Bench ベンチマークテストで総合評価で 1 位を獲得し、複雑な意味の対応と命令の従う能力を示し、高品質の画像を生成することができます。
中英二か国語のサポート：CogView4 は任意の長さの英語と中国語の入力をサポートし、特に中国語の指示を理解し従うのが得意で、画像に漢字を生成することができます。広告やショートビデオなどの分野の創造的なニーズを満たします。
任意の解像度とプロンプトの長さ：CogView4 は任意の長さのプロンプトを入力し、指定された範囲内の任意の解像度の画像を生成することができ、ユーザーの創造的な自由度とトレーニング効率を大幅に向上させます。
技術の先進性：
- テキストエンコーダーのアップグレード：純英語の T5 エンコーダーから二か国語対応の GLM-4 エンコーダーにテキストエンコーダーを変更し、英語と中国語の両方の画像で学習を行います。
- 画像位置のエンコーディング：画像の位置情報をモデリングするために二次元回転位置のエンコーディング（2D RoPE）を使用し、内挿位置のエンコーディングによって異なる解像度の画像生成タスクをサポートします。
- 拡散生成モデリング：Flow-matching 方式を使用して拡散生成モデリングを行い、パラメーター化された線形動的ノイズ計画を組み合わせることで、異なる解像度の画像の信噪比のニーズに対応します。
- アーキテクチャ設計：DiT モデルアーキテクチャ上で、前の世代の Share-param DiT アーキテクチャを継続し、テキストと画像モーダルにそれぞれ独立した適応 LayerNorm 層を設計します。
- マルチステージトレーニング：基本解像度トレーニング、汎用解像度トレーニング、高品質データの微調整、人間の好みの対応トレーニングを含むマルチステージトレーニング戦略を採用します。
- トレーニングフレームワークの最適化：従来の固定 token 長さの制限を突破し、より高い token 上限を許可し、トレーニングプロセスにおけるテキスト token の冗長性を大幅に削減します。
Apache 2.0 プロトコルの遵守：CogView4 モデルは Apache 2.0 プロトコルをサポートし、今後は ControlNet、ComfyUI などのエコシステムのサポートを順次追加し、完全な微調整ツールキットも間もなく発表されます。

CogView4 の技術原理

CogView4 の技術アーキテクチャは全面的にアップグレードされ、強力な二か国語処理能力和靈活的画像生成能力を備えています。テキストエンコーダーは GLM-4 にアップグレードされ、英語だけでなく中国語の入力もサポートし、以前のオープンソースモデルが英語のみをサポートする制限を完全に打破了。モデルは、英語と中国語の両方の画像で学習を行うことで、中国語環境下での生成品質を保証します。テキスト処理では、CogView4 は従来の固定長設計を捨て、動的テキスト長方案を採用しています。平均的な説明テキストが 200-300 トークンの場合、従来の 512 トークンの固定方案と比較して、冗長性が約 50% 削減され、トレーニング効率が 5%-30%向上します。さらに、CogView4 は任意の解像度の画像を生成することができ、その背後には複数の技術的ブレイクスルーがあります。モデルは混合解像度トレーニングを採用し、二次元回転位置のエンコーディングと内挿位置の表現を組み合わせることで、異なるサイズのニーズに適応します。Flow-matching 扩散モデルとパラメーター化された線形動的ノイズ計画に基づいて、生成される画像の品質と多様性がさらに向上します。

CogView4 の適用分野

CogView4 の強力な機能により、次の創造的な分野に適用できます。

広告の創造性：英語と中国語の両方のプロンプトから高品質の画像を生成し、広告デザインの創造的なニーズを満たします。特定のテキストを含むポスター、コピーの画像などを作成します。
ショートビデオの制作：ショートビデオのクリエイターに便利な画像生成ツールを提供し、ビデオの脚本や創造的な説明から対応する画像を生成し、ショートビデオの制作効率と品質を向上させます。
アートクリエーション：アーティストやデザイナーは、CogView4 を使用して特定のスタイルや意境の画像を生成し、創造的なインスピレーションを刺激し、アートワークの制作を支援します。
教育分野：教師は、このモデルを使用して、古詩文の意境図や歴史的イベントのシーン図など、教育内容に関連する画像を生成し、教育の楽しさと直感性を高めます。
ゲーム開発：ゲームデベロッパーは、ゲームのプロットやキャラクター設定から対応するゲーム画面やキャラクターの画像を生成し、ゲーム開発の効率と品質を向上させます。
その他の創造的な分野：漫画の創作、イラストのデザイン、ブランドの宣伝など、CogView4 はユーザーのニーズに応じて高品質の画像を生成し、異なる創造的な分野の創作ニーズを満たします。

CogView4 の使用方法

CogView4 の使用は比較的簡単で、以下の手順に従ってください。

依存関係のインストール：

pip install git+https://github.com/huggingface/diffusers.git

推論コード：

from diffusers import CogView4Pipeline
import torch

pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16)
# GPU メモリの使用量を減らすために有効にします
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
image = pipe(
   prompt=prompt,
   guidance_scale=3.5,
   num_images_per_prompt=1,
   num_inference_steps=50,
   width=1024,
   height=1024,
).images[0]
image.save("cogview4.png")

まとめ

CogView4 は、智谱 AI の最新オープンソース文生図モデルであり、その優れた性能、強力な二か国語のサポート、そして靈活的画像生成能力により、オープンソース分野の注目を集めています。Apache 2.0 プロトコルに従い、さまざまなエコシステムのツールをサポートするCogView4は、開発者やクリエイティブワーカーに強力なサポートを提供します。技術の継続的な進歩と最適化により、CogView4 は今後、さらに多くの分野で重要な役割を果たし、創造的産業にさらに多くの可能性をもたらすと期待されます。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品（pronunciation assessment）は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API（pronunciation assessment api）は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品（pronunciation assessment）を試してみませんか？

オンラインお試し