Stable Diffusion 3.5 Large

この記事は約10分で読めます。

Stable Diffusion 3.5 Largeは、画像品質、タイポグラフィ、複雑なプロンプト理解、リソース効率において性能が向上したマルチモーダルディフュージョントランスフォーマー(MMDiT)テキストトゥイメージモデルです。

注意:このモデルはStability Community Licenseの下でリリースされています。詳細については、Stability AIを訪れて学習するか、商用ライセンスの詳細については私たちに連絡してください。

モデル説明

開発者:Stability AI モデルタイプ:MMDiTテキストトゥイメージ生成モデル モデル説明:このモデルはテキストプロンプトに基づいて画像を生成します。3つの固定された事前学習済みテキストエンコーダーを使用し、QK正規化を用いてトレーニングの安定性を高めます。 ライセンス コミュニティライセンス:研究、非営利、年間総収入が100万ドル未満の組織または個人の商用利用に対して無料です。詳細はコミュニティライセンス契約を参照してください。詳細はこちらをご覧ください:https://stability.ai/license 。 年間総収入が100万ドルを超える個人と組織様:エンタープライズライセンスを取得するために私たちに連絡してください。

モデルソース

ローカルまたはセルフホスト用途には、ノードベースUI推論用のComfyUI、またはプログラム的利用用のdiffusersやGitHubをお勧めします。

ComfyUI:Github、サンプルワークフロー

Huggingface Space:Space

Diffusers:下記をご覧ください。

GitHub:GitHub。

APIエンドポイント:

Stability AI API Replicate Deepinfra

実装詳細

QK正規化:トレーニングの安定性を高めるためにQK正規化技術を実装します。

テキストエンコーダー:

CLIPs:OpenCLIP-ViT/G、CLIP-ViT/L、コンテキスト長77トークン T5:T5-xxl、トレーニングの異なる段階でコンテキスト長77/256トークン トレーニングデータと戦略:

このモデルは、合成データと公開されているデータのフィルタリングを含め、多岐にわたるデータでトレーニングされました。

オリジナルのMMDiTアーキテクチャの技術的な詳細については、研究論文を参照してください。

モデル性能 プロンプトの遵守と美学的品质に関する比較的性能については、ブログをご覧ください。

ファイル構造

ファイルとバージョンタブにアクセスするにはここをクリックしてください

├── text_encoders/
│ ├── README.md │ ├── clip_g.safetensors │ ├── clip_l.safetensors │ ├── t5xxl_fp16.safetensors │ └── t5xxl_fp8_e4m3fn.safetensors │ ├── README.md ├── LICENSE ├── sd3_large.safetensors ├── SD3.5L_example_workflow.json └── sd3_large_demo.png

以下ファイル構造はdiffusers統合用です ├── scheduler/ ├── text_encoder/ ├── text_encoder_2/ ├── text_encoder_3/ ├── tokenizer/ ├── tokenizer_2/ ├── tokenizer_3/ ├── transformer/ ├── vae/ └── model_index.json

Diffusersでの使用

🧨 diffusersライブラリを最新バージョンにアップグレードしてください

pip install -U diffusers その後、以下を実行できます

import torch from diffusers import StableDiffusion3Pipeline from modelscope import snapshot_download

model_id = snapshot_download('AI-ModelScope/stable-diffusion-3.5-large') pipe = StableDiffusion3Pipeline.from_pretrained(model_id, torch_dtype=torch.bfloat16) pipe = pipe.to("cuda")

image = pipe( "A capybara holding a sign that reads Hello World", num_inference_steps=28, guidance_scale=3.5, ).images[0] image.save("capybara.png") diffusersでモデルを量子化 VRAM使用量を減らし、🤏 VRAM GPUにモデルを適合させます

pip install bitsandbytes from diffusers import BitsAndBytesConfig, SD3Transformer2DModel from diffusers import StableDiffusion3Pipeline import torch

from modelscope import snapshot_download

model_id = snapshot_download('AI-ModelScope/stable-diffusion-3.5-large')

nf4_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16 ) model_nf4 = SD3Transformer2DModel.from_pretrained( model_id, subfolder="transformer", quantization_config=nf4_config, torch_dtype=torch.bfloat16 )

pipeline = StableDiffusion3Pipeline.from_pretrained( model_id, transformer=model_nf4, torch_dtype=torch.bfloat16 ) pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree. As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"

image = pipeline( prompt=prompt, num_inference_steps=28, guidance_scale=4.5, max_sequence_length=512, ).images[0] image.save("whimsical.png") ファインチューニング ファインチューニングガイドはこちらをご覧ください。

用途

意図された用途 意図された用途は以下の通りです。

アートワークの生成とデザインやその他の芸術的プロセスでの使用。 教育的または創造的なツールへの適用。 生成モデルに関する研究、生成モデルの制限を含む。 モデルのすべての使用は、我们的の利用規約に従う必要があります。

範囲外の用途 このモデルは、人物やイベントの事実的または真実的な表現にはトレーニングされていません。そのため、このような内容を生成するためにモデルを使用することは、このモデルの能力の範囲外です。

安全性

私たちの設計による安全性と責任あるAI配置アプローチの一環として、私たちは開発の初期段階から整合性を確保するための故意の措置を講じます。私たちはモデルの開発を通じて安全対策を実装します。私たちは特定のリスクを減少させることを目的とした安全対策を実装していますが、開発者は独自のテストを実施し、特定の使用ケースに基づいて追加の対策を適用することをお勧めします。 私たちのアプローチに関する詳細は、Safetyページをご覧ください。

整合性評価 私たちの整合性評価方法には、特定のリスクに対する構造化評価とレッドチームテストが含まれます。テストは主に英語で行われており、すべての可能性のあるリスクを網羅しているとは限りません。

リスクの特定と緩和:

有害なコンテンツ:私たちはモデルのトレーニング時にフィルタリングされたデータセットを使用し、有用性とリスク防止のバランスをとるよう努めました。しかし、すべての可能性のある有害なコンテンツが削除されているとは限りません。すべての開発者とデプロイヤーは、特定の製品ポリシーとアプリケーション使用ケースに基づいてコンテンツの安全性ガードレールを実装するべきです。 誤用:技術的な制限や開発者およびエンドユーザーの教育が、モデルの悪用に対して緩和する助けとなります。すべてのユーザーは、ファインチューニングやプロンプトエンジニアリングメカニズムを適用する場合を含む、我们的の利用規約に従う必要があります。私たちの製品の違法な使用に関する情報は、Stability AIの利用規約を参照してください。 プライバシー侵害:開発者とデプロイヤーは、データプライバシーを尊重する技術を用いてプライバシー規制に従うことをお勧めします。

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました