Pixtral-Large-Instruct-2411は、Mirstral Large 2、すなわちMirstral-Large-Instruct-2407をベースに構築された124Bマルチモーダルモデルです。Pixtral Largeは、私たちのマルチモーダルファミリーの第二のモデルであり、最先端の画像理解能力を示しています。特に、このモデルは文書、チャート、自然画像を理解する能力を持ちながら、Mirstral Large 2のテキストオンリー理解をリードする能力を維持しています。
このモデルの詳細については、Pixtral Largeのブログ記事とPixtral 12Bのブログ記事を参照してください。
重要事項
❗ Transformersの実装はまだ機能していません(こちらを参照),请使用以下に示すvLLMの実装を使用してください。
主な特徴
- 1.最先端のマルチモーダルパフォーマンス
- 2.MathVista、DocVQA、VQAv2で最新技術を達成
- 3.テキストパフォーマンスを損なうことなくMirstral Large 2を拡張
- 4.123Bマルチモーダルデコーダー、1Bパラメータービジョンエンコーダー
- 5.128Kコンテキストウィンドウ:最低でも30枚の高解像度画像が収まります
システムプロンプトハンドリング
コミュニティから受けられたシステムプロンプトハンドリングに関するフィードバックに感謝します。 それに応えるために、システムプロンプトのサポートを強化しました。 最適な結果を達成するためには、ボットの目的を明確に定義するシステムプロンプトを常に含むことをお勧めします。
基本的なインストラクションテンプレート(V7)
[SYSTEM_PROMPT] [INST]
mistral-commonを真実の源として使用してください。
メトリクス
モデル | MathVista (CoT) | MMMU (CoT) | ChartQA (CoT) | DocVQA (ANLS) | VQAv2 (VQA Match) | AI2D (BBox) | MM MT-Bench |
---|---|---|---|---|---|---|---|
Pixtral Large (124B) | 69.4 | 64.0 | 88.1 | 93.3 | 80.9 | 93.8 | 7.4 |
Gemini-1.5 Pro (測定済み) | 67.8 | 66.3 | 83.8 | 92.3 | 70.6 | 94.6 | 6.8 |
GPT-4o (測定済み) | 65.4 | 68.6 | 85.2 | 88.5 | 76.4 | 93.2 | 6.7 |
Claude-3.5 Sonnet (測定済み) | 67.1 | 68.4 | 89.1 | 88.6 | 69.5 | 76.9 | 7.3 |
Llama-3.2 90B (測定済み) | 49.1 | 53.7 | 70.8 | 85.7 | 67.0 | - | 5.5 |
評価された特定のモデルバージョン:Claude-3.5 Sonnet (新) [10月24日]、Gemini-1.5 Pro (002) [9月24日]、GPT-4o (2024-08-06) [8月24日]。
mistral-evalsを参照して、オープンソースMM MT-Bench評価スクリプトをご覧ください。
使用方法
以下のフレームワークでこのモデルを使用できます。
vllm:こちらを参照 vLLM Pixtral-Large-Instruct-2411をvLLMライブラリと共に使用することをお勧めします。これにより、Pixtral-Large-Instruct-2411でプロダクションレディな推論パイプラインを実装できます。
インストール
vLLMのバージョンがv0.6.4.post1以上であることを確認してください:
pip install --upgrade vllm また、mistral_commonのバージョンが1.5.0以上であることを確認してください:
pip install --upgrade mistral_common また、docker hubですぐに使用できるdockerイメージもご利用いただけます。
サーバー(画像) Pixtral-Large-Instruct-2411をサーバー/クライアント設定で使用することをお勧めします。
サーバーを立ち上げます: vllm serve mistralai/Pixtral-Large-Instruct-2411 --config-format mistral --load-format mistral --tokenizer_mode mistral --limit_mm_per_prompt 'image=10' --tensor-parallel-size 8 そしてクライアントにpingします: import requests import json from huggingface_hub import hf_hub_download from datetime import datetime, timedelta
url = "http://
model = "mistralai/Pixtral-Large-Instruct-2411"
def load_system_prompt(repo_id: str, filename: str) -> str: file_path = hf_hub_download(repo_id=repo_id, filename=filename) with open(file_path, "r") as file: system_prompt = file.read() today = datetime.today().strftime("%Y-%m-%d") yesterday = (datetime.today() - timedelta(days=1)).strftime("%Y-%m-%d") model_name = repo_id.split("/")[-1] return system_prompt.format(name=model_name, today=today, yesterday=yesterday)
SYSTEM_PROMPT = load_system_prompt(model, "SYSTEM_PROMPT.txt")
image_url = "https://huggingface.co/datasets/patrickvonplaten/random_img/resolve/main/europe.png"
messages = [ {"role": "system", "content": SYSTEM_PROMPT}, { "role": "user", "content": [ { "type": "text", "text": "Which of the depicted countries has the best food? Which the second and third and fourth? Name the country, its color on the map and one its city that is visible on the map, but is not the capital. Make absolutely sure to only name a city that can be seen on the map.", }, {"type": "image_url", "image_url": {"url": image_url}}, ], }, ]
data = {"model": model, "messages": messages}
response = requests.post(url, headers=headers, data=json.dumps(data)) print(response.json()["choices"][0]["message"]["content"])
サーバー(テキストのみ) テキストのみの例でもクライアントにpingできます。以下の例では、システムプロンプトを使用して、モデルが常に現在の日付を知っていることを確認する方法を示します。
import requests import json from huggingface_hub import hf_hub_download from datetime import datetime, timedelta
url = "http://
model = "mistralai/Pixtral-Large-Instruct-2411"
def load_system_prompt(repo_id: str, filename: str) -> str: file_path = hf_hub_download(repo_id=repo_id, filename=filename) with open(file_path, "r") as file: system_prompt = file.read() today = datetime.today().strftime("%Y-%m-%d") yesterday = (datetime.today() - timedelta(days=1)).strftime("%Y-%m-%d") model_name = repo_id.split("/")[-1] return system_prompt.format(name=model_name, today=today, yesterday=yesterday)
SYSTEM_PROMPT = load_system_prompt(model, "SYSTEM_PROMPT.txt")
messages = [ {"role": "system", "content": SYSTEM_PROMPT}, { "role": "user", "content": "Without browsing the web, how many days ago was Mistral founded?" }, ]
data = {"model": model, "messages": messages}
response = requests.post(url, headers=headers, data=json.dumps(data)) print(response.json()["choices"][0]["message"]["content"])
オフライン例 from vllm import LLM from vllm.sampling_params import SamplingParams from huggingface_hub import hf_hub_download from datetime import datetime, timedelta
model_name = "mistralai/Pixtral-Large-Instruct-2411"
def load_system_prompt(repo_id: str, filename: str) -> str: file_path = hf_hub_download(repo_id=repo_id, filename=filename) with open(file_path, 'r') as file: system_prompt = file.read() today = datetime.today().strftime('%Y-%m-%d') yesterday = (datetime.today() - timedelta(days=1)).strftime('%Y-%m-%d') model_name = repo_id.split("/")[-1] return system_prompt.format(name=model_name, today=today, yesterday=yesterday)
SYSTEM_PROMPT = load_system_prompt(model_name, "SYSTEM_PROMPT.txt")
image_url = "https://huggingface.co/datasets/patrickvonplaten/random_img/resolve/main/europe.png"
messages = [ {"role": "system", "content": SYSTEM_PROMPT}, { "role": "user", "content": [ { "type": "text", "text": "Which of the depicted countries has the best food? Which the second and third and fourth? Name the country, its color on the map and one its city that is visible on the map, but is not the capital. Make absolutely sure to only name a city that can be seen on the map.", }, {"type": "image_url", "image_url": {"url": image_url}}, ], }, ]
sampling_params = SamplingParams(max_tokens=512)
llm = LLM(model=model_name, config_format="mistral", load_format="mistral", tokenizer_mode="mistral", tensor_parallel_size=8, limit_mm_per_prompt={"image": 4})
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?