Megrez-3B-Omni: 初のエッジ側全モーダル理解オープンソースモデル

この記事は約13分で読めます。

モデル紹介

Megrez-3B-Omniは、無問芯穹(Infinigence AI)によって開発されたエッジ側の全モーダル理解モデルで、無問の大言語モデルMegrez-3B-Instructを拡張し、画像、テキスト、音声の3つのモーダルデータを理解・分析する能力を持ち、各分野で最優精度を達成しています。

画像理解においては、SigLip-400Mをベースに画像Tokenを構築し、OpenCompassランキング(8つの主要なマルチモーダル評価基準を総合)で平均66.2点とし、LLaVA-NeXT-Yi-34Bなどのよりパラメーターが多いモデルを凌駕します。Megrez-3B-Omniはまた、MME、MMMU、OCRBenchなどのテストセットで現在最高精度の画像理解モデルの一つであり、シーン理解、OCRなどで良好なパフォーマンスを示しています。 言語理解においては、Megrez-3B-Omniはモデルのテキスト処理能力を犠牲にせず、シングルモーダルバージョン(Megrez-3B-Instruct)に比べて総合精度が2%以内に抑えられており、C-EVAL、MMLU/MMLU Pro、AlignBenchなどの複数のテストセットで最優精度を維持し、前世代の14Bモデルを超える能力を発揮しています。 音声理解においては、Qwen2-Audio/whisper-large-v3のEncoderを音声入力として使用し、中国語と英語の音声入力と複数ラウンド対話をサポートし、入力画像に対する音声質問に対応し、音声コマンドに基づいて直接テキストをレスポンスするなど、数多くの基準タスクで领先した結果を達成しています。

基本情報

Language Module Vision Module Audio Module
Architecture Llama-2 with GQA SigLip-SO400M Whisper-large-v3 (encoder-only)
# Params (Backbone) 2.29B 0.42B 0.64B
Connector - Cross Attention Linear
# Params (Others) Emb: 0.31B
Softmax: 0.31B
Connector: 0.036B Connector: 0.003B
# Params (Total) 4B
# Vocab Size 122880 64 tokens/slice -
Context length 4K tokens
Supported languages Chinese & English

画像理解能力

上図はMegrez-3B-Omniと他のオープンソースモデルが主流の画像マルチモーダルタスクにおける性能比較です。

下図はMegrez-3B-OmniがOpenCompassテストセットでの実績で、画像はInternVL 2.5 Blog Postから引用します。

モデル ベースモデル 発表時間 OpenCompass MME MMMU val OCRBench MathVista RealWorldQA MMVet hallucinationBench MMB TEST (en) MMB TEST (zh) TextVQA val AI2D_TEST MMstar DocVQA_TEST
Megrez-3B-Omni Megrez-3B 2024.12.16 66.2 2315 51.89 82.8 62 71.89 60 50.12 80.8 82.3 80.3 82.05 60.46 91.62
Qwen2-VL-2B-Instruct Qwen2-1.5B 2024.08.28 57.2 1872 41.1 79.4 43 62.9 49.5 41.7 74.9 73.5 79.7 74.7 48 90.1
InternVL2.5-2B Internlm2.5-1.8B-chat 2024.12.06 59.9 2138 43.6 80.4 51.3 60.1 60.8 42.6 74.7 71.9 74.3 74.9 53.7 88.7
BlueLM-V-3B - 2024.11.29 66.1 - 45.1 82.9 60.8 66.7 61.8 48 83 80.5 78.4 85.3 62.3 87.8
InternVL2.5-4B Qwen2.5-3B-Instruct 2024.12.06 65.1 2337 52.3 82.8 60.5 64.3 60.6 46.3 81.1 79.3 76.8 81.4 58.3 91.6
Baichuan-Omni Unknown-7B 2024.10.11 - 2186 47.3 70.0 51.9 62.6 65.4 47.8 76.2 74.9 74.3 - - -
MiniCPM-V-2.6 Qwen2-7B 2024.08.06 65.2 2348 49.8 85.2 60.6 69.7 60 48.1 81.2 79 80.1 82.1 57.26 90.8
Qwen2-VL-7B-Instruct Qwen2-7B 2024.08.28 67 2326 54.1 84.5 58.2 70.1 62 50.6 83 80.5 84.3 83 60.7 94.5
MiniCPM-Llama3-V-2.5 Llama3-Instruct 8B 2024.05.20 58.8 2024 45.8 72.5 54.3 63.5 52.8 42.4 77.2 74.2 76.6 78.4 - 84.8
VITA Mixtral 8x7B 2024.08.12 - 2097 47.3 67.8 44.9 59 41.6 39.7 74.7 71.4 71.8 - - -
GLM-4V-9B GLM-4-9B 2024.06.04 59.1 2018 46.9 77.6 51.1 - 58 46.6 81.1 79.4 - 81.1 58.7 -
LLaVA-NeXT-Yi-34B Yi-34B 2024.01.18 55 2006 48.8 57.4 40.4 66 50.7 34.8 81.1 79 69.3 78.9 51.6 -
Qwen2-VL-72B-Instruct Qwen2-72B 2024.08.28 74.8 2482 64.5 87.7 70.5 77.8 74 58.1 86.5 86.6 85.5 88.1 68.3 96.5

文書処理能力

対話&指令 中国語&英語タスク コードタスク 数学タスク
モデル ダイアログ&コマンド 発表時間 # Non-Emb Params MT-Bench AlignBench (ZH) IFEval C-EVAL (ZH) CMMLU (ZH) MMLU MMLU-Pro HumanEval MBPP GSM8K MATH
Megrez-3B-Omni はい 2024.12.16 2.3 8.4 6.94 66.5 84.0 75.3 73.3 45.2 72.6 60.6 63.8 27.3
Megrez-3B-Instruct はい 2024.12.16 2.3 8.64 7.06 68.6 84.8 74.7 72.8 46.1 78.7 71.0 65.5 28.3
Baichuan-Omni はい 2024.10.11 7.0 - - - 68.9 72.2 65.3 - - - - -
VITA はい 2024.08.12 12.9 - - - 56.7 46.6 71.0 - - 75.7 - -
Qwen1.5-7B いいえ 2024.02.04 6.5 - - - 74.1 73.1 61.0 29.9 36.0 51.6 62.5 20.3
Qwen1.5-7B-Chat はい 2024.02.04 6.5 7.60 6.20 - 67.3 - 59.5 29.1 46.3 48.9 60.3 23.2
Qwen1.5-14B いいえ 2024.02.04 12.6 - - - 78.7 77.6 67.6 - 37.8 44.0 70.1 29.2
Qwen1.5-14B-Chat はい 2024.02.04 12.6 7.9 - - - - - - - - - -
Qwen2-7B いいえ 2024.06.07 6.5 - - - 83.2 83.9 70.3 40.0 51.2 65.9 79.9 44.2
Qwen2-7b-Instruct はい 2024.06.07 6.5 8.41 7.21 51.4 80.9 77.2 70.5 44.1 79.9 67.2 85.7 52.9
Qwen2.5-3B-Instruct はい 2024.9.19 2.8 - - - - - - 43.7 74.4 72.7 86.7 65.9
Qwen2.5-7B いいえ 2024.9.19 6.5 - - - - - 74.2 45.0 57.9 74.9 85.4 49.8
Qwen2.5-7B-Instruct はい 2024.09.19 6.5 8.75 - 74.9 - - - 56.3 84.8 79.2 91.6 75.5
Llama-3.1-8B いいえ 2024.07.23 7.0 8.3 5.7 71.5 55.2 55.8 66.7 37.1 - - 84.5 51.9
Llama-3.2-3B いいえ 2024.09.25 2.8 - - 77.4 - - 63.4 - - - 77.7 48.0
Phi-3.5-mini-instruct はい 2024.08.23 3.6 8.6 5.7 49.4 46.1 46.9 69.0 47.4 62.8 69.6 86.2 48.5
MiniCPM3-4B はい 2024.09.05 3.9 8.41 6.74 68.4 73.6 73.3 67.2 - 74.4 72.5 81.1 46.6
Yi-1.5-6B-Chat はい 2024.05.11 5.5 7.50 6.20 - 74.2 74.7 61.0 - 64.0 70.9 78.9 40.5
GLM-4-9B-chat はい 2024.06.04 8.2 8.35 7.01 64.5 75.6 71.5 72.4 - 71.8 - 79.6 50.6
Baichuan2-13B-Base いいえ 2023.09.06 12.6 - 5.25 - 58.1 62.0 59.2 - 17.1 30.2 52.8 10.1

注:Qwen2-1.5Bモデルの指標が論文とQwen2.5報告で点数が不一致の場合がありますが、今回は原論文の精度を採用しています。

音声理解能力

モデル ベースモデル リリース時間 Fleurs テスト-中国語 WenetSpeech テスト_ネット WenetSpeech テスト_会議
Megrez-3B-Omni Megrez-3B-Instruct 2024.12.16 10.8 - 16.4
Whisper-large-v3 - 2023.11.06 12.4 17.5 30.8
Qwen2-Audio-7B Qwen2-7B 2024.08.09 9 11 10.7
Baichuan2-omni Unknown-7B 2024.10.11 7 6.9 8.4
VITA Mixtral 8x7B 2024.08.12 - -/12.2(CER) -/16.5(CER)

速度

image_tokens prefill (tokens/s) decode (tokens/s)
Megrez-3B-Omni 448 6312.66 1294.9
Qwen2-VL-2B 1378 7349.39 685.66
MiniCPM-V-2_6 448 2167.09 452.51

请注意,表格中的"-"表示没有提供数据或者不适用。"CER"是Character Error Rate(文字誤り率)的缩写,用于衡量语音识别系统的准确性。

実験設定:

テスト環境:NVIDIA H100、vLLM下で128個のText tokenと1480x720サイズの画像を入力し、128個のtokenを出力し、num_seqsを固定して8

快速開始

オンライン体験 HF Chat Demo

ローカルデプロイ 環境インストールとvLLM推論コードなどのデプロイ問題については、Infini-Megrez-Omniを参照してください。

以下はtransformersを使用して推論を行う例です。contentフィールドにtext、image、audioを渡すことで、図文/図音などの多種多様なモーダルとモデルと対話できます。

import torch
from transformers import AutoModelForCausalLM

path = "{{PATH_TO_PRETRAINED_MODEL}}"  # Change this to the path of the model.

model = (
    AutoModelForCausalLM.from_pretrained(
        path,
        trust_remote_code=True,
        torch_dtype=torch.bfloat16,
        attn_implementation="flash_attention_2",
    )
    .eval()
    .cuda()
)

# テキストと画像でチャット
messages = [
    {
        "role": "user",
        "content": {
            "text": "Please describe the content of the image.",
            "image": "./data/sample_image.jpg",
        },
    },
]

# 音声と画像でチャット
messages = [
    {
        "role": "user",
        "content": {
            "image": "./data/sample_image.jpg",
            "audio": "./data/sample_audio.m4a",
        },
    },
]

MAX_NEW_TOKENS = 100
response = model.chat(
    messages,
    sampling=False,
    max_new_tokens=MAX_NEW_TOKENS,
    temperature=0,
)
print(response)

注意事項: 画像はできるだけ初回入力で読み取ることをお勧めします。音声とテキストはこの制限にとらわれず、自由に切り替え可能です。 音声認識(ASR)シナリオでは、content['text']を「音声を文字に変換してください。」と変更します。 OCRシナリオでは、サンプリングを有効にすると言語モデルの幻觉が原因で文字が変化する可能性があるため、推論 を行う際にはサンプリングをオフすることを検討してください(sampling=False),しかし、サンプリングをオフするとモデルの反復が引き起こされる可能性があります。

オープンソース契約および使用声明: 契約:本レポジトリのコードはApache-2.0契約に基づいてオープンソースです。 幻觉:大きなモデルは自然に幻觉の問題を持ち、ユーザーはモデル生成の内容を完全に信用しないでください。 価値観および安全性:本モデルはトレーニング過程で使用されるデータの規制に従い、全力を尽くしましたが、データの大量及び複雑さのために予期せぬ問題が生じる可能性があります。もしもオープンソースモデルの使用によって生じたいかなる問題も、データセキュリティ問題、公衆の世論リスク、またはモデルが誤解、滥用、伝播、不当な使用に遭ったリスクや問題によって生じた責任や義務については、一切の責任を負いかねます。


aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました