VLDocドキュメント理解マルチモーダルプリトレーニングモデル紹介

この記事は約6分で読めます。

ドキュメント理解とは、視覚的に豊富なドキュメントを自動的に分析し、処理する行為で、ドキュメント情報抽出、ドキュメントレイアウト分析、ドキュメント分類、ドキュメントVQAなどが含まれます。

VLDocはドキュメント理解のためのマルチモーダルプリトレーニングモデルベースであり、テキスト、ビジュアル、レイアウトの3つのドキュメントモーダル情報を含んでおり、ドキュメント特性に特化したプリトレーニングタスクを採用し、モデルがドキュメントを十分にモデリングし、ドキュメント理解タスクの効果を高めることを可能にしています。

モデル説明 モデルは双塔構造を採用しており(下記参照)、主に3つの部分组成で構成されています。Image backboneはドキュメントの画像情報を抽出し、Text-layout backboneはドキュメントのテキスト、レイアウト情報をモデリングし、最後にマルチモーダル特徴を融合し、関連するプリトレーニングタスクを接続して最適化します。

モデル

プリトレーニングタスク Masked Vision Language Modeling (MVLM)プリトレーニングタスクを採用 Bi-VLDocのText Image Position Awareness(TIPA)プリトレーニングタスクを採用 geometric pre-training tasks (from the GeoLayoutLM)を採用

モデルの使用方法と適用範囲 このプリトレーニングモデルは主にマルチモーダル特徴抽出バックボーンとして使用され、ドキュメントのマルチモーダル表現やドキュメント理解関連のダウンストリームタスクの微調整に使用されます。ユーザーは独自のデータに基づいて呼び出しが可能です。具体的な呼び出し方法はコードサンプルを参照してください。

使用方法 モデルの入力には関連ファイルdata/*が含まれるため、以下のサンプルはこのリポジトリをクローンした後、このフォルダで実行する必要があります。

コードサンプル

from modelscope.models import Model
from modelscope.pipelines import pipeline

model = Model.from_pretrained('damo/multi-modal_convnext-roberta-base_vldoc-embedding')
doc_VL_emb_pipeline = pipeline(task='document-vl-embedding', model=model)

inp = {
    'images': ['data/demo.png'], 
    'ocr_info_paths': ['data/demo.json']
}
result = doc_VL_emb_pipeline(inp)

print('Results of VLDoc: ')
for k, v in result.items():
    print(f'{k}: {v.size()}')
# 予想される出力:
# img_embedding: torch.Size([1, 151, 768]), 151 = 1 global img feature + 150 segment features
# text_embedding: torch.Size([1, 512, 768])
データフォルダの例はFUNSDからです。

モデルの限界と可能性のあるバイアス 収集したデータに基づいてトレーニングされ、モデルのトレーニングデータが限られているため、効果に一定のバイアスが存在する可能性があります。

トレーニングデータ紹介 プリトレーニングデータ VLDocモデルのトレーニングデータセットはインターネットから収集されたドキュメントデータと一部のIIT-CDIPドキュメントデータで構成され、総トレーニングドキュメントデータ数は約11Mです。 ドキュメントOCR結果は、光を読み込むOCRによって提供されます。 ダウンストリームデータセット ドキュメント情報抽出:FUNSD、CORD、XFUND。 ドキュメント分類:RVL-CDIP。

モデルトレーニングプロセス このドキュメントマルチモーダルプリトレーニングモデルは、視覚的なバックボーンとしてConvNeXtパラメーターを初期化し、テキスト+レイアウトのバックボーンとしてInfoXLM-baseパラメーターを初期化します。モデルの入力画像サイズは768x768で、最大テキスト処理長さは512で、超えた部分は切り捨てられます。トレーニングデータセットで自己監督プリトレーニング1epochを実施します。

データ評価と結果

モデル FUNSD.SER FUNSD.RE XFUND.zh.SER XFUND.zh.RE
LayoutLMv3-base 0.9029 0.6684 -- --
LayoutXLM-base 0.7940 0.5483 0.8924 0.7073
VLDoc-XLM-base 0.9031 0.8259 0.9122 0.8811

関連論文および引用情報 もし私たちのモデルが役立ちましたら、私たちの記事を引用してください:

@article{luo2022bi, title={Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding}, author={Luo, Chuwei and Tang, Guozhi and Zheng, Qi and Yao, Cong and Jin, Lianwen and Li, Chenliang and Xue, Yang and Si, Luo}, journal={arXiv preprint arXiv:2206.13155}, year={2022} }

@article{cvpr2023geolayoutlm, title={GeoLayoutLM: Geometric Pre-training for Visual Information Extraction}, author={Chuwei Luo and Changxu Cheng and Qi Zheng and Cong Yao}, journal={2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2023} }

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました