StructBERT事前学習モデル-中国語ベース

この記事は約5分で読めます。

StructBERTの中国語Largeモデルは、wikipediaデータとmasked language modelタスクを使用してトレーニングされた中国語自然言語理解のプリトレーニングモデルです。

モデルの説明

私たちは言語構造情報を導入することで、BERTを新しいモデルStructBERTに拡張しました。私たちは2つの補助タスクを導入して、モデルに文字レベルの順序情報と文レベルの順序情報を学習させ、言語構造をよりよくモデル化します。詳細については、論文「StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding」を参照してください。img

このモデルはBaseサイズ(Layer-12 / Hidden-768 / Head-12)で、パラメータサイズは約102Mです。

モデルの使用方法と適用範囲

このモデルは主に中国語関連のダウンストリームタスクのファインチューニングに使用されます。ユーザーは独自のトレーニングデータを使用してファインチューニングできます。具体的な呼び出し方法はコード例を参照してください。

使い方 ModelScope-libをインストールした後、nlp_structbert_backbone_base_stdをベースにダウンストリームタスクのファインチューニングを行うことができます。

コード例 from modelscope.metainfo import Preprocessors from modelscope.msdatasets import MsDataset from modelscope.trainers import build_trainer from modelscope.utils.constant import Tasks

このメソッドを通じてcfgを変更します

def cfg_modify_fn(cfg):

backboneモデルを文章類似度モデルクラスにロードします

cfg.task = Tasks.sentence_similarity
# 文章類似度のプリプロセッサを使用します
cfg['preprocessor'] = {'type': Preprocessors.sen_sim_tokenizer}

# 演示コードの変更、通常使用する場合変更不要
cfg.train.dataloader.workers_per_gpu = 0
cfg.evaluation.dataloader.workers_per_gpu = 0

# データセットの特徴を補足
cfg['dataset'] = {
    'train': {
        # 実際のlabelフィールドの内容、backboneのトレーニング時に入力必要
        'labels': ['0', '1'],
        # 最初のフィールドのkey
        'first_sequence': 'sentence1',
        # 2番目のフィールドのkey
        'second_sequence': 'sentence2',
        # labelのkey
        'label': 'label',
    }
}
# lr_schedulerの設定
cfg.train.lr_scheduler.total_iters = int(len(dataset['train']) / 32) * cfg.train.max_epochs
return cfg

clueのafqmcを使用してトレーニング

dataset = MsDataset.load('clue', subset_name='afqmc') kwargs = dict( model='damo/nlp_structbert_backbone_base_std', train_dataset=dataset['train'], eval_dataset=dataset['validation'], work_dir='/tmp', cfg_modify_fn=cfg_modify_fn)

nlp-base-trainerを使用

trainer = build_trainer(name='nlp-base-trainer', default_args=kwargs) trainer.train() モデルの限界および可能性のあるバイアス 中国語データに基づいてトレーニングされ、モデルトレーニングデータが限定的であるため、効果に一定のバイアスが存在する可能性があります。

トレーニングデータの紹介 データは https://huggingface.co/datasets/wikipedia から来ています。

モデルトレーニングプロセス 中国語wikiなどの非監督データで、MLMおよび「モデルの説明」セクションで紹介された2つの補助タスクを使用して約300B文字をトレーニングしました。

データ評価および結果 なし

関連論文および引用情報 私たちのモデルが役立ちましたら、私たちの論文を引用してください:

@article{wang2019structbert, title={Structbert: Incorporating language structures into pre-training for deep language understanding}, author={Wang, Wei and Bi, Bin and Yan, Ming and Wu, Chen and Bao, Zuyi and Xia, Jiangnan and Peng, Liwei and Si, Luo}, journal={arXiv preprint arXiv:1908.04577}, year={2019} }

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました