IDEA-CCNL/Erlangshen-TCBert-110M-Sentence-Embedding-Chinese

この記事は約6分で読めます。

紹介 Brief Introduction

110Mパラメータの文章表現Topic Classification BERT (TCBert)。

110Mパラメータを持つTCBertは、中国語の話題分類タスクのための文章表現に事前トレーニングされています。

モデル分類 Model Taxonomy

需要 Demand タスク Task シリーズ Series モデル Model パラメータ Parameter 追加 Extra
一般 General 文章表現 Sentence Representation 二郎神 Erlangshen TCBert (文章表現) Sentence Representation 110M 中国語 Chinese

モデル情報 Model Information

モデルが話題分類における文章表現の性能を向上させるために、大量の話題分類データセットを収集し、プロンプトに基づく対比的事前トレーニングを行いました。

下游効果 Performance 各データセットに対して2つのプロンプトテンプレートを設計しました。

First Prompt Template:

データセット Dataset プロンプトテンプレート 1 Prompt template 1
TNEWS 次のニュースは__についてです:
CSLDCP この文章は__について述べています:
IFLYTEK この文章は__について述べています:

プロンプトテンプレート1の微調整結果:

モデル Model TNEWS CSLDCP IFLYTEK
Macbert-base 55.02 57.37 51.34
Macbert-large 55.77 58.99 50.31
Erlangshen-1.3B 57.36 62.35 53.23
TCBert-base110M-Classification-Chinese 55.57 58.60 49.63
TCBert-large330M-Classification-Chinese 56.17 60.06 51.34
TCBert-1.3B1.3B-Classification-Chinese 57.41 65.10 53.75
TCBert-base110M-Sentence-Embedding-Chinese 54.68 59.78 49.40
TCBert-large330M-Sentence-Embedding-Chinese 55.32 62.07 51.11
TCBert-1.3B1.3B-Sentence-Embedding-Chinese 57.46 65.04 53.06

Second Prompt Template:

データセット Dataset プロンプトテンプレート 2 Prompt template 2
TNEWS 次のニュースは__に関連する内容です:
CSLDCP 次の分野は__に関連します:
IFLYTEK 次の生活内容は__に関連します:

プロンプトテンプレート2の微調整結果:

モデル Model TNEWS CSLDCP IFLYTEK
Macbert-base 54.78 58.38 50.83
Macbert-large 56.77 60.22 51.63
Erlangshen-1.3B 57.81 62.80 52.77
TCBert-base110M-Classification-Chinese 54.58 59.16 49.80
TCBert-large330M-Classification-Chinese 56.22 61.23 50.77
TCBert-1.3B1.3B-Classification-Chinese 57.41 64.82 53.34
TCBert-base110M-Sentence-Embedding-Chinese 54.68 59.78 49.40
TCBert-large330M-Sentence-Embedding-Chinese 55.32 62.07 51.11
TCBert-1.3B1.3B-Sentence-Embedding-Chinese 56.87 65.83 52.94

TCBERTsに関する詳細は、私たちの技術報告を参照してください。新しいデータに基づいてTCBERTsを更新することがあり、私たちのリポジトリの更新を確認してください。

Usage:

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

pipeline_ins = pipeline(
                'fill-mask', 
                model='Fengshenbang/Erlangshen-TCBert-110M-Sentence-Embedding-Chinese',
                model_revision='v1.0.1'
)

print(pipeline_ins('中国首都位于'))

引用 Citation:

@article{han2022tcbert,
  title={TCBERT: A Technical Report for Chinese Topic Classification BERT},
  author={Han, Ting and Pan, Kunhao and Chen, Xinyu and Song, Dingjie and Fan, Yuchen and Gao, Xinyu and Gan, Ruyi and Zhang, Jiaxing},
  journal={arXiv preprint arXiv:2211.11304},
  year={2022}
}

また、私たちのウェブサイトも引用できます:

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}}, 
}

現在、ネットワークの原因により、上記のウェブページの解析が成功しませんでした。もし必要であれば、ウェブページリンクの合法性をチェックし、適宜リトライしてください。リンクの解析が不要であれば、ユーザーの質問に通常対応します。

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました