紹介 Brief Introduction
110Mパラメータの文章表現Topic Classification BERT (TCBert)。
110Mパラメータを持つTCBertは、中国語の話題分類タスクのための文章表現に事前トレーニングされています。
モデル分類 Model Taxonomy
需要 Demand | タスク Task | シリーズ Series | モデル Model | パラメータ Parameter | 追加 Extra |
---|---|---|---|---|---|
一般 General | 文章表現 Sentence Representation | 二郎神 Erlangshen | TCBert (文章表現) Sentence Representation | 110M | 中国語 Chinese |
モデル情報 Model Information
モデルが話題分類における文章表現の性能を向上させるために、大量の話題分類データセットを収集し、プロンプトに基づく対比的事前トレーニングを行いました。
下游効果 Performance 各データセットに対して2つのプロンプトテンプレートを設計しました。
First Prompt Template:
データセット Dataset | プロンプトテンプレート 1 Prompt template 1 |
---|---|
TNEWS | 次のニュースは__についてです: |
CSLDCP | この文章は__について述べています: |
IFLYTEK | この文章は__について述べています: |
プロンプトテンプレート1の微調整結果:
モデル Model | TNEWS | CSLDCP | IFLYTEK |
---|---|---|---|
Macbert-base | 55.02 | 57.37 | 51.34 |
Macbert-large | 55.77 | 58.99 | 50.31 |
Erlangshen-1.3B | 57.36 | 62.35 | 53.23 |
TCBert-base110M-Classification-Chinese | 55.57 | 58.60 | 49.63 |
TCBert-large330M-Classification-Chinese | 56.17 | 60.06 | 51.34 |
TCBert-1.3B1.3B-Classification-Chinese | 57.41 | 65.10 | 53.75 |
TCBert-base110M-Sentence-Embedding-Chinese | 54.68 | 59.78 | 49.40 |
TCBert-large330M-Sentence-Embedding-Chinese | 55.32 | 62.07 | 51.11 |
TCBert-1.3B1.3B-Sentence-Embedding-Chinese | 57.46 | 65.04 | 53.06 |
Second Prompt Template:
データセット Dataset | プロンプトテンプレート 2 Prompt template 2 |
---|---|
TNEWS | 次のニュースは__に関連する内容です: |
CSLDCP | 次の分野は__に関連します: |
IFLYTEK | 次の生活内容は__に関連します: |
プロンプトテンプレート2の微調整結果:
モデル Model | TNEWS | CSLDCP | IFLYTEK |
---|---|---|---|
Macbert-base | 54.78 | 58.38 | 50.83 |
Macbert-large | 56.77 | 60.22 | 51.63 |
Erlangshen-1.3B | 57.81 | 62.80 | 52.77 |
TCBert-base110M-Classification-Chinese | 54.58 | 59.16 | 49.80 |
TCBert-large330M-Classification-Chinese | 56.22 | 61.23 | 50.77 |
TCBert-1.3B1.3B-Classification-Chinese | 57.41 | 64.82 | 53.34 |
TCBert-base110M-Sentence-Embedding-Chinese | 54.68 | 59.78 | 49.40 |
TCBert-large330M-Sentence-Embedding-Chinese | 55.32 | 62.07 | 51.11 |
TCBert-1.3B1.3B-Sentence-Embedding-Chinese | 56.87 | 65.83 | 52.94 |
TCBERTsに関する詳細は、私たちの技術報告を参照してください。新しいデータに基づいてTCBERTsを更新することがあり、私たちのリポジトリの更新を確認してください。
Usage:
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
pipeline_ins = pipeline(
'fill-mask',
model='Fengshenbang/Erlangshen-TCBert-110M-Sentence-Embedding-Chinese',
model_revision='v1.0.1'
)
print(pipeline_ins('中国首都位于'))
引用 Citation:
@article{han2022tcbert,
title={TCBERT: A Technical Report for Chinese Topic Classification BERT},
author={Han, Ting and Pan, Kunhao and Chen, Xinyu and Song, Dingjie and Fan, Yuchen and Gao, Xinyu and Gan, Ruyi and Zhang, Jiaxing},
journal={arXiv preprint arXiv:2211.11304},
year={2022}
}
また、私たちのウェブサイトも引用できます:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}
現在、ネットワークの原因により、上記のウェブページの解析が成功しませんでした。もし必要であれば、ウェブページリンクの合法性をチェックし、適宜リトライしてください。リンクの解析が不要であれば、ユーザーの質問に通常対応します。
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?