技術 Qwen2.5-72B-Instruct はじめに Qwen2.5は、Qwenシリーズの大規模言語モデルの最新シリーズです。Qwen2.5では、0.5から72億パラメーターの範囲の基本言語モデルと指令調整型言語モデルを複数リリースしています。Qwen2.5はQwen2よりも以下の点... 2024-11-05 技術
技術 Qwen2-VL-7B-Instruct はじめに 私たちは、約1年間の革新を経て開発したQwen-VLモデルの最新バージョンであるQwen2-VLを発表することに興奮しています。 Qwen2-VLの新機能は? 主要な強化点: 各種解像度と比率の画像に対するSoTAレベルの理解:Q... 2024-11-05 技術
技術 Qwen2.5-7B-Instruct はじめに Qwen2.5は、Qwenシリーズの最新の大規模言語モデルです。Qwen2.5では、0.5から72億パラメーターまでの複数の基本言語モデルと指令調整型言語モデルをリリースしています。Qwen2.5はQwen2よりも以下の点を改善し... 2024-11-05 技術
技術 ERes2Net 話者認識モデル ERes2Netモデルは、Res2Netの基础上で、グローバル特徴とローカル特徴をさらに融合し、話者認識性能を向上させました。ローカル特徴融合は、単一の残差ブロック内の特徴を融合してローカル信号を抽出します。グローバル特徴融合は、異なるレイ... 2024-11-05 技術
技術 Stable Diffusion 3.5 Large Stable Diffusion 3.5 Largeは、画像品質、タイポグラフィ、複雑なプロンプト理解、リソース効率において性能が向上したマルチモーダルディフュージョントランスフォーマー(MMDiT)テキストトゥイメージモデルです。 注意:... 2024-11-05 技術
技術 MaskGCT: マスクされた生成コーデックトランスフォーマーによるゼロショットテキストトゥスピーチ クイックスタート クローンとインストール git clone # 環境を作成 bash ./models/tts/maskgct/env.sh モデルのダウンロード 以下の事前学習済みのチェックポイントを提供しています: モデル名 説明 セ... 2024-11-05 技術
技術 PoNet事前学習モデル-中国語ベース PoNet完形填空模型-中国語-base紹介 このモデルはPoNetモデル構造を使用し、Masked Language Modeling(MLM)とSentence Structural Objective(SSO)のプリトレインタスクを通... 2024-09-24 技術
技術 BERT事前学習モデル-中国語ベース BERTに基づく中国語Baseプリトレインモデルの紹介(ドキュメント更新中) BERTの中国語Baseプリトレインモデルは、wikipediaのデータとmasked language modelタスクを使用してトレーニングされた中国語自然言... 2024-09-24 技術
技術 Read Light-文書理解-文書理解マルチモーダル事前訓練モデル VLDoc文書理解多モーダルプリトレインモデルの紹介 文書理解とは、視覚的に豊富な文書を自動的に分析し、処理する行為で、文書情報の抽出、文書レイアウトの分析、文書の分類、文書VQAなどが含まれます。 VLDocは文書理解用の多モーダルプリト... 2024-09-24 技術
技術 RoBERTa事前学習モデル-中国語ベース RoBERTaの中国語Baseプリトレインモデルの紹介(ドキュメント更新中) RoBERTaの中国語Baseプリトレインモデルは、広範な中国語データとマスキングされた言語モデルタスクを使用してトレーニングされた中国語自然言語理解のプリトレイ... 2024-09-24 技術