技術

技術

Qwen2.5-0.5B-Instruct

はじめに Qwen2.5は、Qwenシリーズの大規模言語モデルの最新シリーズです。Qwen2.5では、0.5から72億パラメーターの範囲の基本言語モデルと指令調整型言語モデルを複数リリースしています。Qwen2.5はQwen2よりも以下の点...
技術

CosyVoice音声生成大モデル-300M

インストール レポジトリをクローンしてインストールします。 レポジトリをクローンします。 git clone --recursive # ネットワーク障害によりサブモジュールのクローンに失敗した場合は、次のコマンドを実行して成功するまで繰り...
技術

glm-4-9b-chat

モデル紹介 GLM-4-9Bは、智谱 AIが発表した最新世代のプリトレインモデルシリーズGLM-4のオープンソースバージョンです。意味解釈、数学、推論、コード、知識など多岐にわたるデータセット評価において、GLM-4-9Bとその人間好みアラ...
技術

Qwen2.5-72B-Instruct

はじめに Qwen2.5は、Qwenシリーズの大規模言語モデルの最新シリーズです。Qwen2.5では、0.5から72億パラメーターの範囲の基本言語モデルと指令調整型言語モデルを複数リリースしています。Qwen2.5はQwen2よりも以下の点...
技術

Qwen2-VL-7B-Instruct

はじめに 私たちは、約1年間の革新を経て開発したQwen-VLモデルの最新バージョンであるQwen2-VLを発表することに興奮しています。 Qwen2-VLの新機能は? 主要な強化点: 各種解像度と比率の画像に対するSoTAレベルの理解:Q...
技術

Qwen2.5-7B-Instruct

はじめに Qwen2.5は、Qwenシリーズの最新の大規模言語モデルです。Qwen2.5では、0.5から72億パラメーターまでの複数の基本言語モデルと指令調整型言語モデルをリリースしています。Qwen2.5はQwen2よりも以下の点を改善し...
技術

ERes2Net 話者認識モデル

ERes2Netモデルは、Res2Netの基础上で、グローバル特徴とローカル特徴をさらに融合し、話者認識性能を向上させました。ローカル特徴融合は、単一の残差ブロック内の特徴を融合してローカル信号を抽出します。グローバル特徴融合は、異なるレイ...
技術

Stable Diffusion 3.5 Large

Stable Diffusion 3.5 Largeは、画像品質、タイポグラフィ、複雑なプロンプト理解、リソース効率において性能が向上したマルチモーダルディフュージョントランスフォーマー(MMDiT)テキストトゥイメージモデルです。 注意:...
技術

MaskGCT: マスクされた生成コーデックトランスフォーマーによるゼロショットテキストトゥスピーチ

クイックスタート クローンとインストール git clone # 環境を作成 bash ./models/tts/maskgct/env.sh モデルのダウンロード 以下の事前学習済みのチェックポイントを提供しています: モデル名 説明 セ...
技術

PoNet事前学習モデル-中国語ベース

PoNet完形填空模型-中国語-base紹介 このモデルはPoNetモデル構造を使用し、Masked Language Modeling(MLM)とSentence Structural Objective(SSO)のプリトレインタスクを通...