CosyVoice音声生成大型モデル2.0-0.5B

この記事は約11分で読めます。

インストール

レポジトリをクローンしてインストールします。

レポジトリをクローンします。

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
# ネットワーク障害によりサブモジュールをクローンできない場合は、次のコマンドを実行して成功するまで繰り替えてください。
cd CosyVoice
git submodule update --init --recursive

Condaをインストールしてください。詳細は https://docs.conda.io/en/latest/miniconda.html をご覧ください。 Conda環境を作成します。

conda create -n cosyvoice python=3.10
conda activate cosyvoice
# WeTextProcessingに必要なpyniniは、すべてのプラットフォームで実行できるためcondaでインストールしてください。
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

SOXの互換性問題に遭遇した場合

# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel

モデルのダウンロード

事前に学習されたCosyVoice-300M、CosyVoice-300M-SFT、CosyVoice-300M-InstructモデルとCosyVoice-ttsfrdリソースをダウンロードすることを強くお勧めします。

この分野のエキスパートであり、ゼロから独自のCosyVoiceモデルをトレーニングすることのみに興味があれば、このステップをスキップできます。

SDKモデルダウンロード

from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

gitモデルダウンロードにはgit lfsがインストールされていることを確認してください。

mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-25Hz.git pretrained_models/CosyVoice-300M-25Hz
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

オプションで、ttsfrdリソースを解凍し、ttsfrdパッケージをインストールしてテキスト正規化の性能を向上させることができます。

このステップは必須ではありません。ttsfrdパッケージをインストールしない場合は、デフォルトでWeTextProcessingを使用します。

cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd-0.3.6-cp38-cp38-linux_x86_64.whl

基本的な使用方法

ゼロショット/クロスリンガル推論にはCosyVoice2-0.5BまたはCosyVoice-300Mモデルを使用してください。SFT推論にはCosyVoice-300M-SFTモデルを使用してください。インストラクト推論にはCosyVoice-300M-Instructモデルを使用してください。より良いストリーミング性能を期待する場合は、CosyVoice2-0.5Bモデルを使用することを強くお勧めします。

まず、PYTHONPATHにthird_party/Matcha-TTSを追加してください。

export PYTHONPATH=third_party/Matcha-TTS
from cosyvoice.cli.cosyvoice import CosyVoice, CosyVoice2
from cosyvoice.utils.file_utils import load_wav
import torchaudio
cosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B', load_jit=True, load_onnx=False, load_trt=False)

# zero_shot usage
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

# fine grained control, for supported control, check cosyvoice/tokenizer/tokenizer.py#L248
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_cross_lingual('在他讲述那个荒诞故事的过程中,他突然[laughter]停下来,因为他自己也被逗笑了[laughter]。', prompt_speech_16k, stream=False)):
    torchaudio.save('fine_grained_control_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

# instruct usage
for i, j in enumerate(cosyvoice.inference_instruct2('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '用四川话说这句话', prompt_speech_16k, stream=False)):
    torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)

ウェブデモを開始します

ウェブデモページを使用してCosyVoiceを早く慣れることができます。ウェブデモではsft/zero_shot/cross_lingual/instruct推論をサポートしています。

詳細についてはデモウェブサイトをご覧ください。

# sft推論にはiic/CosyVoice-300M-SFTを使用し、instruct推論にはiic/CosyVoice-300M-Instructを使用します。
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

高度な使用方法

高度なユーザー向けに、examples/libritts/cosyvoice/run.shにトレーニングと推論スクリプトを提供しています。このレシピに従ってCosyVoiceを使い慣れることができます。

デプロイのためのビルド

オプションで、サービスデプロイにgrpcを使用したい場合は、以下の手順を実行してください。そうでない場合は、このステップを無視してください。

cd runtime/python
docker build -t cosyvoice:v1.0 .
# instruct推論を使用する場合は、iic/CosyVoice-300Mをiic/CosyVoice-300M-Instructに変更してください
# grpc使用の場合
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --max_conc 4 --model_dir iic/CosyVoice-300M && sleep infinity"
cd grpc && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>
# fastapi使用の場合
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && python3 server.py --port 50000 --model_dir iic/CosyVoice-300M && sleep infinity"
cd fastapi && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました