インストール
レポジトリをクローンしてインストールします。
レポジトリをクローンします。
git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
# ネットワーク障害によりサブモジュールのクローンに失敗した場合は、次のコマンドを実行して成功するまで繰り返してください
cd CosyVoice
git submodule update --init --recursive
Condaをインストールします。詳細は https://docs.conda.io/en/latest/miniconda.html をご覧ください。
Conda環境を作成します。
conda create -n cosyvoice python=3.8
conda activate cosyvoice
# WeTextProcessingに必要なpyniniは、すべてのプラットフォームで実行できるcondaでインストールします。
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
SOXの互換性問題に遭遇した場合は以下のコマンドを実行します。
# ubuntu
sudo apt-get install sox libsox-dev
# centos
sudo yum install sox sox-devel
モデルのダウンロード
あらかじめトレーニングされたCosyVoice-300M、CosyVoice-300M-SFT、CosyVoice-300M-Instructモデル、およびCosyVoice-ttsfrdリソースをダウンロードすることをお勧めします。
この分野のエキスパートで、ゼロから独自のCosyVoiceモデルをトレーニングすることのみに興味がある場合は、このステップをスキップできます。
SDKモデルダウンロード
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
# gitモデルダウンロードにはgit lfsのインストールが必要です
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd
オプションで、ttsfrdリソースを解凍し、ttsfrdパッケージをインストールしてテキスト正規化の性能を向上させることができます。
このステップは必ずしも必要ではありません。ttsfrdパッケージをインストールしない場合、デフォルトでWeTextProcessingを使用します。
cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd-0.3.6-cp38-cp38-linux_x86_64.whl
基本的な使用方法
ゼロショット/クロスリンガル推論にはCosyVoice-300Mモデルを使用してください。SFT推論にはCosyVoice-300M-SFTモデルを使用してください。インストラクション推論にはCosyVoice-300M-Instructモデルを使用してください。まず、third_party/Matcha-TTSをPYTHONPATHに追加します。
export PYTHONPATH=third_party/Matcha-TTS
from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT')
# SFT使用方法
print(cosyvoice.list_avaliable_spks())
# chunk stream推論にはstream=Trueを設定
for i, j in enumerate(cosyvoice.inference_sft('你好,我是通义生成式语音大模型,请问有什么可以帮您的吗?', '中文女', stream=False)):
torchaudio.save('sft_{}.wav'.format(i), j['tts_speech'], 22050)
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
# ゼロショット使用方法、 <|zh|><|en|><|jp|><|yue|><|ko|> は中国語/英語/日本語/広東語/韓国語
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)):
torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], 22050)
# クロスリンガル使用方法
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k, stream=False)):
torchaudio.save('cross_lingual_{}.wav'.format(i), j['tts_speech'], 22050)
cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
# インストラクション使用方法、<laughter></laughter><strong></strong>[laughter][breath]をサポート
for i, j in enumerate(cosyvoice.inference_instruct('在面对挑战时,他展现了非凡的<strong>勇气</strong>与<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.', stream=False)):
torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], 22050)
ウェブデモを開始します。 ウェブデモページを使用して、CosyVoiceをすぐに使いこなすことができます。ウェブデモでは、sft/zero_shot/cross_lingual/instruct推論をサポートしています。
詳細についてはデモウェブサイトをご覧ください。
# sft推論にはiic/CosyVoice-300M-SFTに変更、インストラクション推論にはiic/CosyVoice-300M-Instructに変更
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M
高度な使用方法 高度なユーザー向けに、examples/libritts/cosyvoice/run.shにトレーニングと推論スクリプトを提供しています。このレシピに従ってCosyVoiceを使いこなしてください。
デプロイメント用ビルド オプションで、サービスデプロイメントにgrpcを使用したい場合は、以下の手順を実行します。そうでない場合は、このステップを無視してください。
cd runtime/python
docker build -t cosyvoice:v1.0 .
# インストラクション推論を使用する場合はiic/CosyVoice-300Mをiic/CosyVoice-300M-Instructに変更
# grpc使用
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --max_conc 4 --model_dir iic/CosyVoice-300M && sleep infinity"
cd grpc && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>
# fastapi使用
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && MODEL_DIR=iic/CosyVoice-300M fastapi dev --port 50000 server.py && sleep infinity"
cd fastapi && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?