Voice-Proは、音声転写、翻訳、およびテキスト読み上げ(TTS)のための最高のGradioウェブインターフェースです。このツールは、Minicondaを使用して仮想環境を構築し、Windowsシステムから完全に独立して動作するため、完全にポータブルです。リアルタイムの音声転写と翻訳、およびバッチ処理モードをサポートしています。
主な機能
Studioタブ
YouTubeダウンローダー、ノイズ除去、字幕、翻訳、TTSを統合した環境を提供します。
FFmpegがサポートするすべてのビデオ/オーディオ形式に対応しています。
出力オーディオ形式(wav、flac、mp3)を選択できます。
100種類以上の言語の音声認識と字幕作成が可能です。
PCの性能に適した字幕作成オプション(Whisperモデルと計算タイプ)を選択できます。
100種類以上の言語に翻訳し、TTSで音声を生成できます。
元のビデオのバックグラウンドミュージックと効果音は、マルチランゲージビデオで維持されます。
TTSの音声速度、音量、ピッチの調整が可能です。
Whisper Captionタブ
字幕作成専用のタブで、90種類以上の言語をサポートしています。
ビデオと一緒に作成された字幕を表示します。
単語レベルのハイライト機能を提供します。
ノイズ除去機能(1-Demucs、2-MDXNet)を提供します。
Translateタブ
翻訳専用のタブで、100種類以上の言語をサポートしています。
字幕ファイル(ass、ssa、srt、mpl2、tmp、vtt、microdvd、json)に対応しています。
直接テキストを入力することも可能です。
アップロードされたファイルの言語を自動検出します。
TTSタブ
TTS専用のタブで、100種類以上の言語と400種類以上の音声をサポートしています。
字幕ファイル(ass、ssa、srt、mpl2、tmp、vtt、microdvd、json)に対応しています。
直接テキストを入力することも可能です。
アップロードされたファイルの言語を自動検出します。
音調、音量、速度の調整が可能です。
Live Translationタブ
リアルタイム音声認識と翻訳をサポートしています。
マイク、スピーカーなどのオーディオ入力源を選択できます。
捕獲された音声、認識された字幕、翻訳された字幕を保存する機能を提供します。
Batchタブ
多数のファイルを一括処理します。
字幕、翻訳、TTSが可能です。
実行環境
オペレーティングシステム:Windows 10/11(64ビット) ※LinuxとMac OSはサポートされていません。
GPU:CUDA 12.1をサポートするNVIDIAグラフィックカードが推奨されます。
VRAM:4GB以上。8GB以上が推奨されます。
RAM:4GB以上
ハードディスク:インストール時に20GB以上の空き容量が必要です。
インターネット接続(インストールと翻訳作業に必要)
インストール方法
Voice-Proは簡単にワンクリックでインストールできます。🚀 configure.bat と🚀 start.bat を実行するだけです。
ステップ1:パッケージの準備
有料版: USB内の圧縮ファイル( voice-pro-x.zip)を適切な場所に解凍するか、解凍済みのフォルダ( voice-pro-x)を適切な場所にコピーします。
無料版: 最新バージョン( Source code (zip))をクローンまたはダウンロードします。
ステップ2:プログラムのインストールと実行
🚀 configure.bat を実行する
Windows上でgit、ffmpeg、CUDA(NVIDIA GPUを使用する場合)をインストールします。
最初の実行時のみ実行する必要があります。
インターネット接続が必要で、システム状況によっては1時間以上かかる場合があります。
インストール中にWindowsコマンドウィンドウを閉じないでください。
🚀 start.bat を実行する
Voice-Proを起動します。ウェブインターフェースが自動的に実行されます。 初回実行時には、まずVoice-Proがインストールされます。
インターネット接続が必要で、システム状況によっては1時間以上かかる場合があります。
インストール中にWindowsコマンドウィンドウを閉じないでください。
インストール中に問題が発生した場合は、 installer_files フォルダを削除し、再度 start.bat を実行してください。
ステップ3:プログラムのアンインストール
uninstall.bat を実行する
installer_files フォルダを削除します。 Windows上でインストールされたffmpeg、git、CUDAパッケージ(選択した場合)を削除します。 Voice-Proはデフォルトでポータブルインストールです。プログラムをアンインストールするには、インストールフォルダを削除するだけです。
ヒントとコツ
ブラウザが自動実行されない場合
Windowsコマンドウィンドウを閉じて再度 start.bat を実行する。 ブラウザを直接起動し、Windowsコマンドウィンドウに表示されたアドレス(例: http://127.0.0.1:7892)をアドレスバーに入力する。
CUDAメモリ不足エラーが発生した場合
WindowsタスクマネージャーのパフォーマンスタブでGPUメモリ状態を確認する。
ノイズ除去レベルを0または1に設定する。ノイズ除去レベル2は少なくとも8GBのGPUメモリが必要です。
計算タイプをintタイプに設定する。floatタイプは品質が良いですが、より多くのGPUメモリが必要です。
字幕品質を向上させるには?
字幕品質は、通常、より大きなWhisperモデルを使用すると向上しますが、常にそうとは限りません。large > medium > small > base > tiny
計算タイプでは、floatタイプのパフォーマンスが良いです。intタイプは、モデルを量子化してGPU使用量を減らし、速度を上げるモデルです。ただし、パフォーマンスは低下します。
ノイズ除去レベルを上げると、より多くのバックグラウンドノイズが除去され、残った音声のみが音声認識に使用されます。これにより常に良い結果が得られるとは限りません。
注意
Windows Defenderは、信頼できないアプリケーションに関する警告を発し、Voice-Proの実行を禁止する場合があります。SmartScreenのセキュリティレベルが「警告」に設定されている場合は、「もっと詳しく」をクリックし、「それでも実行する」をクリックします。SmartScreenが「ブロック」レベルに設定されている場合は、実行するためのボタンが表示されません。この場合、 start.bat ファイルのプロパティを開き、「解除ブロック」をチェックし、変更を適用した後、再度 start.bat を実行します。
Windows Defenderが誤ってバッチファイルをトロイの木馬と認識する場合、これは「誤検知」と呼ばれます。この問題を解決するには、以下の手順に従ってください:
1.ファイルの例外処理:Windows Defenderでは、特定のファイルやプロセスをセキュリティスキャンから除外設定できます。次のように操作します:
-「スタート」ボタンをクリックし、「設定」を開きます。 -「更新とセキュリティ」をクリックします。 -「Windowsセキュリティセンター」を選択し、「ウイルスと脅威の防止」に入ります。 -「ウイルスと脅威の防止設定を管理」をクリックします。 -「ウイルスと脅威の防止設定」で「除外の追加または削除」を選択します。 -「ファイルまたはフォルダ」を選択し、関連するバッチファイルを除外リストに追加します。
2.Windows Defenderの一時的な無効化:これは一時的な解決策です。ただし、この方法を使用する際は注意が必要です。なぜなら、これによりコンピュータが他の脅威にさらされる可能性があるからです。
3.ウイルス対策ソフトウェアに問題を報告する:ファイルがトロイの木馬でないことを確認している場合は、それを誤検知としてMicrosoftに報告できます。Microsoftはこの問題をレビューし、必要な措置を講じます。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?