概要
ebook2audiobookXTTSは、電子書籍をオーディオブックに変換するオープンソースのAIツールです。このツールは、EPUB、PDF、MOBIなどの複数の電子書籍フォーマットをサポートし、Coqui XTTS技術を使用して高品質なテキストから音声への変換を実現します。ebook2audiobookXTTSは、16か国語をサポートし、コマンドライン、Webインターフェース、Dockerコンテナなどの複数の使用方法を提供します。変換後のオーディオブックフォーマットは.m4bで、章とメタデータが含まれており、各种デバイスで聴くことができます。
主な機能
フォーマット変換:EPUB、PDF、MOBIなどの複数の電子書籍フォーマットをオーディオブックフォーマット(.m4b)に変換します。
高品質TTS:Coqui XTTS技術を使用して、真人に近い高品質なテキストから音声への変換を実現します。
多言語サポート:英語、中国語を含む16か国語をサポートし、異なるユーザーのニーズに対応します。
章識別:電子書籍内の章を自動的に識別し、オーディオブックに相应的な章マークを作成します。
メタデータの保持:電子書籍のメタデータ(タイトル、著者、カバー等)を保持し、管理と識別を容易にします。
使いやすさ:コマンドラインインターフェース、Webインターフェース、Dockerコンテナなどの複数の使用方法を提供し、ユーザーの操作を便利にします。
技術原理
Calibre:Calibreは、EPUB、MOBI、PDFなど複数の電子書籍フォーマットを処理できる強力な電子書籍管理と変換ツールです。
ebook2audiobookXTTSでは、Calibreが電子書籍をテキストフォーマットに変換し、これは後のテキストから音声(TTS)への変換の前提です。
Coqui XTTS:Coqui XTTSは、MozillaのCoquiチームが提供するテキストから音声(TTS)システムです。深層学習技術を使用して自然に聞こえる音声を生成し、特定の音声特徴を持つ合成音声を作成することができ、音声クローンと多言語サポートの面で優れた性能を発揮します。
実行方法
依存関係のインストール
Python 3.xのインストール:Python.orgからダウンロードしてインストールしてください。
Calibreのインストール:
Ubuntu:sudo apt-get install -y calibre
macOS:brew install calibre
Windows:管理者PowerShellでchoco install calibreを実行してください。
FFmpegのインストール:
Ubuntu:sudo apt-get install -y ffmpeg
macOS:brew install ffmpeg
Windows:管理者PowerShellでchoco install ffmpegを実行してください。 Pythonパッケージのインストール: 复制 pip install coqui-tts==0.24.2 pydub nltk beautifulsoup4 ebooklib tqdm gradio==4.44.0 python -m nltk.downloader punkt python -m nltk.downloader punkt_tab
実行例
Gradio Webインターフェースの起動
スクリプトの実行:
Webアプリの開設:ターミナルで提供されたURLをクリックしてWebアプリにアクセスし、電子書籍を変換してください。
ヘッドレスモードでの基本使用
python app.py --headless True --ebook <電子書籍ファイルのパス> --voice [音声ファイルのパス] --language [言語コード]
Dockerの使用
Dockerコンテナの実行
CPUのみを使用:
docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobookxtts:huggingface python app.py
GPU加速を使用: docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobookxtts:huggingface python app.py
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?