ebook2audiobookXTTS：電子書籍をオーディオブックに変換するオープンソースAIツール

概要
主な機能
技術原理
実行方法
実行例
ヘッドレスモードでの基本使用
Dockerの使用
aiスピーキング

概要

ebook2audiobookXTTSは、電子書籍をオーディオブックに変換するオープンソースのAIツールです。このツールは、EPUB、PDF、MOBIなどの複数の電子書籍フォーマットをサポートし、Coqui XTTS技術を使用して高品質なテキストから音声への変換を実現します。ebook2audiobookXTTSは、16か国語をサポートし、コマンドライン、Webインターフェース、Dockerコンテナなどの複数の使用方法を提供します。変換後のオーディオブックフォーマットは.m4bで、章とメタデータが含まれており、各种デバイスで聴くことができます。

主な機能

フォーマット変換：EPUB、PDF、MOBIなどの複数の電子書籍フォーマットをオーディオブックフォーマット（.m4b）に変換します。

高品質TTS：Coqui XTTS技術を使用して、真人に近い高品質なテキストから音声への変換を実現します。

多言語サポート：英語、中国語を含む16か国語をサポートし、異なるユーザーのニーズに対応します。

章識別：電子書籍内の章を自動的に識別し、オーディオブックに相应的な章マークを作成します。

メタデータの保持：電子書籍のメタデータ（タイトル、著者、カバー等）を保持し、管理と識別を容易にします。

使いやすさ：コマンドラインインターフェース、Webインターフェース、Dockerコンテナなどの複数の使用方法を提供し、ユーザーの操作を便利にします。

技術原理

Calibre：Calibreは、EPUB、MOBI、PDFなど複数の電子書籍フォーマットを処理できる強力な電子書籍管理と変換ツールです。

ebook2audiobookXTTSでは、Calibreが電子書籍をテキストフォーマットに変換し、これは後のテキストから音声（TTS）への変換の前提です。

Coqui XTTS：Coqui XTTSは、MozillaのCoquiチームが提供するテキストから音声（TTS）システムです。深層学習技術を使用して自然に聞こえる音声を生成し、特定の音声特徴を持つ合成音声を作成することができ、音声クローンと多言語サポートの面で優れた性能を発揮します。

実行方法

依存関係のインストール

Python 3.xのインストール：Python.orgからダウンロードしてインストールしてください。

Calibreのインストール：

Ubuntu：sudo apt-get install -y calibre

macOS：brew install calibre

Windows：管理者PowerShellでchoco install calibreを実行してください。

FFmpegのインストール：

Ubuntu：sudo apt-get install -y ffmpeg

macOS：brew install ffmpeg

Windows：管理者PowerShellでchoco install ffmpegを実行してください。 Pythonパッケージのインストール：复制 pip install coqui-tts==0.24.2 pydub nltk beautifulsoup4 ebooklib tqdm gradio==4.44.0 python -m nltk.downloader punkt python -m nltk.downloader punkt_tab

実行例

Gradio Webインターフェースの起動

スクリプトの実行：

Webアプリの開設：ターミナルで提供されたURLをクリックしてWebアプリにアクセスし、電子書籍を変換してください。

ヘッドレスモードでの基本使用

python app.py --headless True --ebook <電子書籍ファイルのパス> --voice [音声ファイルのパス] --language [言語コード]

Dockerの使用

Dockerコンテナの実行

CPUのみを使用：

docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobookxtts:huggingface python app.py

GPU加速を使用： docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobookxtts:huggingface python app.py

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品（pronunciation assessment）は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API（pronunciation assessment api）は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品（pronunciation assessment）を試してみませんか？

オンラインお試し