ebook2audiobookXTTS:電子書籍をオーディオブックに変換するオープンソースAIツール

この記事は約5分で読めます。

概要

ebook2audiobookXTTSは、電子書籍をオーディオブックに変換するオープンソースのAIツールです。このツールは、EPUB、PDF、MOBIなどの複数の電子書籍フォーマットをサポートし、Coqui XTTS技術を使用して高品質なテキストから音声への変換を実現します。ebook2audiobookXTTSは、16か国語をサポートし、コマンドライン、Webインターフェース、Dockerコンテナなどの複数の使用方法を提供します。変換後のオーディオブックフォーマットは.m4bで、章とメタデータが含まれており、各种デバイスで聴くことができます。

主な機能

フォーマット変換:EPUB、PDF、MOBIなどの複数の電子書籍フォーマットをオーディオブックフォーマット(.m4b)に変換します。

高品質TTS:Coqui XTTS技術を使用して、真人に近い高品質なテキストから音声への変換を実現します。

多言語サポート:英語、中国語を含む16か国語をサポートし、異なるユーザーのニーズに対応します。

章識別:電子書籍内の章を自動的に識別し、オーディオブックに相应的な章マークを作成します。

メタデータの保持:電子書籍のメタデータ(タイトル、著者、カバー等)を保持し、管理と識別を容易にします。

使いやすさ:コマンドラインインターフェース、Webインターフェース、Dockerコンテナなどの複数の使用方法を提供し、ユーザーの操作を便利にします。

技術原理

Calibre:Calibreは、EPUB、MOBI、PDFなど複数の電子書籍フォーマットを処理できる強力な電子書籍管理と変換ツールです。

ebook2audiobookXTTSでは、Calibreが電子書籍をテキストフォーマットに変換し、これは後のテキストから音声(TTS)への変換の前提です。

Coqui XTTS:Coqui XTTSは、MozillaのCoquiチームが提供するテキストから音声(TTS)システムです。深層学習技術を使用して自然に聞こえる音声を生成し、特定の音声特徴を持つ合成音声を作成することができ、音声クローンと多言語サポートの面で優れた性能を発揮します。

実行方法

依存関係のインストール

Python 3.xのインストール:Python.orgからダウンロードしてインストールしてください。

Calibreのインストール:

Ubuntu:sudo apt-get install -y calibre

macOS:brew install calibre

Windows:管理者PowerShellでchoco install calibreを実行してください。

FFmpegのインストール:

Ubuntu:sudo apt-get install -y ffmpeg

macOS:brew install ffmpeg

Windows:管理者PowerShellでchoco install ffmpegを実行してください。 Pythonパッケージのインストール: 复制 pip install coqui-tts==0.24.2 pydub nltk beautifulsoup4 ebooklib tqdm gradio==4.44.0 python -m nltk.downloader punkt python -m nltk.downloader punkt_tab

実行例

Gradio Webインターフェースの起動

スクリプトの実行:

Webアプリの開設:ターミナルで提供されたURLをクリックしてWebアプリにアクセスし、電子書籍を変換してください。

ヘッドレスモードでの基本使用

python app.py --headless True --ebook <電子書籍ファイルのパス> --voice [音声ファイルのパス] --language [言語コード]

Dockerの使用

Dockerコンテナの実行

CPUのみを使用:

docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobookxtts:huggingface python app.py

GPU加速を使用: docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobookxtts:huggingface python app.py

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました