Whisper large-v3-turbo:もっと速く、もっと小さい音声トランスクリプションモデル

この記事は約5分で読めます。

はじめに

音声トランスクリプション技術は、現代のデジタル時代において重要な役割を果たしています。会議の記録、ビデオ字幕の生成、音声アシスタントなど、幅広い分野で活用されています。OpenAIが最近発表したWhisper large-v3-turboモデルは、自動音声認識(ASR)分野に新たな突破をもたらしました。

Whisper large-v3-turboの特徴

Whisper large-v3-turboは、Whisper large-v3の最適化バージョンで、デコーダーの層数を32層から4層に削減することで、処理速度を大幅に向上させながら、高い精度を維持しています。この最適化はDistil-Whisperの発想から生まれ、小さなデコーダー層数でも精度にほとんど影響を与えることなく、処理速度を大幅に向上させることができます。

速度向上: large-v3と比較して、turboモデルのトランスクリプション速度は8倍向上しました。さらにtorch.compileを使用すると、推論速度が最大4.5倍向上します。これは、低遅延が必要なアプリケーションで優れた性能を発揮します。

多言語対応: このモデルは99の言語の音声トランスクリプションをサポートし、高品質な録音では特に優れた性能を発揮します。FLEURSやCommon Voiceなどの大規模データセットと互換性がありますが、タイ語や広東語などの言語では若干弱い性能を示します。

トランスクリプションタスクに特化: Whisper large-v3-turboは、多言語トランスクリプションタスクに特化して微調整されています。翻訳データは含まれていないため、純粋な音声トランスクリプションの場面に更适合です。

簡単に統合できる: 開発者は、簡単なPythonパッケージの更新やWhisperのコマンドラインツールを使用して、turboモデルを迅速に統合することができます。

使用方法

Whisper large-v3-turboモデルは、Hugging FaceのTransformersライブラリを使用することで、簡単にトランスクリプションタスクを実現できます。以下は、このモデルを使用する基本的な手順です。

1.必要なライブラリをインストールする:

bash 复制 pip install --upgrade pip pip install --upgrade transformers datasets accelerate

2.モデルを読み込んでトランスクリプションを行う: Python 复制 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline from datasets import load_dataset

device = "cuda:0" if torch.cuda.is_available() else "cpu" model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(model_id) processor = AutoProcessor.from_pretrained(model_id) pipe = pipeline("automatic-speech-recognition", model=model, tokenizer=processor.tokenizer, feature_extractor=processor.feature_extractor, device=device)

dataset = load_dataset("distil-whisper/librispeech_long", "clean", split="validation") sample = dataset[0]["audio"] result = pipe(sample) print(result["text"])

また、このモデルは、バッチトランスクリプション、タイムスタンプの生成、言語の指定等功能をサポートしているため、さまざまなシーンで使用できます。

最適化と改善

モデルの効率をさらに向上させるために、開発者は以下の最適化方法を採用できます。

長音声の分割処理: 長音声ファイルに対しては、順次処理または分割処理を選択できます。分割処理では、音声を短いセグメントに分割し、独立してトランスクリプションを行うことで、速度を大幅に向上させることができます。

Torchコンパイル: torch.compileを使用すると、モデルの順方向伝播速度を最大4.5倍向上させることができます。ただし、一部のアルゴリズムとの互換性に注意が必要です。

Flash Attention 2: GPUが対応している場合、Flash Attention 2を使用することで、さらに性能を向上させることができます。

結論

Whisper large-v3-turboは、効率的な速度と強力な多言語対応により、自動音声認識分野における新たな標準を確立しました。このモデルは、高速なトランスクリプションが必要なシーンに適しただけでなく、開発者に柔軟な統合と最適化のオプションを提供しています。技術の進歩に伴い、このモデルが今後さらに多くの言語やタスクをサポートすることに期待しています。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました