Hume AI、「Voice Control」を発表:コードなしで AI 音声をカスタマイズ可能 – AI・新世界

この記事は約6分で読めます。

概要

Hume AI は、感情スマートな音声インターフェースに特化したスタートアップ企業で、最近「Voice Control」という実験的な機能を発表しました。このツールは、開発者やユーザーがコードを書くことなく、AI プロンプトエンジニアリングやサウンドデザインのスキルを持たなくても、音声の特徴を正確に調整してカスタマイズされた AI 音声を作成できるようにします。

Voice Control の特徴

EVI 2 を基にしたイノベーション

Voice Control のリリースは、Hume が以前に発表した「Empathic Voice Interface 2 (EVI 2)」に基づいています。EVI 2 は、自然さ、感情的なレスポンス、カスタマイズの面で先進的な機能を導入し、ユーザーにより繊細で人間的な音声インタラクションエクスペリエンスを提供します。EVI 2 と Voice Control は、音声クローンのリスクを避けており、Hume の共同設立者である Alan Cowen は、音声クローンが倫理的および実用的な課題があると指摘しています。代わりに、Hume は、顧客サービチャットボット、デジタルアシスタント、メンター、ガイド、またはアクセシビリティ機能などのニーズを満たすユニークで表現力豊かな音声ツールの提供に注目しています。

プリセット AI 音声からカスタマイズソリューションへ

Voice Control は、開発者が 10 つの異なる次元で音声を調整できるようにします。これらの次元には、性別(男性/女性)、果断性、活力、自信、情熱、鼻音、リラックス度、平滑度、温度、緊密度が含まれます。このコードレスツールにより、ユーザーはバーチャルスクリーン上のスライダーを使用してリアルタイムで音声属性を微調整できます。現在、これは Hume のバーチャルプレイグラウンドで使用可能であり、ユーザーは無料で登録する必要があります。

AI 業界のキーポイントを解決

今回のリリースは、AI 業界のキーポイントであるプリセット音声への依存を解決します。これらのプリセット音声は、ブランドやアプリケーションの特定のニーズを満たすことができない場合がありますし、音声クローンに関連するリスクもあります。Voice Control を通じて、Hume は開発者に更大的な柔軟性とコントロールを提供し、特定のシーンやユーザーのニーズに合ったカスタマイズされた音声を作成できるようにします。

感情科学に基づく製品開発

Hume の研究主導のアプローチは、製品開発の中心的な役割を果たしています。Google DeepMind の元研究員である Alan Cowen によって共同設立されたこの会社は、クロスカルチャルな音声録音と感情調査データを組み合わせた独自のモデルを利用しています。この方法は感情科学に基づいており、EVI 2 と新しく発表された Voice Control の支柱となっています。Voice Control は、人間が音声を微細で、しばしば言葉で表現できない方法で感知する問題を解決するために、これらの原則を拡張しています。ツールのスライダーインターフェースは、活力や果断性などの音声の一般的な感覚的属性を反映しており、テキストベースのプロンプトを通じてこれらの属性を簡略化する必要はありません。

開発者ツール

Voice Control は現在、ベータ版として提供されており、Hume の Empathic Voice Interface (EVI) と統合されており、幅広いアプリケーションに適しています。開発者は、基本音声を選択し、その特性を調整し、リアルタイムで結果をプレビューできます。このプロセスは、会話間の再現性と安定性を確保し、カスタマーサービスボットやバーチャルアシスタントなどのリアルタイムアプリケーションにとって重要な特性です。

EVI 2 の影響は Voice Control の機能に明らかです。早期のモデルは、セッションプロンプトやマルチランゲージ機能などの機能を導入し、音声 AI アプリケーションの範囲を拡大しました。たとえば、EVI 2 はサブセカンドレベルのレスポンスタイムをサポートし、対話が自然で即時的になります。また、インタラクション中に話すスタイルを動的に調整できるため、企業のマルチファンクションツールとなっています。

競争の激しい市場で差別化

Hume は、音声カスタマイズと感情スマートな機能に注目することで、音声 AI 分野で強力な競争相手となっています。即使是资金雄厚的对手,如 OpenAI の Advanced Voice Mode と ElevenLabs がプリセット音声ライブラリを提供している場合でも、Hume はその革新的な音声 AI アプローチを継続しています。Voice Control の拡張計画には、追加の調整可能な次元の導入、極端な調整における音声品質の細かい調整、および利用可能な基本音声の範囲の増加が含まれます。

Voice Control の導入により、Hume は音声 AI 革新リーダーとしての地位を強化し、カスタマイズ、感情スマート、リアルタイムアダプティビティを優先するツールを提供しています。開発者は今日から Hume のプラットフォームを通じて Voice Control にアクセスでき、AI ドリブンな音声ソリューションの進化のさらなる一歩を示しています。

関連記事

  • Hume AI、言語の正確性と感情理解のバランスをはかる音声言語モデル OCTAVE を発表
  • 作詞作曲ができない?大丈夫!Suno AI のこのツールがあれば、アイデア一つで音楽プロデューサーになれちゃう
  • 無料でマルチランゲージ対応!AI 音声生成ツール「Voice Remaker」、人間の声のにじみに最も近いオーディオを生成
  • オープンソースの Whisper クライアント「Transcribe Audio」、OpenAI API をベースにした音声からテキストへの変換
  • 本物の語調 + マルチランゲージ + AI 歌唱!オープンソース AI 音声モデル Bark、テキストから音声への変換をもっと簡単にする

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました