OpenAIは最新の音声対話モデルGPT-4oを発表し、世界に新たな驚きを提供しました。この全能モデルは音声、テキスト、視覚情報を利用して推理を行い、個々のユーザーの音声インタラクションアシスタントとして機能します。OpenAIはこのモデルを無料で公開すると同時に、ChatGPTデスクトップ版のリリースも発表しました。
感情豊かな対話とスムーズな操作性
OpenAIのデモでは、GPT-4oが感情豊かな対話を行なう様子が展示され、まるで真人と話しているかのようです。モデルは呼吸の調整を指導したり、感情に厚い声で物語を語ったり、さらにはロボットの声に変わって物語を続けるなど、多様なシーンに対応しました。
リアルタイムの数学問題解決
カメラを利用して視覚情報を得たGPT-4oは、リアルタイムで数学問題を解決する手助けを行うことができます。デモでは、モデルが紙に書かれた方程式を解く様子が展示され、徐々に解決策を説明する様子が示されました。
外見から感情を読み取る
さらに、GPT-4oはビデオ通話機能を利用して、ユーザーの表情から感情を読み取り、対話に応じて反応をします。デモでは、モデルがユーザーの表情を分析し、感情的なフィードバックを提供する様子が示されました。
マルチモーダル能力の高さ
GPT-4oはマルチモーダル能力も持ち、異なる言語での質問に対応したり、カメラを通じて画像を認識して情報を提供するなど、多facetedな機能を有しています。
APIインターフェースのオープン
OpenAIはGPT-4oのAPIインターフェースをオープンし、価格もGPT-4-turboの半分とし、速度は倍にすることを発表しました。しかし、滥用のリスクを理由に、APIインターフェースはすべての顧客に公開されるわけではなく、信頼できるパートナーに限定されます。
デスクトップ版ChatGPTの登場
OpenAIはChatGPTデスクトップ版のリリースも発表し、macOSアプリケーションをPlusユーザーに提供し、Windowsバージョンも後ほど発表される予定です。
OpenAIは、これらのモデルがユーザーとの対話をより自然で轻松なものにし、ユーザーがモデルとの協働に集中できるようにするという目標を持っています。デスクトップ版のChatGPTは、ユーザーがより直感的な操作を行えるように設計されており、アプリケーション内でスクリーンショットをキャプチャして議論するなどの機能も提供します。
OpenAIが提供する新しい音声アシスタントは、AI技術の可能性をさらに広げ、ユーザーの日常生活と仕事に深く融合する新たな時代を開くものと期待されます。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?