2025年1月16日、北京智谱华章科技有限公司は、GLM-Realtime、GLM-4-Air、GLM-4V-Plusなど新的一世代のマルチモーダルモデルを発表し、bigmodel.cnプラットフォームに正式上线しました。これらの新モデルは、ビデオ理解、音声インタラクション、画像生成など複数の分野で顕著な技術的ブレイクスルーを実現し、開発者に更に強力なツールを提供し、AI技術の普及を推進することを目的としています。
GLM-Realtime:低遅延のビデオ理解と音声インタラクション
GLM-Realtimeは、低遅延のビデオ理解と音声インタラクションに注目した全新的なエンドツーエンドモデルです。このモデルは以下のコア機能を備えています:
1.2分間の内容記憶能力
GLM-Realtimeはビデオ通話で最大2分間の内容を記憶することができ、ユーザーにより連続的なインタラクション体験を提供します。
2.クリアな歌唱機能
このモデルは、対話における歌唱機能を実現するクリアな歌唱機能を革新的に実装しました。これは初めて大規模なモデルが対話中に歌う能力を備えたものであり、スマートハードウェアのアプリケーションにさらに多くの可能性を提供します。
3.Function Call機能
GLM-RealtimeはFunction Call機能をサポートしており、外部の知識やツールを柔軟に呼び出すことができ、より広いビジネスシーンに拡張することができます。
現在、GLM-Realtime APIはbigmodel.cnプラットフォームに上线され、限定時間内は開発者が無料で呼び出すことができます。
GLM-4-AirとGLM-4V-Plus:究極のパフォーマンスと高コストパフォーマンス
- GLM-4-Air
GLM-4-Airは、その高コストパフォーマンスで開発者から広く歓迎されてきました。今回のアップグレード後のGLM-4-Air-0111モデルは、トレーニングデータとプロセスの全面的な最適化を通じて、いくつかの次元で規模の大きいGLM-4-Plusモデルに近いパフォーマンスを達成しました。同時に、モデルの価格は元の50%に引き下げられ、大規模なモデルアプリケーションの障壁がさらに低くなりました。
- GLM-4V-Plus
GLM-4V-Plusは智谱の視覚理解モデルで、今回のアップグレード後は複数の公開ランキングで顕著な効果向上を示しました。新バージョンは変解像度機能をサポートし、異なるサイズの画像入力に対応し、小画像シーンでトークン消費を大幅に削減(例えば、224×224の解像度では、入力画像トークン数は元の3%にすぎません)。さらに、このモデルは4K超高精細画像と極端なアスペクト比画像の損失のない認識をサポートし、最大2時間のビデオ理解能力を備え、長時間のビデオ理解と分析分野に効率的で正確な解決策を提供します。
- Flashシリーズの普惠モデル:完全無料で開発者を支援
智谱は「大規模モデルの普及」を推進し、言語、画像理解、画像生成、ビデオ生成など複数のシーンをカバーするFlashシリーズの普惠モデルAPIを特別に設置しました。業界で初めて全モーダルの無料シリーズモデルとして、開発者は以下のモデルを無料で呼び出すことができます:
-
言語モデル GLM-4-Flash
-
画像理解モデル GLM-4V-Flash
-
画像生成モデル CogView-3-Flash
-
ビデオ生成モデル CogVideoX-Flash
Flashシリーズは近々全面的なアップグレードを行い、開発者に更に強力な機能サポートを提供します。
未来予想
智谱はbigmodel.cnプラットフォームにすべてのモデルAPIを正式に上线し、広く開発者の訪問と体験を歓迎します。智谱は引き続き世界レベルの国産大規模モデル技術を提供し、開発者がより効率的なアプリケーション革新を実現し、AI技術の広い応用を推進し続けるでしょう。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?