2025年1月22日、字节跳动の傘下である火山エンジンは、豆包大模型1.5を正式にリリースし、火山方舟プラットフォームに全面的に上线しました。今回のリリースされた豆包大模型1.5は、複数の分野で顕著な性能向上を達成し、総合的な能力が世界をリードするレベルに達し、字节跳动が人工知能分野で達成したもう一つの重要なブレイクスルーを示しています。
豆包大模型1.5の主要バージョンと性能向上
-
Doubao-1.5-pro:総合的な能力が大幅に向上 Doubao-1.5-proは、知識(MMLU_PRO、GPQA)、コード(McEval、FullStackBench)、推論(DROP)、中国語(CMMLU、C-Eval)など複数の権威ある評価基準で最高の成績を達成し、総合得点はGPT-4o、Claude 3.5 Sonnetなど業界トップクラスのモデルを上回りました。このバージョンのモデルは、複数の分野で世界をリードするレベルのパフォーマンスを発揮し、強力な総合的な能力を示しています。
-
Doubao-1.5-lite:軽量級言語モデルのブレイクスルー Doubao-1.5-liteは、軽量級言語モデルで優れたパフォーマンスを発揮し、その性能は以前のDoubao-pro-32k-0828バージョンに匹敵します。このモデルは、総合(MMLU_pro)、推論(BBH)、数学(MATH)、専門知識(GPQA)など権威ある評価指标で、GPT-4o-miniとClaude 3.5 Haikuに並ぶか、それらを上回りました。これにより、ユーザーは高いコストパフォーマンスを得ることができます。
-
Doubao-1.5-vision-pro:マルチモーダル能力の全面的なアップグレード Doubao-1.5-vision-proは、マルチモーダルデータの合成、動的解像度、マルチモーダルアライメント、混合トレーニングなど、全面的な技術アップグレードを行いました。このモデルは、視覚推論、テキストドキュメント認識、細かい情報理解、命令に従う能力などが大幅に向上し、複数の権威ある評価基準で世界をリードするパフォーマンスを達成しました。さらに、このモデルの返信モードはより簡潔でフレンドリーになり、ユーザー体験がさらに向上しました。
-
豆包・リアルタイム音声モデル:エンドツーエンドの音声対話の実現 今回のリリースでは、豆包・リアルタイム音声モデルも導入されました。このモデルは、エンドツーエンドの音声対話を実現し、低遅延、対話中にいつでも中断できるという特徴があります。従来のカスケードモードと比べて、豆包リアルタイム音声モデルは音声表現力、制御力、感情の受け継ぎにおいて驚くべきパフォーマンスを発揮します。火山エンジンは、2025年上半年に方舟プラットフォームを通じて対応するAPIサービスを提供する予定であり、音声技術の広い応用をさらに推進します。
技術革新とアーキテクチャの優位性
豆包大模型1.5は、トレーニングと推論の一体設計を堅持し、最強のモデル効果、卓越したモデル性能、最適な推論コストの間でバランスをとりました。モデルアーキテクチャでは、大規模なスパースMoEアーキテクチャを採用し、小さな活性化パラメーターで等価の7倍の活性化パラメーターを持つDenseモデルの性能を実現し、業界の標準効率を大幅に上回りました。さらに、字节跳动が独自に開発したサーバークラスターソリューションとネットワークインターフェイスカード技術は、ハードウェアコストを大幅に下げ、小パケット通信の効率を最適化し、マルチマシン分散推論の安定性和効率性を保証しました。
データの独立性和信頼性
トレーニングプロセスでは、豆包大模型1.5は他のモデルによって生成されたデータを使用せず、完全に独立したデータプロダクションシステムを構築しました。ラベル付けチームとモデルのself-play技術を組み合わせることで、データ品質を最適化し、データラベル付けの多様性和難易度を向上させ、データソースの独立性和信頼性を保証しました。
価格据え置き、性能向上
豆包大模型1.5は、性能と機能で顕著な向上を達成しましたが、価格は据え置きで、「量を増やしても価格は上げない」という原則を堅持しました。火山エンジンは、AI技術の普及を推進し、より多くの企業や開発者がこの先進的な技術の成果を享受できるようにすることを目指しています。
体験と応用
豆包大模型1.5はすでに火山方舟プラットフォームに全面的に上线されました。以下のリンクから体験できます:https://team.doubao.com/doubao_1_5_pro。火山エンジンは引き続きAIの普及を支援し、AIの革新を推進し、より多くの業界や開発者が豆包大模型を使用できるようにすることを目指します。
aiスピーキング
ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?