AndroidGen:大規模言語モデルのAgent能力を強化するための智谱が提供するフレームワーク

この記事は約5分で読めます。

智谱技術チームは、データが乏しい場合でも大規模言語モデル(LLM)のAgent能力を強化するためのAndroidGenというフレームワークを提供しました。このフレームワークは、人間のタスク軌跡を収集し、それらの軌跡に基づいて言語モデルをトレーニングすることで、人為的なラベル付けなしでAgentを開発し、LLMが複雑なタスクを実行する能力を大幅に向上させます。

主な機能

  • 人為的なラベル付けなしのデータ収集とトレーニング:AndroidGenは、人間のタスク軌跡を収集し、人為的なラベル付けなしで効率的なスマートエージェントをトレーニングすることができます。

  • Agentのタスク実行能力の強化:ExpSearch、ReflectPlan、AutoCheck、StepCriticの4つのコアモジュールを通じて、LLMが複雑なタスクを実行する能力を大幅に向上させます。

    • xpSearch(経験検索):完了した類似の軌跡を検索し、LLMがコンテキスト学習を行うことで、スマートエージェントの能力を向上させ、単純なタスクから複雑なタスクへの汎化を促進します。

    • ReflectPlan(反省計画):現在の環境を自己反省し、計画状態を更新することで、スマートエージェントの長期推論能力を強化します。

    • AutoCheck(自動チェック):各スマートエージェントの操作の有効性を積極的に検証し、操作ミスによるタスク失敗のリスクを低減します。

    • StepCritic(ステップ評価):タスクを複数のサブゴールに分割し、ステップバイステップの軌跡評価を提供し、モデルの最適化に細かい粒度のラベルを提供します。

  • 効率的なデータ収集パイプライン:AndroidGenは、大量の高品質なAndroidブラウジング軌跡を生成する効率的なデータ収集パイプラインを構築しました。

技術の原理

  • モデルトレーニング:LoRA技術を利用して、自動構築されたデータセットを微調整し、GLM-4-9BとLlama-3-70Bを含むAndroid Agentモデルを開発しました。人為的なラベル付けなしで、軌跡の各ステップを個別のサンプルとしてトレーニングすることで、データセットの情報を十分に活用します。

  • 計画と実行ステップの混合:計画と実行ステップを組み合わせて微調整し、LLMに計画と実行の両方の能力を持たせます。

  • データ収集プロセス

    • タスクの定義:GPT-4oに基づいて、AndroidWorldから約300のタスクコマンドを生成します。

    • Agentのサンプリング:AndroidWorldとGPT-4oを使用して、各タスクの軌跡をサンプリングします。

    • 軌跡の記録:各ステップの環境と操作情報を記録し、再現可能なAndroidナビゲーション軌跡を構築します。

    • 軌跡の評価:StepCriticを使用して記録された軌跡を評価し、各サブゴールの完了を確認します。

    • 軌跡の強化:高品質なデータセットを拡張し、最終的に1000を超える軌跡を含むデータセットを構築しました。

性能効果

  • AndroidWorldベンチマークテスト

    • 同じ基本モデルのAgentの能力を大幅に向上させ、M3AやSeeActと比較して、性能向上が顕著です。

    • AndroidGen + GPT-4oの平均スコアは46.8に達し、他の組み合わせを大幅に上回りました。

    • モデルパラメーターが小さいオープンソースのGLM-4-9B + AndroidGenの平均スコアは、モデルパラメーターが大きくクローズドソースのGPT-4o + M3Aを上回りました。

  • AitW(Android in the Wild)と世界で人気の8つのモバイルアプリケーション(Google Maps、YouTubeなど)の評価では、AndroidGenは自然言語コマンドの理解とインタラクション能力で優れた性能を発揮しました。

アプリケーションシーン

  • 自動化されたタスク処理:自然言語コマンドを通じて、Agentはメールの送信、リマインダーの設定、情報の検索などのタスクを自動的に完了することができます。

  • アプリケーション間の操作:Agentは異なるアプリケーション間で相互作用し、1つのアプリケーションから別のアプリケーションにデータをコピーするなどの操作を実行することができます。

  • スマートナビゲーション:Androidデバイス上で、Agentはユーザーのコマンドに従ってナビゲーションを実行し、特定のアプリケーションを開いたり、ファイルを検索したりすることができます。

  • スマートインタラクション:自然言語理解を通じて、Agentはユーザーと対話し、よりスマートなユーザーエクスペリエンスを提供することができます。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品(pronunciation assessment)は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API(pronunciation assessment api)は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品(pronunciation assessment)を試してみませんか?

タイトルとURLをコピーしました