Helix：Figureが提供するエンドツーエンドの汎用制御モデル

概要
Helixの主な機能
Helixの技術原理
Helixの使用シーン
まとめ
aiスピーキング

概要

最近、具現化された知能ロボット会社のFigureは、人型ロボットのエンドツーエンドの制御方案であるHelixを発表しました。Helixは、視覚-言語-動作（VLA）の汎用モデルであり、人型ロボットの上半身全体を高速で連続的に制御する初めてのものであり、複数のロボット協力、自然言語理解、強力な汎化能力を備えています。この革新は、人型ロボット技術が新しい時代に入ったことを示しています。

Helixの主な機能

全身制御

Helixは、ロボットの上半身全体（手首、胴体、頭部、指を含む）を高速（200Hz）で連続的に制御し、高精度な動作の協調を実現します。これにより、ロボットは、例えば物をつかむ際に指の姿勢を調整し、頭部と胴体を動かしてより良い視界と操作スペースを得るなど、繊細な動作を行うことができます。

複数ロボット協力

Helixは、複数のロボットが同じ神経ネットワークの重みを同時に実行し、協力してタスクを完了するのを支援します。例えば、2つのFigureロボットは、雑貨を整理するタスクを共同で完了することができます。それらは自然言語の指示で協調し、「右のロボットにクッキーバッグを渡す」または「左のロボットからクッキーバッグを受け取って開いた引き出しに入れる」といった指示を出します。

自然言語の理解と実行

Helixは、自然言語の指示に基づいて様々なタスクを完了することができます。例えば、見たことのない物を拾い上げたり、引き出しや冷蔵庫を操作したりすることができます。例えば、「砂漠の物を拾い上げる」と要求された場合、Helixは玩具のサボテンを識別し、最も近い手を選択し、それをしっかりとつかむための正確な動作指示を実行します。

強力な汎化能力

Helixは、約500時間の高品質な監督データを使用して訓練され、数千種類の形、サイズ、素材が異なる物を処理することができ、強力な汎化能力を示しています。

商業展開能力

Helixは、低消費電力の組み込みGPU上で完全に動作し、大規模な商業展開に適しています。これにより、Helixは実験室環境で優れた性能を発揮するだけでなく、実際の場面で広く展開する可能性もあります。

Helixの技術原理

「システム1、システム2」アーキテクチャ

Helixは、ユニークな「システム1、システム2」アーキテクチャを採用しています。システム2（S2）は、インターネットで事前に訓練された視覚言語モデル（VLM）であり、7-9Hzの周波数で動作し、シーン理解と言語理解を担当します。システム1（S1）は、S2が生成する潜在的な意味表現を200Hzの周波数で正確な連続的なロボット動作に変換する、高速反応の視覚運動戦略です。この分離されたアーキテクチャにより、各システムが最適な時間スケールで動作することができ、S2は「ゆっくり考える」高レベルの目標を設定し、S1は「素早く考える」リアルタイムの動作の実行と調整を行うことができます。

エンドツーエンドの学習

Helixは、原始ピクセルと自然言語の指示から連続的な動作出力にマッピングし、標準の回帰損失を使用して学習します。学習プロセスでは、S1とS2の推論遅延をシミュレートするために時間遅れが導入され、学習と展開の整合性が保証されます。

分離されたアーキテクチャ

S1とS2は、異なる時間スケールで動作し、S2は高レベルの意味計画を担当し、S1はリアルタイムの動作の実行を担当します。このアーキテクチャは、システムの汎化能力を保証しながら、高速な応答を実現します。

最適化された推論の展開

ロボットでは、S1とS2はそれぞれ独立したGPU上で動作し、S2は潜在ベクトルを非同期で更新し、S1はリアルタイムで動作制御を行います。この設計は、推論プロセスを最適化し、システムの効率と性能を向上させます。

Helixの使用シーン

家庭サービス

Helixは、家庭環境における様々なサービス、例えば物の整理、収納、家電の操作など、日常の家事に使用することができます。その強力な汎化能力和自然言語理解能力は、様々な家庭の場面に適応することができます。

物流と倉庫

Helixは、自然言語の指示に基づいて見たことのない物をつかむことができ、物流と倉庫における物の仕分けや運搬のタスクに適しています。

産業自動化

Helixは、部品の組み立てや品質検査など、複雑な人間とロボットの協力タスクに応用することができます。その高精度の制御能力和複数のロボット協力機能は、産業自動化において広い応用の見込みがあります。

サービス業

Helixは、ホテルやレストランなどにおいて、案内、配達、清掃などのサービスを提供することができます。その自然言語の理解と実行能力は、人間のスタッフとシームレスに協力することができます。

まとめ

Helixの発表は、人型ロボット技術が新しい時代に入ったことを示しています。そのユニークな「システム1、システム2」アーキテクチャ、全身制御、複数のロボット協力、自然言語の理解、強力な汎化能力は、人型ロボットの分野で大きな可能性を持っています。Figure AIの以前のアーキテクチャと比べて、Helixは技術ルート、アーキテクチャの特徴、機能の実現、汎化能力、商業展開などにおいて、顕著な優位性を持っています。将来、Helixが絶えず発展し、完全に完成するにつれて、そのアーキテクチャは、具現化された知能制御の技術的方向性になるかもしれません。

aiスピーキング

ドルフィンAIは言語学習アプリケーションのためのプロフェッショナルな発音評価API(pronunciation assessment api)ソリューションを提供します。音素、単語、文章、チャプター、発音矯正、単語矯正、クイズ、フリーダイアログ、多肢選択問題など幅広く提供しています。当社の発音評価製品（pronunciation assessment）は、英語と中国語、クラウドAPI、オンプレミス、オフラインデバイスの展開をサポートしています。当社の発音評価API（pronunciation assessment api）は、正確性、流暢性、完全性、リズムの次元をカバーする豊富な評価指標を提供し、音素、単語、文の異なるレベルの評価スコアも提供します。また、音素、単語、文の異なるレベルでの評価スコアも提供します。数千万人のユーザーに安定した効率的で安全なサービスを提供しています。ドルフィンAIの発音評価製品（pronunciation assessment）を試してみませんか？

オンラインお試し