Google DeepMind、視覚と言語を行動に変換する新モデル「RT-2」紹介

大容量の視覚言語モデル(VLM)はウェブスケールのデータセットで学習されるため、これらのシステムは視覚や言語のパターンを認識し、異なる言語間で動作することに非常に優れている。しかし、ロボットが同レベルの能力を達成するためには、あらゆる物体、環境、タスク、状況にわたって、ロボットのデータを直接収集する必要がある。

この研究は、マルチタスクデモで訓練されたモデルであるRobotic Transformer 1(RT-1)をベースにしており、ロボットデータで見られるタスクとオブジェクトの組み合わせを学習することができる。より具体的には、Google DeepMindの研究は、オフィスのキッチン環境で17カ月にわたって13台のロボットで収集されたRT-1ロボットのデモンストレーションデータを使用した。

RT-2は、汎化能力の向上と、ロボット・データ以外の意味的・視覚的理解を示している。これには、新しいコマンドの解釈や、オブジェクトのカテゴリや高レベルの記述に関する推論など、初歩的な推論を実行してユーザーのコマンドに応答することが含まれる。

また、思考の連鎖推論を取り入れることで、RT-2が、どの物体が即席のハンマーとして使えるか(石)、どの種類の飲み物が疲れた人に最適か(エナジードリンク)を判断するといった、多段階の意味推論を行うことができることを示す。

ロボット制御へのVLMの応用

RT-2は、1つまたは複数の画像を入力とし、従来は自然言語のテキストを表すトークン列を生成するVLMをベースにしている。このようなVLMは、視覚的質問応答、画像キャプション付け、物体認識のようなタスクを実行するために、ウェブスケールのデータでうまく訓練されてきた。この研究では、Pathways Language and Image model(PaLI-X)とPathways Language model Embodied (PaLM-E)をRT-2のバックボーンとして使用する。

ロボットを制御するためには、ロボットが行動を出力するように訓練されなければならないという。同社は、言語トークンと同様に、アクションをモデルの出力にトークンとして表現することで、この課題に対処。下の図に示すように、アクションを標準の自然言語トークナイザーで処理できる文字列として記述する。

文字列は、後続のコマンドを実行せずに、現在のエピソードを継続するか終了するかを示すフラグで始まり、エンドエフェクタの位置と回転を変更するコマンド、およびロボットグリッパーの必要な拡張を変更するコマンドが続く。

同社は、RT-1と同じ離散化されたロボットアクションを使用し、それを文字列表現に変換することで、ロボットデータのVLMモデル学習が可能になることを示す。

RT-2のアーキテクチャとトレーニング:ロボットとウェブのデータを用いて、事前に訓練されたVLMモデルを共同微調整する。その結果、ロボットのカメラ画像を取り込み、ロボットが行うべき行動を直接予測する

汎化と創発スキル

RT-2モデルについて、6,000回を超えるロボットの試行を対象に、一連の定性的・定量的実験を行った。RT-2の新たな能力を調査するために、同社はまず、ウェブスケールのデータとロボットの経験から知識を組み合わせる必要があるタスクを探し、記号理解、推論、人間認識の3つのスキルのカテゴリーを定義した。

各タスクでは、視覚的意味概念の理解と、その概念を操作するロボット制御の能力が要求された。「テーブルから落ちそうなバッグを拾う」、「バナナを2+1の合計まで移動させる」などのコマンドは、ロボットのデータでは見たことのない物体やシナリオに対してロボットに操作タスクを実行させるもので、操作にはウェブベースのデータから変換された知識が必要だった。

ロボットデータには存在せず、ウェブ事前トレーニングからの知識移行を必要とする、新たなロボットスキルの例

全てのカテゴリにおいて、以前のRT-1モデルや、大規模な視覚データセットで事前学習されたVisual Cortex(VC-1)のようなモデルなど、以前のベースラインと比較して、汎化性能の向上(3倍以上の改善)が観察された。

出現スキル評価の成功率:我々のRT-2モデルは、以前のロボティクス変換器(RT-1)と視覚的事前訓練(VC-1)のベースラインの両方を上回る

また、ロボットデータに例があるオリジナルのRT-1タスクから始め、ロボットがVLM事前学習から汎化を学習する必要がある、ロボットが以前に見たことのないオブジェクト、背景、環境を様々な程度で継続した、一連の定量的評価を行った。

RT-2が新しい状況に汎化する、ロボットによる以前に見たことのない環境の例

RT-2は、ロボットデータで見られる元のタスクの性能を維持し、ロボットによる未知のシナリオの性能をRT-1の32%から62%に向上させた。

さらに、VC-1やReusable Representations for Robotic Manipulation (R3M)のような視覚のみのタスクで事前訓練されたベースラインや、Manipulation of Open-World Objects (MOO)のような物体識別にVLMを使用するアルゴリズムと比較して、大幅な改善が見られた。

RT-2は、見た分布内タスクで高い性能を達成し、分布外の見たことのないタスクでは複数のベースラインを上回る

オープンソースのロボットタスクの言語テーブルスイートで我々のモデルを評価したところ、シミュレーションで90%の成功率を達成し、BC-Z(72%)、RT-1(74%)、LAVA(77%)などの従来のベースラインを大幅に上回った。

次に、同じモデルを実世界で評価したところ(シミュレーションと実データで訓練されているため)、以下のように、青い立方体以外のオブジェクトが訓練データセットに存在しない、新しいオブジェクトへの汎化能力が実証された。

RT-2は実際のロボット言語テーブルタスクで良好な結果を示した。青い立方体以外の物体は訓練データに存在しなかった

LLMで使用されている思考連鎖型プロンプトの手法にヒントを得て、同社はロボット制御と思考連鎖型推論を組み合わせることで、単一モデル内で長期的な計画と低レベルスキルの学習を可能にするモデルを試作した。

特に、RT-2の言語と行動を併用する能力を向上させるために、数百の勾配ステップを微調整した。次に、ロボットが行おうとしている行動の目的を自然言語で記述し、次に「行動」と行動トークンを記述する、追加の「計画」ステップを含むようにデータを増強した。

思考連鎖推論により、長期的なスキルシーケンスを計画し、ロボットの行動を予測することができる自己完結型のモデルを学習できる

このプロセスにより、RT-2は、ユーザの指示を達成するために必要な中間ステップに関する推論を必要とする、より複雑なコマンドを実行できる。VLMバックボーンのおかげで、RT-2は画像とテキストコマンドの両方から計画を立てることができ、SayCanのような現在の計画・行動アプローチが現実世界を見ることができず、完全に言語に依存しているのに対して、視覚的に根拠のある計画を立てることが可能だという。

ロボット制御の進歩

RT-2は、視覚言語モデル(VLM)を強力な視覚言語行動(VLA)モデルに変換できることを示している。VLAは、VLMの事前学習とロボットデータを組み合わせることで、ロボットを直接制御できる。

PaLM-EとPaLI-Xに基づくVLAの2つのインスタンス化により、RT-2は高度に改善されたロボットポリシーを実現し、さらに重要なことに、ウェブスケールの視覚言語事前学習から継承された、大幅に改善された汎化性能と創発能力をもたらす。

RT-2は、既存のVLMモデルを単純かつ効果的に修正するだけでなく、実世界で多様なタスクを実行するための推論、問題解決、情報解釈が可能な汎用物理ロボットの構築の可能性を示しているとした。

▶︎DeepMind

© 株式会社プロニュース