ロボットを自然な会話だけで制御？大規模言語モデルを応用した作業ロボット「Digit」

以前bouncyでも紹介した二足歩行ロボット「Digit」。方向転換・持ち上げ・しゃがむ動作などが可能で、主に荷物の運搬作業で運用されている。

開発元のAgility Robotics社は、この「Digit」の行動生成AIとして新たに大規模言語モデルを採用。デモ実験の成果を動画で公開している。

複雑な音声指示を解釈し行動

デモ実験では、まず1番から7番までの高さの異なるタワーを2列に並べ、さらに赤・青・緑の3色の箱、そして「Digit」を配置。

次に、人間が音声で「ダースベイダーのライトセーバーの色の箱を前列の一番高いタワーに置け」と指示する。

この指示を実行するには、番号・高さ・列・色の情報が混在する中で、指定されている色が赤であることと、該当するタワーがどれかを解釈・判断しなければならない。

実験動画では、「Digit」が時間をかけつつも指示を適切に解釈しこなす様子が確認できる。

・・・

大規模言語モデルを応用した開発は現在も進行中とのこと。自然な会話のみでロボットを制御できる未来は、そう遠くないかもしれない。

Digit

Agility Robotics

CREDITVideographer ：フィリピン下鳥Curator ：にしまり