FigureとOpenAIのコラボレーションがリアルタイムで会話し指示通り作業を行うロボットを実現しつつある

masapoco
投稿日
2024年3月14日 9:09
figure 01 demo

ロボット工学企業のFigureは、同社が開発中のヒューマノイドロボット「Figure 01」の能力を強化するために結んだOpenAIとのパートナーシップの最初の成果を披露した。本日公開されたビデオでは、Figure 01が周囲の状況を認識し、リアルタイムで会話し、人間の指示に従い作業を行っている様子が映し出されている。

2023年10月までに、Figure 01はすでに立ち上がり、基本的な自律タスクをこなしていた。1月中旬にはBMWが導入を明かしていた

Figureの開発の進展は驚異的だ。これは、画像とテキストを理解するOpenAIによって訓練されたマルチモーダルモデルにロボットを接続することで実現されている。

このモデルに接続することで、Figure 01は、その環境を説明し、日常的な状況を解釈し、非常に曖昧で文脈に依存した要求に基づいて行動を実行することができる。

ビデオに登場する行動はすべて学習されたもので、遠隔操作されたものではなく、リアルタイムな処理に基づき、通常の速度で実行される。

Figureのロボット工学・AIエンジニアであるCorey Lynch氏は、この進歩を以下のように説明している:「ほんの数年前でも、ヒューマノイドロボットが完全に学習した行動を計画し実行しながら、ヒューマノイドロボットと完全な会話をすることは、私たちが見るには何十年も待たなければならないことだと思ったでしょう。明らかに、多くのことが変わりました」。

同様のロボット工学の研究は、GoogleがすでにRTモデルで実証している。RTモデルは、ロボットが言語モデルと画像モデルの入出力に基づいて、日常的な環境をナビゲートし、複雑な行動を計画・実行することを可能にする。

Figureの創業者であるBrett Adcock氏はXの投稿で、Figure 01の内蔵カメラがOpenAIによって訓練された大規模な視覚言語モデルにデータを送信し、Figure独自のニューラル・ネットワークも「ロボットのカメラを通して10Hzで画像を取り込む」ことを明かしている。OpenAIはまた、話し言葉を理解する能力も担っており、これらの流入情報はすべて、Figureのニューラルネットによって「高速で、低レベルで、器用なロボットの動作」に変換される。ロボットの動作は、画像を直接動作に変換する視覚運動変換器と呼ばれるものによって制御される。ロボットのカメラからの画像を10Hzの周波数で処理し、24の自由度(手首の位置と指の角度)の動作を200Hzの周波数で生成する。

Lynch氏もロボットの能力について詳しく説明している。これには、視覚的経験を説明すること、将来の行動を計画すること、記憶を振り返ること、行動につながる結論を口頭で説明することなどが含まれるという。

これを達成するために、OpenAIのマルチモーダルモデルは、過去の画像を含む会話履歴全体を処理し、人間が応答できる音声応答を生成する。また、同じモデルが、与えられたコマンドを実行するためにロボットがどの学習行動を行うべきかを決定する。

例えば、ロボットは会話の過去の部分を参照し、”that”と “put that there”が何を意味しているかを判断することで、”Can you put that there? “という質問に正しく答えることができる。ある例では、その辺に転がっている食器は食器棚に入れるべきだということを理解している。

「私たちの目標は、人型ロボットを10億台レベルで操作するワールドモデルを訓練することです」とAdcock氏は述べている。



この記事が面白かったら是非シェアをお願いします!


  • FireShot Capture 070 Introducing ChatGPT and Whisper APIs openai.com
    次の記事

    ChatGPTのWeb版は昨年のピークを越えられていない

    2024年3月14日 9:54
  • 前の記事

    米下院、TikTok禁止法案が賛成多数で可決、上院の対応に注目が集まる

    2024年3月14日 6:56
    tiktok

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事