Google DeepMind、自然言語の指示に従いプレイヤーに協力してくれる従順なAI「SIMA」を発表

masapoco
投稿日
2024年3月14日 19:47
deepmind sima

Google DeepMindの研究者は、自然言語による指示を行動に変換できる3Dビデオゲーム環境用の「マルチワールド」AIエージェント、「SIMA(Scalable Instructable Multiworld Agent)」を紹介した。SIMAはあなたの代わりにさまざまなタスクをこなしてくれる。

SIMAは、8つのゲームスタジオと協力し、『No Man’s Sky』、『Goat Simulator』、『Valheim』、『Teardown』を含む9つの異なるビデオゲームで訓練され、テストされた。

DeepMindチームは、プレーヤーが他のプレーヤーに指示を与えたり、自分のゲームについて説明したりするゲームの録画を使ってSIMAを訓練した。そして、これらの指示をゲームのアクションにリンクさせた。

このエージェントは、主に行動を模倣するように訓練されている(行動クローン)。言語の指示に従いながら、収集されたデータの中で人々が行った行動を模倣する。

このようにして、エージェントは、言語の説明、視覚的な印象、対応する行動を結びつけることを学習する。

SIMAエージェントのコアは、視覚入力(エージェントが “見る “もの)と言語入力(エージェントが受け取る指示)をアクション(キーボードとマウスのコマンド)に変換するために協働するいくつかのコンポーネントで構成されている。

画像とテキストのエンコーダーは、視覚と言語の入力をエージェントが処理できる形に変換する役割を担う。これは、すでに画像とテキストを包括的に理解している事前に訓練されたモデルを使って行われる。

Transformerモデルは、エンコーダーと過去の行動からの情報を統合し、現在の状態の内部表現を形成する。特別な記憶メカニズムは、エージェントが以前の行動とその結果を記憶するのを助ける。

最後に、エージェントはこの状態表現を使用して、次に実行するアクションを決定する。これらのアクションは、仮想環境で実行されるキーボードとマウスのコマンドだ。

SIMAは、ゲームのソースコードにアクセスする必要はなく、画面イメージと自然言語による指示のみを必要とする。エージェントは、キーボードとマウスを介して仮想環境と対話するため、どのような仮想環境にも対応できる可能性がある。

テストでは、SIMAはナビゲーション、オブジェクトとのインタラクション、メニューコントロールなど600の基本スキルをマスターした。研究チームは、将来のエージェントが複雑な戦略立案や多面的なタスクをこなせるようになることを期待しているとのことだ。

SIMAが他のビデオゲーム用AIシステムと異なる点は、1つまたは少数の特定のタスクに集中するのではなく、さまざまな環境で学習するという幅広いアプローチをとっている点だ。

研究によると、多くのゲームで訓練されたエージェントは、単一のゲームに特化したエージェントよりも優れたパフォーマンスを発揮することが示されています。さらに、SIMAは、言語や視覚認識に関する既存の知識を活用するために、事前に訓練されたモデルを統合し、これを3D環境からの特定の訓練データと組み合わせる。

研究チームは、この研究が新世代の汎用言語駆動型AIエージェントの開発に貢献することを期待している。DeepMindによれば、SIMAは近々、”高度な戦略的プランニングと複数のサブタスク”を含む、より大きな課題に取り組むように拡張される予定だという。より洗練されたモデルによって、SIMAのようなプロジェクトが複雑な目標を達成し、インターネットや実世界で役立つ日が来るかもしれない。


論文

参考文献

研究の要旨

どのような3D環境でも任意の言語命令に従うことができる具現化されたAIシステムを構築することは、一般的なAIを作るための重要な課題である。この目標を達成するためには、複雑なタスクを達成するために、知覚と身体化された行動に言語を根拠づける学習が必要である。Scalable, Instructable, Multiworld Agent (SIMA)プロジェクトでは、多様な仮想3D環境(研究環境やオープンエンドの商用ビデオゲームなど)において自由形式の指示に従うエージェントを訓練することで、この課題に取り組んでいます。私たちの目標は、あらゆるシミュレーションされた3D環境において、人間ができることを何でも達成できる指示可能なエージェントを開発することです。私たちのアプローチは、最小限の仮定を課しながら、言語主導の一般性に焦点を当てています。私たちのエージェントは、一般的な人間のようなインターフェイスを使用して、リアルタイムで環境と対話します:入力は画像観察と言語命令であり、出力はキーボードとマウスの操作です。この一般的なアプローチは挑戦的であるが、エージェントが多くの視覚的に複雑で意味的に豊かな環境にわたって言語を基礎づけることを可能にし、また新しい環境でエージェントを容易に実行することを可能にする。この論文では、我々の動機と目標、我々が行った最初の進展、そしていくつかの多様な研究環境と様々な商用ビデオゲームにおける有望な予備的結果について述べる。



この記事が面白かったら是非シェアをお願いします!


  • Windows 01 1.width 1000.format webp
    次の記事

    Google、Chromeブラウザにリアルタイム保護機能を導入へ

    2024年3月15日 6:56
  • 前の記事

    世界初のAIソフトウェア開発者「Devin」は独自のAIを訓練して作り出し、人間に頼らずソフトウェア開発を行える

    2024年3月14日 17:39
    devin

スポンサーリンク


この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事