大規模言語モデルが、情報の検索に驚くほど単純なメカニズムを使っている事が判明

マサチューセッツ工科大学（MIT）の研究者らは、大規模言語モデル（LLM）が、保存された知識を検索するためにしばしば単純な一次関数を使用することを発見した。この発見は、LLMに見られる時々誤ったり、意味不明な答えを与える傾向を減少させる事に繋がる可能性がある。

一次関数とは、2つの変数と指数を持たない方程式である。2つの変数の間の直接的な関係を記述する。

特定の事実を検索するための、このような比較的単純な一次関数を特定することで、科学者たちは言語モデルの特定のトピックに関する知識をテストし、その知識がモデルのどこに保存されているかを突き止めることができた。研究者たちはまた、モデルが同じような種類の事実を検索するために、同じ関数を使用していることも発見した。

「これらのモデルは本当に複雑で、多くのデータに基づいて訓練された非線形関数であり、理解するのが非常に難しいですが、時々本当にシンプルなメカニズムが内部で動作していることがあります。これはその一例です」と、電気工学・コンピューターサイエンス（EECS）の博士課程に在籍し、この研究の共著者であるEvan Hernandez氏は言う。

ほとんどの大規模言語モデル、またはTransformerモデルとも呼ばれるものは、ニューラルネットワークである。人間の脳に大まかに基づいているニューラルネットワークは、多数の層にグループ化された数十億の相互接続されたノード、またはニューロンを含み、データをエンコードおよび処理する。

Transformerに格納された多くの知識は、主題と対象を接続する関係として表現することができる。Transformerがより多くの知識を蓄積すると、特定の主題に関する追加の事実を複数の層にわたって格納する。ユーザーがその主題について尋ねると、モデルはクエリに応答するために最も関連する事実をデコードする必要がある。

研究者たちはLLMを探る一連の実験を設定し、それらが非常に複雑であるにもかかわらず、モデルが関連する情報を単純な一次関数を使用してデコードすることを発見した。各関数は、取り出される事実のタイプに特有のものである。

研究者たちは、まず関数を推定する方法を開発し、次に「国の首都」などのさまざまなテキスト関係に対する47の具体的な関数を計算した。例えば、メイントピックのドイツについて、関数はベルリンという事実を検索する。

研究者たちは、メイントピック（ドイツ、ノルウェー、イギリス、…）を変えて各関数をテストし、正しい情報を検索できるかどうかを調べた。

しかしHernandez氏によれば、いくつかの事実については、モデルがその事実を知っていて、その事実に一致する文章を予測しても、チームはその事実に対応する一次関数を見つけることができなかったという。このことは、モデルがこの情報を記憶するために「もっと複雑な何か」をしていることを示唆している。それが何であるかは、今後の研究課題である。

研究者らはまた、これらの関数を用いて、モデルがさまざまなトピックについて何を真実だと信じているかを解明した。研究者たちはこの方法を用いて「属性レンズ」と呼ぶ物を作成し、Transformerの多くのレイヤーの中で、ある関係性に関する特定の情報がどこに格納されているかを視覚化した。

この可視化ツールは、科学者や開発者が蓄積された知識を修正し、AIチャットボットが誤った情報を再現するのを防ぐのに役立つだろう。

「これは、大規模言語モデルが推論中に事実的な知識を思い出す方法についての我々の理解に欠けていた部分を明らかにする興奮すべき作業です。以前の作業では、LLMが与えられた主題の情報豊かな表現を構築し、そこから特定の属性が推論中に抽出されていることが示されていました。この作業では、LLMの複雑な非線形計算が、シンプルな線形関数でよく近似できることを示しています」と、この研究に関与していないテルアビブ大学のコンピュータサイエンス学校の助教授であるMor Geva Pipek氏は述べている。

「私たちは、モデルがテキストを生成する際に異なる情報に焦点を当てることを選択したとしても、その情報はすべて符号化されることを示すことができます」とHernandez氏は説明する。

実験には、GPT-J、Llama 13B、GPT-2-XLという、かなりコンパクトなLLMを使用した。次の研究課題は、この結果がもっと大きなモデルでも成り立つかどうかを確認することだ。

論文

arXiv: Linearity of Relation Decoding in Transformer Language Models

参考文献

MIT News: Large language models use a surprisingly simple mechanism to retrieve some stored knowledge

研究の要旨

変換言語モデル（LM）に符号化される知識の多くは、単語とその同義語、実体とその属性などの関係で表現される。我々は、関係のサブセットに対して、この計算が主題表現に対する単一の線形変換によってよく近似されることを示す。線形関係表現は、1つのプロンプトからLMの一次近似を構成することで得られる可能性があり、様々な事実関係、コモンセンス関係、言語関係に対して存在する。しかし、LMの予測は関係知識を正確にとらえているにもかかわらず、その知識は関係表現に線形に符号化されていないケースも多く見られる。このように、我々の結果は、トランスフォーマーLMにおいて、単純で解釈しやすいが、異種的に展開される知識表現戦略を明らかにしている。

大規模言語モデルが、情報の検索に驚くほど単純なメカニズムを使っている事が判明

HuaweiとSMIC、マルチパターニングによる5nmチップの実現で協業

犯罪を予測するアルゴリズムが監視し、配られたカードで私たちを判断する

コメントを残すコメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

大規模言語モデルが、情報の検索に驚くほど単純なメカニズムを使っている事が判明

HuaweiとSMIC、マルチパターニングによる5nmチップの実現で協業

犯罪を予測するアルゴリズムが監視し、配られたカードで私たちを判断する

コメントを残す コメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

コメントを残すコメントをキャンセル