大規模な言語モデルは人間ではありません。あたかもそれであるかのようにテストするのはやめましょう。

このテクノロジーの暴走に対する期待と不安が渦巻いている今、何ができて何ができないのかについて合意する時期が来ています。

Taylor Webb 氏が 2022 年の初めに GPT-3 を試したとき、OpenAI の大規模な言語モデルで何ができるかに驚かされました。これは、テキストブロック内の次の単語を予測するためだけに訓練されたニューラルネットワーク、つまりジャンプアップオートコンプリートです。それでも、ウェッブが設定した抽象的な問題の多くには正しい答えが得られました。IQ テストで見つかるようなものです。「これらの問題を解決するその能力に本当に衝撃を受けました」と彼は言います。「それは私が予想していたすべてを完全に覆しました。」

ウェッブ氏はカリフォルニア大学ロサンゼルス校の心理学者で、人間とコンピューターが抽象的な問題を解決するさまざまな方法を研究しています。彼は、特定の推論機能が組み込まれたニューラルネットワークを構築することに慣れていました。しかし、GPT-3 はそれらを無料で学習したようです。

文化現象の舞台裏に迫る特別な会話。

先月、ウェッブ氏らは Nature に論文を発表し、その中で、問題を解決するための類推の使用 (類推推論として知られる) を評価するために考案されたさまざまなテストに合格する GPT-3 の能力について説明しました。それらのテストのいくつかでは、GPT-3 が学部生のグループよりも良いスコアを獲得しました。「類推は人間の推論の中心です」とウェッブ氏は言います。「私たちは、これがあらゆる種類の機械知能が実証する必要がある重要なことの 1 つであると考えています。」

ウェッブ氏の研究が浮き彫りにしているのは、大規模な言語モデルによって引き出された長い一連の驚くべきトリックのうちの最新のものにすぎません。たとえば、OpenAI が 3 月に GPT-3 の後継である GPT-4 を発表したとき、同社は、数十の高校テストを含む新しい大規模言語モデルが合格したと主張する、専門的および学術的評価の驚くべきリストを発表しました。そして司法試験。 OpenAI はその後 Microsoft と協力して、GPT-4 が米国医師免許試験の一部に合格できることを示しました。

そして複数の研究者は、大規模な言語モデルが、思考連鎖推論（問題を段階的に解決する）から心の理論（他の人が何を考えているかを推測する）に至るまで、人間の特定の認知能力を特定するために設計されたテストに合格できることを示したと主張している。）。

この種の結果は、これらの機械が間もなく教師、医師、ジャーナリスト、弁護士に取って代わるホワイトカラーの仕事に就くだろうと予測する誇大宣伝機械に餌を与えている。ジェフリー・ヒントンは、GPT-4の思考を結びつける明らかな能力が、彼が開発に貢献したテクノロジーを今恐れている理由の1つであると主張した。

しかし問題があります。それらの結果が実際に何を意味するかについてはほとんど合意がありません。人間のような知性のかすかな光として見えるものに目がくらむ人もいます。他の人は少しも納得していません。

「大規模な言語モデルの現在の評価手法には、いくつかの重大な問題があります」と、イスラエルのラマトガンにあるバルイラン大学のコンピューター科学者であるナタリー・シャピラ氏は言います。「それは、彼らが実際に存在するものよりも優れた能力を持っているという幻想を生み出します。」

そのため、コンピューター科学者、認知科学者、神経科学者、言語学者など、ますます多くの研究者が自分の評価方法を徹底的に見直し、より厳密で徹底的な評価を求めています。人間によるテストで機械が採点するという行為は間違った考え方であり、廃止されるべきだと考える人もいます。

ニューメキシコ州サンタフェ研究所の人工知能研究者メラニー・ミッチェル氏は、「AIの黎明期以来、人間は人間の知能テスト（IQテストなど）を機械に与えてきた」と語る。「一貫した問題は、このようなマシンをテストすることが何を意味するかということでした。それは人間にとって意味することと同じ意味ではありません。」

「擬人化がたくさん起こっています」と彼女は言います。「そして、それは、これらのシステムについての私たちの考え方や、それらをテストする方法を彩るようなものです。」

このテクノロジーに対する期待と不安がかつてないほど高まる中、大規模な言語モデルで何ができるのか、何ができないのかをしっかりと把握することが重要です。

大規模な言語モデルは人間ではありません。 あたかもそれであるかのようにテストするのはやめましょう。

大規模な言語モデルは人間ではありません。あたかもそれであるかのようにテストするのはやめましょう。