謎の「gpt2-chatbot」がAI性能比較サイトに登場。OpenAIの新AIモデル説も

Image:LMSYS Chatbot Arena

AIの性能を比較するサイトLMSYS Chatbot Arenaに、謎の「gpt2-chatbot」が登場した。そして、AI界隈ではこのモデルがOpenAIが開発したものだという憶測が有力になりつつある。なぜなら、このモデルがこのサイトの登場する少し前に、OpenAIのサム・アルトマンCEOが「私はgpt-2のことが好きだ」という謎の発言をX(Twitter)に投稿したからだ。

この投稿はそのままGPTの古いバージョンのことを指しているのかとも思われたが、アルトマン氏のXアカウントはその後「gpt-2」としていた表記をわざわざ比較サイトに現れた謎AIと同じ「gpt2」に変更した。

曖昧な表現の投稿には苛立たされるが、タイミングを考えると、アルトマン氏は「gpt2-chatbot」のことを話しているのだと考える方が自然に思える。

X上では「GPT-2」という言葉がトレンド入りし⁠⁠、多くのユーザーが謎のAIボットの出所を推測し、試用してみて感想を言い合っている。その評価を総合すると、この謎のチャットボットはOpenAIのGPT-4の性能に近く、GPT-4.5やGPT-5には及ばないようだ。Ars Technicaのベンジ・エドワーズ記者は自らの名前をgpt2-chatbotで調べさせたところ、(ChatGPT有料版の)GPT-4 Turboでの出力に比べてやや間違いやぎこちない表現が多く感じられたと述べている。

ただ、それでもその出力にはOpenAIらしさが感じられると言う。AI研究者のサイモン・ウィルソン氏は、gpt2-chatbotが「OpenAIによるなんらかのステルスプレビューである可能性が高いと思う」と評した。ウィルソン氏はこのチャットボットには感銘を受けているとしつつ、今回のような一部によるLLMのテストとリリースの方法に不満を覚えているという。そして 「この状況は腹立たしいほどLLM研究全体を代表するものだ」「まったく予告なく、不透明なリリースであり、それを見てインターネット全体が非科学的な『雰囲気チェック』を並行して実行させられている」と語った。

このようなテストのやり方では、他の研究者は自分のAIと他者が公開したAIを比較することも難しく、何をやっているのか推測することしかできない。ただ、LMSYSはウィルソン氏の不満に対して「われわれは数人のモデル開発者と提携して、コミュニティによるプレビューテストのために彼らの新しいモデルを私たちのプラットフォームに追加した。これらのモデルは厳密にテスト用であり、実際には使用されない」と返答した。

なお、LMSYSはポリシーのページにも「未リリースのモデルを匿名でテストすることを許可」すると記しているが、ウィルソン氏の意見に同意する研究者も多い。

なお、記事執筆時点ではLMSYS Chatbot Arenaで「gpt2-chatbot」を試すことはできなくなっている。

© 株式会社 音元出版