
先週サンフランシスコで開催されたMistral AIハッカソンで、クラシックアーケードタイトル「ストリートファイターIII」をベースにした新しい人工知能(AI)ベンチマークが開発されました。オープンソースのLLM Colosseumベンチマークは、Stan Girard氏とQuivr Brain氏によって開発されました。このゲームはエミュレーター上で実行され、LLM同士が型破りながらも壮観な戦いを繰り広げます。
AI愛好家のマシュー・バーマン氏が、上記の動画で、格闘ゲームベースの大規模言語モデル(LLM)を使った新しいトーナメントを紹介しています。ストリートファイティングアクションの実演に加え、バーマン氏の動画では、このオープンソースプロジェクトを自宅のPCまたはMacにインストールする方法も解説されているので、実際に試してみることができます。
これは典型的なLLMベンチマークではありません。小型モデルは通常、遅延と速度の面で有利であり、このゲームではより多くの勝利につながります。人間の格闘ゲームプレイヤーは、対戦相手のカウンター技への素早い反応から恩恵を受けますが、このAI対AIのアクションでも同じことが言えます。
LLMは戦闘方法をリアルタイムで決定しています。テキストベースのモデルであるため、まずゲームの状態を分析し、状況に応じて行動の選択肢を検討した上で、ゲームアクションにどのように反応するかを指示されます。行動の選択肢には、近づく、離れる、ファイアボール、メガパンチ、ハリケーン、メガファイアボールなどがあります。
動画では、戦闘が滑らかに展開され、プレイヤーたちはカウンター、ブロック、必殺技の使用を戦略的に行っている様子が見て取れます。しかし、執筆時点ではプロジェクトで使用できるのはケンのキャラクターのみで、バランスは完璧ですが、観る面白さは劣るかもしれません。
では、『ストリートファイターIII』の最強AIはどれでしょうか?Girard氏が実施したテストによると、OpenAIのGPT 3.5 Turboが、8つのLLMを対戦させた結果、その名にふさわしい勝者(ELO 1776)となりました。Amazonの幹部Banjo Obayomi氏による別の一連のテストでは、14のLLMが314の個別試合で対戦し、最終的にAnthropicのclaude_3_haikuが勝利しました(ELO 1613)。
興味深いことに、Banjo 氏は、AI 幻覚や AI 安全レールなどの LLM のバグ/機能が、特定のモデルの beat-em-up パフォーマンスの妨げになることがあることに気づきました。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
最後に、これは法学修士課程にとって有用なベンチマークとなるのか、それとも単なる興味深い気晴らしとなるのかという疑問が生じます。より複雑なゲームであれば、より有益な洞察が得られる可能性がありますが、結果の解釈はおそらくより困難になるでしょう。
マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることに情熱を注いでいます。