78
マイクロソフトがAIに「ミズ・パックマン」の倒し方を教えた

Ms. Pacmanは一見、難しそうなゲームには見えない。主人公を迷路に導き、ペレットを飲み込み、ゴーストの群れを避けるだけだ。しかし、そのシンプルさの裏には、AIが人間のような思考を学ぶのに驚くほど適した複雑なゲームが隠されている。少なくとも、マイクロソフトは本日、このゲームで最高スコアを獲得できるAIを開発したと発表した。

その理由は、同社がAIにミズ・パックマンをマスターさせる方法を教えるために、斬新なアプローチを採用したからです。150体の「エージェント」に、特定のペレットを食べる、ゴーストを避けるといった特定のタスクを与え、他のエージェントからのフィードバックに基づいて行動を決定する「トップエージェント」を生成しました。AIは、各エージェントの特定の目標を達成したいという欲求と、トップエージェントの最高スコア999,990点獲得というミッションのバランスを取りました。

トップエージェントは、特定の方向への移動を主張するエージェントの数だけでなく、その移動を強く望むエージェントの数も考慮します。例えば、100人のエージェントがペレットへの最善の経路として右へ移動したいと考えていたのに対し、3人のエージェントが右に危険な幽霊がいるため左へ移動したいと考えていた場合、幽霊に気づいて左へ移動したエージェントに重み付けが高くなります。

これは私たちの多くが考える方法と似ています。情報を収集し、その重要性を判断し、その判断に基づいて行動します。このスキルは、ミズ・パックマンのような名作を含む多くのゲームの鍵となります。画面上では常に多くのことが起こっているため、すべての刺激に反応することは不可能です。代わりに、手元にある情報に基づいて迅速な判断を下し、正しい選択をしたことを祈る必要があります。

このシステムは強化学習によっても学習されました。つまり、あらゆる行動に対して肯定的または否定的な反応が与えられ、最も肯定的な反応を得る方法を考え出すように指示されたのです。プロのプレイヤーがミス・パックマンにどうアプローチするかをAIに教える(教師あり学習と呼ばれるプロセス)のではなく、AIは自ら問題を解決しなければなりませんでした。(これは、子供に問題を解かせるのではなく、自分で解かせるようなものです。)

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

GoogleのAlphaGo開発と同様に、AIをミズ・パックマンの達人へと育てることは、Microsoftの最終目標ではありません。むしろ同社は、この実験から得られたアプローチは、スケジュール管理や自然言語処理の向上など、他のタスクをAIに学習させるのに活用できると述べています。同社はこの成果を「強化学習のためのハイブリッド報酬アーキテクチャ」と題した論文で発表しました。

この取り組みは、ゲームがAI研究にもたらす価値を浮き彫りにしています。ゲームの多くは私たちにとって自然にできますが、AlphaGoが囲碁をプレイしたように、あるいはMicrosoftのAIがミズ・パックマンをプレイしたように、コンピューターにゲームの遊び方を教えるのははるかに困難です。どちらのAIもそれを証明したように、AIがマスターする可能性は確かにありますが、その過程こそが最も刺激的な部分です。ゲームはまた、AIがどれだけ進歩してきたかを理解するのにも役立ちます。AIが猫を認識できるというだけでは感動しません。AIが誕生して間もなく、ゲームの遊び方を学習するどころか、ゲームを圧倒するのを見るのは、はるかに素晴らしいことです。

ナサニエル・モットは、Tom's Hardware US のフリーランスのニュースおよび特集記事ライターであり、最新ニュース、セキュリティ、テクノロジー業界の最も面白い側面などを扱っています。