イーロン・マスク氏らが設立したAI研究の非営利団体OpenAIは、AIエージェントにいくつかの基本的なゲームでいくつかの目標を与え、互いに対戦させて勝利を目指す実験を行ってきました。チームは、この実験によりAIエージェントがタックル、ダッキング、フェイク、キック、キャッチ、ダイブといった身体能力をすべて自力で学習していることを発見しました。
競争的なセルフプレイ
OpenAIは、AIエージェントのこの種のトレーニングを「競争的セルフプレイ」と呼んでいます。この非営利団体は、シミュレーションされた3Dロボット間で様々な競技を設定し、対戦相手を土俵から押し出す、土俵の反対側に到達しながら対戦相手が同じようにできないようにする、対戦相手がボールをネットに蹴り入れないようにする、といった目標を与えました。
エージェントは当初、立ち上がったり前進したりするといった単純な行動に対して、高密度の報酬を受け取ります。これらの報酬は徐々にゼロに減少し、プレイしているゲームの勝敗のみに報酬が与えられるようになります。各エージェントのニューラルネットワークポリシーは独立して学習されます。
相撲ゲームでは、エージェントは最初は土俵を探索することで報酬を得ますが、最終的には相手を土俵から押し出すことでのみ報酬を得ます。このような単純なゲームでは、仮想エージェントにこれらすべてを行うように「プログラム」することも可能ですが、コードははるかに複雑になり、すべてを正しく行うかどうかはデザイナーに大きく依存することになります。
しかし、これらの新しいAIシステムでは、エージェントは何千回も自分自身の改良版と対戦することで、目的を達成するために何をすべきかをほぼ独力で理解できるようになりました。OpenAIは今年初めに同様の戦略を用いてDotaのAIを訓練し、最終的にDotaのトッププレイヤーに勝利しました。
転移学習
AIエージェントは特定のゲームや環境を習得するだけでなく、あるゲームで得た知識やスキルを別のゲームに応用することも可能です。OpenAIチームは、風を経験したことのない2種類のAIエージェントに対し、「風」の力をテストすることにしました。1つのAIは古典的な強化学習を用いて歩行を訓練し、もう1つのAIは相撲格闘ゲームでの自己対戦を通して訓練しました。
最初のAIは風に倒れましたが、2つ目のAIは逆方向に押すスキルを駆使し、風に抵抗して立ち続けることができました。これは、AIエージェントがそのスキルを他の類似のタスクや環境に応用できることを示しました。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
当初、エージェントは特定の対戦相手に厳密に適合したポリシーを共学習することで過学習を起こし、異なる特性を持つ対戦相手と対戦すると失敗していました。OpenAIチームは、エージェントを異なる対戦相手と対戦させることでこの問題を解決しました。この場合の「異なる」とは、エージェントが並行して訓練されたポリシー、または訓練プロセスの初期段階で得られたポリシーを使用していたことを意味します。
OpenAIは、セルフプレイが将来の強力なAIシステムの中核となるという確信を強めています。同グループは、このプロジェクトで使用されたMuJoCo環境と学習済みポリシーを公開し、他のユーザーがこれらのシステムを用いて独自の実験を行えるようにしました。また、OpenAIは現在、セルフプレイシステムの開発に興味のある研究者を募集していることも発表しました。
ルシアン・アルマスは、Tom's Hardware USの寄稿ライターです。ソフトウェア関連のニュースやプライバシーとセキュリティに関する問題を取り上げています。