58
AlphaGo Zero、人間のデータなしでゼロから囲碁を学習

OpenAIは最近、AIエージェントの訓練に「セルフプレイ」メカニズムを用いることで、ニューラルネットワークが大幅に進化する一方で、複雑さも軽減されるという新たな発見を発表しました。OpenAIは、セルフプレイが将来AIの訓練において重要な役割を果たすようになると指摘しました。これは、AIが学習に大規模なデータセットを必要としなくなるだけでなく、AIが特定のスキルをより迅速に向上させ、習得できるようになるためです。

人間の介入なし

Alphabet傘下のDeepMindも自己対戦の実験を行っており、このメカニズムを用いてAlphaGoの新バージョン「AlphaGo Zero」を設計した。AlphaGo Zeroは、自身と対戦するだけで囲碁をゼロから学習できる。

以前のバージョンのAlphaGoは、何千ものアマチュアおよびプロの人間の対局の録画を「観察」することで囲碁を学習する必要がありました。最終的には、ほとんどの状況で最善の「勝ち手」を導き出し、どんな人間相手にもその手を使って対戦できるようになりました。しかし、以前のAlphaGoは、ほとんどの場合、人間の知識と経験によって制限されていました。新しいAlphaGoには、そのような制限はありません。

習得までのタイムライン

AlphaGo Zeroは当初、完全にランダムな手を打ちながら、同等の強さを持つ自身と対戦していました。このAIが人間のアマチュアレベルのプレイング、つまりできるだけ多くの石を獲得することだけを目指すレベルに達するまでには3時間かかりました。

20時間以内に、AlphaGo Zeroは、通常はプロ棋士だけが用いるような高度な戦術を学習しました。3日目には、AlphaGo Zeroは、昨年イ・セドルに5局中4局で勝利した初代AlphaGoのレベルに既に達していました。

その後、今年初めに柯潔を3-0で破った時のレベルに到達するまで21日かかりました。当時、柯潔はAlphaGoを「囲碁の神」と呼んでいました。

40日目には、AlphaGo Zeroは初代AlphaGoの最高峰版に100勝0敗で勝利しました。この時点で、人間がAlphaGo Zeroに勝つことはまず不可能だと言っても過言ではありません。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

オリジナルのAlphaGoとの違い

AlphaGoの最初のバージョンには、正しく動作するように手作業で設計された機能がいくつか含まれていました。新しいAlphaGo Zeroは、白と黒の石のみを認識し、それらを盤上のどこにでも動かすことができます。

さらに、初代AlphaGoは2つのニューラルネットワークを採用していました。1つは「ポリシーネットワーク」で、次の手を選択するためのネットワークです。もう1つは「バリューネットワーク」で、各局面からゲームの勝者を予測するネットワークです。AlphaGo Zeroではこの2つが統合されており、より効率的なトレーニングが可能になっています。

また、AlphaGo Zeroは「ロールアウト」を使う必要がないようです。これは、既存の局面から開始される高速でランダムな対局であり、エージェントがその時点で最善の一手を計算できるようにしたものです。AlphaGo Zeroは、あらゆるシナリオにおいて最善の一手を、自身のニューラルネットワークの知能に頼って判断するだけです。

AlphaGoの最初のバージョンは176基のGPUで動作し、TDPは40,000W(40kW)でした。最新バージョンでは、トレーニングに必要なTensor Processing Unit(TPU)はわずか4基です。この大幅な効率向上は、AlphaGoの動作アルゴリズムの変更と、最新のTPUが旧型のNvidia GPUよりもはるかに効率的であることの両方によるものです。

数千年分の知識が数日で得られた

AlphaGo Zeroは、人間が習得するのに数百年、数千年かかるスキルを、AIが数日、あるいは数週間で習得できるレベルに到達したことを示しました。DeepMindは、この種の技術が人間の創意工夫を何倍にも高める可能性があると考えています。

同様の技術は、タンパク質の折り畳み、エネルギー消費の削減、革新的な新薬や新素材の探索にも応用できる可能性があります。これらはすべて、最終的には社会に大きなプラスの影響を与える可能性があります(特にDeepMindがAIを制御できればなおさらです)。

ルシアン・アルマスは、Tom's Hardware USの寄稿ライターです。ソフトウェア関連のニュースやプライバシーとセキュリティに関する問題を取り上げています。