84
CerebrasがGPUを圧倒、単一デバイスでトレーニングしたAIモデルの記録を更新

現存する世界最大のアクセラレータチップ「CS-2 Wafer Scale Engine」を開発するセレブラス社は、画期的な成果を発表しました。世界最大のNLP(自然言語処理)AIモデルを単一デバイスで学習させたのです。それ自体には様々な意味がありますが(例えば、従来の最大モデルをスマートウォッチで学習させたのであれば、それほど大きな記録にはならないでしょう)、セレブラス社が学習させたAIモデルは、驚異的な、そして前例のない200億パラメータへと到達しました。しかも、ワークロードを複数のアクセラレータにスケーリングする必要はありませんでした。これは、インターネットで話題の、テキストから画像を生成するOpenAIの120億パラメータDALL-Eを搭載するのに十分な数です。

Cerebrasの成果の中で最も重要なのは、インフラストラクチャとソフトウェアの複雑さの要件を軽減したことです。確かに、CS-2システム単体でもスーパーコンピュータに匹敵します。その名の通り、7nmのウェハ1枚にエッチング加工されたWafer Scale Engine-2は、通常数百個の主流チップに十分な容量で、約15kWの消費電力を誇るパッケージに、驚異的な2兆6000億個の7nmトランジスタ、85万個のコア、そして40GBの統合キャッシュを搭載しています。

セレブラス ウェーハスケールエンジン

セレブラスのウエハースケールエンジン2。ウエハーサイズの美しさを堪能できる。(画像提供:セレブラス)

最大200億パラメータのNLPモデルを1つのチップに収めることで、数千台のGPU(および関連するハードウェアとスケーリング要件)にわたるトレーニングコストのオーバーヘッドを大幅に削減できると同時に、モデルを複数のGPUに分割する際の技術的な困難も解消されます。Cerebras社によると、これは「NLPワークロードにおける最も厄介な側面の一つ」であり、「完了までに数ヶ月かかることもある」とのことです。

これは、処理対象となる各ニューラルネットワーク、各GPUの仕様、そしてそれら全てを結びつけるネットワークに固有の問題であり、最初のトレーニングを開始する前に事前に解決しておく必要がある要素です。また、システム間で移植することもできません。

セレブラス CS-2

CerebrasのCS-2は、Wafer Scale Engine-2だけでなく、関連する電源、メモリ、ストレージサブシステムもすべて含む自己完結型スーパーコンピューティングクラスターです。(画像提供: Cerebras)

純粋な数字だけを見ると、Cerebrasの成果は物足りないように思えるかもしれない。OpenAIのGPT-3は、人間の読者を騙すこともあるような記事全体を作成できる自然言語処理モデルだが、そのパラメータ数は驚異の1750億個に上る。昨年末にリリースされたDeepMindのGopherは、その数を2800億にまで引き上げている。Google Brainの頭脳陣は、1兆パラメータを超えるモデル「Switch Transformer」の学習を発表している。

「NLPでは、モデルが大きいほど精度が高くなることが示されています。しかし従来、これらの大規模モデルを分割し、数百、数千のグラフィックス・プロセッシング・ユニットに分散させるという骨の折れる作業に必要なリソースと専門知識を持つ企業は、ごく少数しかありませんでした」と、Cerebras SystemsのCEO兼共同創設者であるアンドリュー・フェルドマン氏は述べています。「その結果、大規模なNLPモデルをトレーニングできる企業はごくわずかでした。これは、あまりにも高価で時間がかかり、業界の他の企業には手の届かないものでした。本日、私たちはGPT-3XL 1.3B、GPT-J 6B、GPT-3 13B、GPT-NeoX 20Bへのアクセスを民主化できることを誇りに思います。これにより、AIエコシステム全体が数分で大規模モデルをセットアップし、単一のCS-2でトレーニングできるようになります。」 

画像

1

21

CS-2
(画像提供:Cerebras)

しかし、世界最高峰のCPUのクロック速度と同様に、パラメータの数はパフォーマンスを示す指標の一つに過ぎません。最近では、より少ないパラメータでより良い結果を得るための研究が行われています。例えば、Chinchillaはわずか700億個のパラメータでGPT-3とGopherの両方を常に上回っています。目指すのは、より賢く働くことであり、より一生懸命働くことではありません。そのため、Cerebrasの成果は一見する以上に重要です。たとえ同社が自社のシステムが「数千億、あるいは数兆ものパラメータ」を持つモデルをサポートできると謳っていても、研究者はますます複雑なモデルに適合できるようになるはずです。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

利用可能なパラメータ数の爆発的な増加は、CerebrasのWeight Streaming技術を活用しています。この技術は、コンピューティングとメモリのフットプリントを分離し、AIワークロードで急増するパラメータを保存するために必要なメモリ容量に合わせて拡張することを可能にします。これにより、セットアップ時間を数ヶ月から数分に短縮し、GPT-JやGPT-Neoなどのモデルを数回のキー操作で」簡単に切り替えることができます。

Intersect360 Researchのチーフ・リサーチ・オフィサーであるダン・オールズ氏は、「Cerebrasは、大規模な言語モデルをコスト効率よく容易に一般公開できるという点で、AIの新たな時代を切り開きます。数千万ドルを投じることができない組織にも、メジャーなNLPへの容易かつ低コストな導入手段を提供します」と述べています。「CS-2のお客様がGPT-3およびGPT-Jクラスのモデルを大規模なデータセットで学習する際に、どのような新たな応用や発見が生まれるのか、非常に興味深いところです。」

Francisco Pires 氏は、Tom's Hardware のフリーランス ニュース ライターであり、量子コンピューティングに関心を持っています。