58
セレブラス第2世代ウエハスケールチップ:2.6兆個の7nmトランジスタ、85万個のコア、15kWの電力

画像

1

10

ウェーハスケールエンジン2
(画像提供:Cerebras)

世界最大の単一プロセッサであるWafer Scale Engine(WSE)を開発するCerebras社は、本日、Linley Spring Processor Conferenceにおいて、最新のWSE-2の詳細を発表しました。新しいWSE-2は、Cerebrasのオリジナルチップを7nmプロセスでアップデートしたもので、85万個のコアを搭載し、AIワークロードに対応するように設計されています。Cerebras社によると、高さ26インチという非常に小型のユニットに収められたこのチップは、数百キロワットもの電力を消費する数十台のサーバーラックに分散配置された数百、あるいは数千のGPUクラスターを置き換えることができるとのことです。

新型WSE-2は、2兆6000億個のトランジスタを搭載した46,225平方ミリメートルのシリコン上に、85万個のAI最適化コアを搭載しています。Cerebrasは本日、第2世代チップが40GBのオンチップSRAMメモリ、20ペタバイトのメモリ帯域幅、そして220ペタビットの集約ファブリック帯域幅を備えていることも発表しました。また、消費電力は前世代と同じ15kWですが、パフォーマンスは2倍に向上しています。これは、前世代チップで使用されていた16nmから、より高密度な7nmノードに移行したことによるメリットです。 

Cerebras ウェーハスケールエンジン 2 WSE-2 仕様

スワイプして水平にスクロールします

行0 - セル0セレブラス ウェーハスケールエンジン 2セレブラス ウェーハスケールエンジンエヌビディアA100
プロセスノードTSMC 7nmTSMC 16nmTSMC 7nm N7
AIコア85万40万6,912 + 432
ダイサイズ46,255 mm246,255 mm2826 mm2
トランジスタ2.6兆1.2兆540億
オンチップSRAMメモリ40GB18GB40MB
メモリ帯域幅20PB/秒9PB/秒1,555 GB/秒
ファブリック帯域幅220 ペタビット/秒100 ペタビット/秒600 GB/秒
消費電力(システム/チップ)20kW / 15kW20kW / 15kW250W (PCIe) / 400W (SXM)

この信じられないほどのスペックは、TSMCの7nmウェハを丸ごと1枚の大型チップに使用し、現代のチップ製造における一般的なレチクルの制約を回避してウェハサイズのプロセッサを製造しているという事実に由来しています。同社は冗長コアをハードウェアに直接組み込むことで、欠陥のあるコアを無効にする余裕を持たせ、製造工程における欠陥の影響を回避しています。

同社は、ウェハ上のダイを通信ファブリックでつなぎ合わせ、1つの大きなユニットとして動作させることでこの偉業を達成しました。このファブリックにより、WSE2は220ペタビット/秒のスループットを実現し、これは第1世代モデルの100ペタビット/秒の2倍強に相当します。また、ウェハには最大20ペタバイト/秒のスループットを提供する40GBのオンチップメモリ​​も搭載されており、どちらも前世代のWSEの2倍以上です。 

画像

1

10

ウェーハスケールエンジン2
(画像提供:Cerebras)

CerebrasはWSE-2のクロック速度を具体的に公表していませんが、以前、第1世代WSEはそれほど「アグレッシブ」なクロック(同社では2.5GHzから3GHzの範囲と定義)で動作しないと述べていました。現在、WSE-2は第1世代モデルと同じクロック速度で動作しますが、システムリソースの増加により、同じ消費電力で2倍のパフォーマンスを実現しているとのことです。CPU、GPU、あるいはほとんどのアクセラレータでは、このような世代交代によるパフォーマンスの向上は見られません。Cerebrasは、パフォーマンス向上のためにマイクロアーキテクチャに非公開の変更を加えたと述べています。

下図のように、コアはタイルに分散されており、各タイルには独自のルーター、SRAMメモリ、FMACデータパス、テンソル制御が備わっています。すべてのコアは2Dメッシュの低レイテンシファブリックを介して接続されています。同社によると、これらの最適化により、第1世代のウエハースケールチップで使用されたのと同じコードとコンパイラを使用してBERTスタイルのネットワークトレーニングを完了した場合、ウォールクロックトレーニング時間が2倍に短縮されたとのことです。 

画像

1

4

ウェーハスケールエンジン2
(画像提供:Cerebras)

これまでと同様に、このチップは、ウエハースケールデバイス特有の特性に対応するよう特別に設計された専用の15Uシステムに収められています。第一世代のCS-1システム(詳細はこちら)からの変更点は、新しいCS-2バリアントではごくわずかだと聞いています。消費電力やWSEのサイズといった最も重要な指標が変わっていないことを考えると、システムの大部分が同一であることは理にかなっています。

セレブラスは価格を明示していませんが、WSE-2ユニットは核モデリングを含む様々な用途で軍や諜報機関の注目を集め続けると予想されます。ただし、セレブラスは顧客の一部を(当然の理由で)公表できません。彼らはほぼ無制限の予算を持つ企業だと想定されるため、価格は問題ではありません。一般向けには、アルゴンヌ国立研究所が最初のシステムを癌研究やブラックホール研究などの基礎科学研究に使用しています。

Cerebras社はまた、同社のコンパイラは容易にスケーリングでき、計算能力を2倍にまで引き出せるため、既存のソフトウェアエコシステムをサポートできると指摘しています。そのため、WSE-2ユニットは、同社のソフトウェアツールとAPIを用いて容易に変更可能な標準的なPyTorchおよびTensorFlowコードを受け入れることができます。また、同社は顧客がチップへの命令レベルでのアクセスも提供しており、これはGPUベンダーとは対照的です。

セレブラスはすでに稼働中のシステムを保有しており、WSE-2の一般提供は2021年第3四半期に予定されている。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。