24
世界最大のチップが新たな場所へ:セレブラスCS-1システム内部

Cerebras Systemsは、Supercomputing 2019で新型システムCS-1を発表しました。同社は今年初めのHot ChipsでWafer Scale Engine(WSE)を発表しており、このチップは驚異的であると同時に驚異的です。世界最大のチップであり、40万個のコア、1兆2000億個のトランジスタ、46,225平方ミリメートルのシリコン、そして18GBのオンチップメモリ​​を、ウェーハ一枚分の大きさのチップに詰め込んでいます。さらに、このチップは15kWの消費電力と9PB/sのメモリ帯域幅を備えており、紛れもなく世界最速のAIプロセッサの完成形と言えるでしょう。

このチップの開発は極めて複雑な作業でしたが、大規模導入に適したシステムで、そのすべての計算能力、そしてもちろん冷却能力を十分に供給するのは全く別の問題でした。セレブラスはそれを成し遂げ、本日、このシステムを公開し、アルゴンヌ国立研究所が既に採用していることを発表しました。また、システム内部の詳細な回路図も提供してくれました。 

画像

1

4

(画像提供:cerebras)

システムの高さはわずか15ラックユニット(約26インチ)なので、1つのラックに3台を収容できます。その性能を考えると、これは信じられないほどコンパクトなパッケージです。CS-1システム1台分の性能に匹敵するには、ラック15台分と0.5メガワットの電力を消費する1,000GPUクラスターが必要になります。これは、単一のCerebrasチップが、単一のGPUと比較して78倍のコア数、3,000倍のメモリ、10,000倍のメモリ帯域幅を備えているためです。また、帯域幅(PB/秒)も33,000倍に上ります。 

(画像提供:Cerebras)

GoogleのTPU v3チップのポッドは100kWの電力を消費しますが、パフォーマンスはCS-1システム単体の3分の1しかありません。CS-1はTPUポッド全体の5分の1の電力消費と30分の1のサイズでありながら、3倍の速度を実現します。 

画像

1

9

(画像提供:Cerebras)

対照的に、Cerebras CS-1の消費電力は20kWで、そのうち4kWはファン、ポンプ、熱交換器などの冷却サブシステム専用です。システムはチップに15kWの電力を供給し、残りの1kWは電源効率の悪さによって失われています。 

システムの左上には12本の100GbE接続が並んでいます。これらのシステムは、従来型のコンピューティングを実行するより大規模なスーパーコンピュータと連携して動作します。スーパーコンピュータで処理されたデータはCS-1に送られ、追加のAI処理が行われます。これにより、異なるワークロードに対して両方のコンピューティングの長所が活用されます。また、このシステムはネットワークファブリックを介して多数のノードにスケールアウトできるため、CS-1システムはより大きなグループで動作できます。Cerebrasは「非常に大規模な」クラスタをテストしており、モデル並列またはデータ並列モードで単一の均質システムとして管理できますが、公式のスケーラビリティ指標は公開されていません。 

Cerebras CS-1全体はカスタムビルドのコンポーネントで構成されています。システムは12個の電源接続を介して背面から電力を取り込み、54Vを0.8Vに降圧してからチップに供給します。電力はマザーボードを迂回するのではなく、マザーボード内を流れ、プロセッサに送られます。プロセッサでは、不特定多数のコアが独立した領域にそれぞれ個別に電力供給を受けます。ウエハスケールのチップは、多数のダイがダイ上のネットワークファブリックで接続されて構成されていますが、電力供給はダイ/レチクルフラッシュよりもきめ細やかに行われるとのことです。これにより、ウエハ全体にわたって一貫した電力供給が保証され、オンチップの電力分配プレーンも最小限に抑えられます。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

画像

1

7

(画像提供:Cerebras)

「エンジンブロック」は前面に配置されています。これは、電源サブシステム、マザーボード、チップ、コールドプレートが一体化したサンドイッチ構造の設計です(左)。コールドプレートは右側のマニホールドから水を受け取り、冷却プレート表面の複数の個別ゾーンに冷却水を供給します。その後、均一な放熱を確保する小さなゾーンから再び加熱された水が排出され、ユニット下部の熱交換器へと送り込まれます。この熱交換器はEMIグリルで構成され、整流器を備えた強力なファンによって冷却されます。全体として、このチップは標準的なGPUの接合部温度の半分で動作するため、信頼性が向上します。 

6+6 電源、ヒートポンプ、ファン、熱交換器などのすべての個別ユニットは冗長化され、ホットスワップ可能であるため、ダウンタイムと障害を最小限に抑えることができます。 

このチップはTSMCの16nmプロセスで製造されています。同社は、その成熟度と製品リリースのスケジュールを考慮してこのプロセスを選択しました。Cerebrasはクロック速度を公表していませんが、このチップはそれほど「アグレッシブ」なクロック(同社では2.5GHzから3GHzの範囲と定義)で動作しないと述べています。同社は近日中に詳細を発表する予定です。 

画像

1

5

(画像提供:Cerebras)

セレブラス社はこのユニットの価格を明言していないものの、「数百万ドル」との情報を得ています。このユニットは、核モデリングを含む様々な用途で軍や諜報機関の注目を集めると予想されますが、セレブラス社は顧客の一部を(当然ながら)公表できません。彼らはほぼ無制限の予算を持つ企業であると考えられるため、価格は問題ではないでしょう。 

一般向けには、アルゴンヌ国立研究所が最初のシステムをがん研究やブラックホール研究などの基礎科学に活用しています。セレブラスは既にソフトウェアエコシステムを構築しており、同社のソフトウェアツールとAPIを用いて容易に変更可能な標準的なPyTorchおよびTensorFlowコードに対応しています。また、顧客がチップへの命令レベルでのアクセスも可能にしており、これはGPUベンダーとは対照的です。 

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。