36
サミット・スーパーコンピュータでアメリカのスーパーコンピューティングの覇権を取り戻す

オークリッジ国立研究所の新しいスーパーコンピュータ「Summit」は、世界最速になると予想されており、これにより米国は最速スーパーコンピュータTop500リストで中国を抜いて再び首位に返り咲くことになるだろう。SuperComputing 2017において、IBMはSummitのバックボーンとして機能するPower Systems AC922サーバーノードのデモを行った。

サミットは2018年にオンラインになる予定で、その目標は世界最速のスーパーコンピューターである中国の93ペタフロップス「Sunway TaihuLight」だ。

Summitは、Sunwayの性能を2倍以上に向上させ、約200ペタフロップスを実現します。Sunway TaihuLightが世界第2位のスーパーコンピュータより約60ペタフロップスも上回っていることを考えると、これは驚異的な成果と言えるでしょう。

スーパーコンピューティングは、業界全体と同様に、AI中心のワークロードへと進化しています。SummitのGPU搭載設計は、特にこの役割に適しており、AIワークロードで最大3エクサフロップスのパフォーマンスを提供します。

サミットノード内部

Summitは、前身のTitanと比べて5~10倍の性能を約束していますが、より小さなフットプリントにはるかに多くのパワーを詰め込んでいます。Titanは18,688ノードを搭載していましたが、Summitは「わずか」約4,600ノードでTitanを凌駕します。この性能はノード性能の向上によるもので、Summitはノードあたり40テラフロップス以上を実現するのに対し、Titanは1ノードあたり1.4テラフロップスでした。

これらすべてのパワーを単一ノードに詰め込んだのは、IBMの水冷式Power Systems AC922ノードです。各ノードには、IBM POWER9プロセッサー2基とNVIDIA Volta GV100 GPU 6基が搭載されています。また、合計512GBのコヒーレントDDR4とHBM2(高帯域幅メモリー)に加え、1,600GBの不揮発性RAMも搭載されています。

画像

1

6

スーパーコンピュータは並列計算と、CPU、GPU、メモリ、ネットワーク間でのデータ移動が重要なため、Summit は極めて広い帯域幅の多数のレイヤーを提供します。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

このシステムは96レーンのPCIe 4.0を搭載しており、理論上の最大スループットが400Gb/sのデュアルポートMellanox EDR InfiniBandアダプターに最適です。IBMの実測スループットは392Gb/sで、これはPCIe 3.0アダプターの2倍の帯域幅に相当します。

Volta GV100はPCIe 3.0とNVLink 2.0を介して接続します。NVLinkインターフェースは、CPUからGPU、GPUからGPUへのトラフィックで100GB/秒のスループットを提供します。GPUはデュアルメッシュ設計で配置されています。

興味深いことに、IBMはCORALのSierraスーパーコンピュータに搭載される4基のGPU搭載モデルも製造しています。4基搭載モデル(上記アルバムの最後の写真)は、GPU/CPU間通信速度が150GBpsを誇ります。GPU数が減ることで、IBMはCPUとGPUにより多くのリンク(NVLink用語では「ブリック」)をプロビジョニングできるようになり、スループットが向上します。

POWER9プロセッサーには8つのメモリチャネルがあり、サーバーあたり合計16チャネルで340GB/秒の帯域幅を提供します。各Summitノードは最大2TBのDDR4-2666メモリを搭載します。

Summitの250PBストレージプールは、IBMのGPFS(General Parallel File System)を採用し、4,600ノード全体に2.5TB/秒の帯域幅を提供します。各ノードには1,600GBの不揮発性RAMが搭載されており、バーストバッファとして機能します。このバッファは、リモートのプライマリストレージプールに転送する前に、バーストデータを吸収します。これにより、各ノードのスループット割り当ての制限を回避できます。   

エヌビディア ボルタ GV100

各Summitノードには、6基のNvidia GV100 GPUが搭載されています。これらのGPUについては、「NvidiaのVoltaを詳しく見る」の記事で解説しているので、詳細はそちらをご覧ください。簡単に言うと、Volta GV100は、TSMCの12nm FFNプロセスで製造された210億個のトランジスタを搭載した、815mm²巨大なVoltaダイを搭載しています。さらに、HBM2が4スタック(合計16GB)搭載されています。NvidiaはこのGPUに、80個のアクティブ化されたSM(5,120個のCUDAコア)を搭載して出荷しています。 

画像

1

5

Summitノードは、GPUとCPUのどちらからもアクセスできる最大2TBのコヒーレントメモリを搭載しているため、帯域幅は重要な要件となります。NVIDIAはGV100の底面に2つのメザニンコネクタを搭載しています。1つのコネクタは電源を供給し、PCIeおよびサイドバンドトラフィックに対応し、もう1つのコネクタはNVLink 2.0接続専用です。NVLinkは独立したインターフェースで、PCIe 3.0 x16接続の6倍の帯域幅を提供します。IBMのPOWER9プロセッサーには、プロセッサーにNVLink 2.0接続が統合されています。  

Voltaパッケージは1Vをわずかに下回る電圧で平均300Wの電力を消費するため、ダイには300A以上の電流が流れます。そのため、強力な冷却ソリューションが必要です。ノード内の他の主要なコンピューティングコンポーネントと同様に、GV100も水冷式です。この写真から、3つのGV100を束ねたブリッジがウォーターブロックに接続している部分(スプリング付きファスナーの横)と、その頑丈なウォーターブロックの穴が確認できます。

IBM POWER9プロセッサー

AIワークロードはコンピューティングの大部分をGPUに移行しますが、CPUは依然としてデータ処理と移動のクォーターバックとして機能します。IBMのPOWER9は、この役割に非常に適しています。IBMのPOWER9-SO(スケールアウト)プロセッサは、Global Foundriesの14nm FinFETプロセスに基づいて構築され、80億個のトランジスタを誇ります。この巨大なダイには巨大なCPUパッケージが必要であり、標準サイズの名刺でその詳細を説明しています。このプロセッサは最大24個のコアを搭載し、96個のスレッドを実行します。各コアは4つのスレッドを並列に実行します(SMT4)。12コアモデルはコアあたり8つのスレッドを実行します(SMT8)。

画像

1

9

各プロセッサは、192GB/秒のデュプレックス帯域幅を提供する 48 レーンの PCIe 4.0 を提供し、8 つのメモリ チャネルは、120GB/秒の持続帯域幅でソケットあたり最大 4TB の DDR4-2666 メモリをサポートします。 

このプロセッサは、120MB の共有 L3 eDRAM キャッシュ (2 つのコアのグループ間で 10MB のブロックを共有) を備え、コアあたり最大 256GB/秒のスループットを実現します。

このプロセッサは、ダイに統合されたNVIDIAのNVLink 2.0とCAPI 2.0もサポートしています。キャッシュ、メモリ、PCIe、NVLinkトラフィックなどはすべてプロセッサを通過するため、強力なファブリックが必要です。IBMは、このプロセッサに7TB/秒のオンチップファブリックを搭載しました。 

頂上に到達する

Summitスーパーコンピュータの消費電力は15MWで、これは中国のSunwayと同程度です。Titanの9MWから大幅に増加していますが、性能の飛躍的な向上を考慮すると、驚くほど効率的です。Summitには拡張の余地があり、施設全体の電力予算は20MWです。Summitスーパーコンピュータ全体は、バスケットボールコート2面分ほどのスペースを占有し、総延長136マイル(約210km)のケーブルを必要とします。

このシステムは2018年に配備される予定で、ダークホース的な参入がない限り、米国は再びスーパーコンピューティングのリーダーの座に返り咲くはずだ。  

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。