スーパーコンピューティング 2017
もちろん、このカンファレンスには、最新のハイパフォーマンスコンピューティング技術がぎっしり詰まった広大な展示フロアも設けられています。私たちはコロラド州デンバーまで足を運び、このショーの光景と音を体感してきましたが、数え切れないほどの刺激的な製品とデモンストレーションに圧倒されました。中には、まさに驚愕すべきものもありました。それでは、詳しく見ていきましょう。
LiquidMIPS 浸漬冷却 Nvidia GTX Titan X
HPCワークロードは、高価な専用GPUに最適なAI中心のワークロードへと急速に移行していますが、高性能システムでは標準的なデスクトップGPUが使用されることも珍しくありません。LiquidMIPSは、HPCシステム向けにカスタム2相Flurinert液浸冷却システムを設計しています。同社は、2,000MHz(TDPの120%)にオーバークロックされたNvidia GeForce GTX Titan Xを展示し、57℃で安定動作させました。
スーパーコンピュータの冷却は、ベンダーが様々な方法で取り組んでいる課題です。液浸冷却には、主に放熱性とシステム密度において、いくつかの利点があります。簡単に言えば、様々な形態の液浸冷却を使用することで冷却能力が向上し、エンジニアはより多くの電力を消費するコンポーネントをより小さなスペースに収めることができます。さらに、空冷設計に比べて大幅なコスト削減につながる場合が多くあります。
LiquidMIPS のシステムは、机の上に置くには大きすぎますが、その用途により適している可能性のある他の液浸冷却システムをいくつか見つけました。
Nvidia Volta 移動ロードショー
AIの台頭はHPC業界に革命をもたらしています。NVIDIAのGPUは、同社が10年にわたりCUDAに投資してきたおかげで、スーパーコンピューターに最適なソリューションの一つとなっています。広く支持されている並列コンピューティングおよびプログラミングモデルは、業界で広く採用されています。
NVIDIAは、各デモ会場に「Volta Tour」と書かれた緑色のプラカードを設置。Tesla Volta GV100 GPUは、数え切れないほど多くのブースと企業で展示されていました。今回は特に興味深いシステムをいくつかピックアップしましたが、Voltaデモはあまりにも多すぎて全てを紹介することはできませんでした。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
Easy PEZY トリプルボルタ GV100 ブレード
PEZY Supercomputingはよく知られた名前ではないかもしれませんが、この日本企業の液浸冷却システムは業界に破壊的な影響を与えています。同社のZettaScaler-2.2 HPCシステム(Xeon-D)は、19ペタフロップスの演算能力を誇り、世界第4位の高速性を誇ります。
しかし、PEZYの真の目標は絶対的な最速ではありません。同社は、世界で最も電力効率の高いスーパーコンピューターのリストであるGreen500で上位3位を維持しています。同社のXeon-D搭載モデルは、最大17.009ギガフロップス/ワットの性能を発揮しますが、これは主に3MのFlurinert Electronic Liquidを使用した液浸冷却によって実現されています。
PEXYは、展示会で新しいZettaScaler-2.4ソリューションを展示しました。このシステムは、3基のNvidia Tesla V100-SXM2 GPUとIntel Skylake-F Xeonプロセッサを搭載した単一の「サブブリック」で構成されています。GPUは最大150GB/秒のスループットを提供する高速NVLink 2.0インターフェースを介して通信し、システムはIntelの100Gb/秒Omni-Pathネットワークを介して通信します。
さて、どうやって冷却するのか見てみましょう。
PEZY 浸漬冷却 Nvidia Volta GV100s
PEZYはGPUとプロセッサに標準ヒートシンクを装着し、液浸冷却タンクに沈めます。同社は6つの「サブブリック」をスロット付きキャニスターに挿入することで、完全な「ブリック」を構成します。1つのタンクには、288個のTesla V100を搭載した16個のブリックを収容できます。ブリックは4つのOmni-Path 48ポートスイッチを介して相互通信します。1つのタンクには4.6TBのメモリが搭載されています。
1つのタンクで、倍精度で2.16ペタフロップス、半精度で34.56ペタフロップスのピーク演算能力を発揮します。ホットスワップ可能なモジュールは、システムの他の部分が稼働している間でも、簡単に取り外してメンテナンスを行うことができます。PEZY搭載のスーパーコンピューターの中には、1つの部屋に最大26個のタンクを搭載しているものもあります。つまり、同社は比較的小さなスペースに7,488個のTesla V100と2,496個のIntel Xeonを搭載できるということです。
PEZY のよりエキゾチックなソリューションの 1 つ (そう、PEZY には他にもソリューションがあります) については、後ほどもう一度取り上げます。
AMDのEPYCが正式発表
AMDはSupercomputing 2016で革新的なEPYCプロセッサについて議論を始めましたが、今年ついにデータセンター市場におけるIntelの優位性に挑戦するに至りました。QualcommのCentriqやCaviumのThunderX2 ARMプロセッサなど、他の競合製品も台頭していますが、AMDはx86命令セットアーキテクチャ(ISA)の優位性を維持しています。つまり、AMDの製品はほとんどの一般的なアプリケーションやオペレーティングシステムでプラグアンドプレイに対応しており、導入が加速するはずです。
AMDのEPYCには、IntelのXeonよりもコアあたりの価格が低いにもかかわらず、豊富なコア数を誇るなど、他にも利点があります。また、全モデルで128レーンのPCIe 3.0を搭載しています。強力な接続オプションは、シングルソケットサーバーに最適です。AMDの賑やかなブースでは、EPYCが実現する様々なソリューションの好例を目にすることができました。
このシングルソケットサーバーは、2.5インチNVMe SSD用のPCIe 3.0 x4コネクタを24個搭載しています。これらのSSDはプロセッサーに直接接続されるため、HBAが不要になり、コスト削減につながります。NVMe SSDはPCIe 3.0レーンを96レーン使用しますが、システムには高性能ネットワークアダプターなどの追加機能に使用できる32レーンが残っています。これは、Intelのシングルソケットソリューションでは到底実現できないメリットです。
展示会場では、TyanやGigabyteなどのメーカーを含む多くのEPYCサーバーが展示されていました。AMDのEPYCは非常に好調な状況にあり、HPEが最近発表したProLiant DL385 Gen 10システムなど、来年はさらに多くのシステムが発表されると予想されます。Dell EMCも今年中にEPYC PowerEdgeサーバーを市場に投入する予定です。
Radeonの直感を信じよう
AMDは最近、HPCアプリケーション向けに3つのラインナップからなるInstinctの出荷を開始しました。NvidiaのVolta GPUはスーパーコンピューティングの話題をさらったかもしれませんが、市場投入からはかなり長い歴史があります。Mellanoxのブースでは、AMDのRadeon Instinct MI25が展示されていました。Vegaプロセッサーを搭載したMI25は、高負荷の計算負荷がかかるトレーニングワークロードに適しており、Polaris MI6とFiji MI8は推論などの比較的低負荷のワークロードに適しています。
AMDは同展示会で、オープンソースのプログラミングツールセットであるROCmの新バージョンのリリースも発表しました。バージョン1.7はマルチGPU環境をサポートし、人気のTensorFlowとCaffe機械学習フレームワークのサポートが追加されています。
AMD Radeon Instincts をBOXXに搭載
AMDのROCm 1.7リリースにより、MI25を単一シャーシにスタックすることがより容易になりました。BOXXは、8基のRadeon Instinct MI25をデュアルソケットサーバーに組み込んだソリューションを提供しています。AMDのEPYCプロセッサがホストに128本のPCIe 3.0レーンを提供しているのは偶然ではありません。AMDはディスクリートGPUとx86データプロセッサの両方を製造している唯一のベンダーであり、同社はこれが緊密に統合されたソリューションにおいて優位性をもたらすと考えています。
BOXX は最近、EPYC 16 コア/32 スレッド プロセッサを搭載した Apexx 4 6301 モデルをワークステーションのラインナップに追加しました。
雷が来るX2
Red Hat Linuxは先日、7年間の開発期間を経て、ついにARM版Red Hat Enterprise Linux(RHEL)をリリースしたと発表しました。この新しいLinuxは64ビットARMv8-AサーバークラスSoCをサポートし、業界におけるより広範な導入への道を開きます。そのため、Red HatのブースにHPEの新しいApollo 70システムが展示されていたのも当然のことでした。
Caviumの14nm FinFET ThunderX2プロセッサは、3.0GHzで動作する最大54コアを搭載しており、デュアルソケットノード1台で108コアの演算能力を発揮します。32C ThunderX2 SoCの最新のベンチマークは、英国ブリストル大学で「Isambard」スーパーコンピュータを開発しているチームによって実施されました。チームは8ノードクラスタを用いて、IntelのBroadwellおよびSkylakeプロセッサと性能比較を行いました。シングルソケットThunderX2システムは、OpenFOAMやNEMOなど、いくつかのテストにおいて高速であることが証明されました。
Gigabyteは新登場のThunderX2 R181サーバーを展示し、Bull/AtosとPenguinも最新のThunderX2製品を展示しました。Crayも、今年後半に発売予定のXC50スーパーコンピュータのデモを行いました。今後、最先端OEM各社からさらに多くのシステムの発表が期待されます。
IBMのPower9がSummitスーパーコンピュータの救出に
スーパーコンピュータTop500ランキングの首位争いは熾烈を極めており、オークリッジ国立研究所が新たに開発した世界最速スーパーコンピュータ「Summit」は、米国を中国に追い抜かせ、再び首位に返り咲かせると予想されています。Summitの最先端アーキテクチャの基盤を担うのは、IBM Power Systems AC922ノードです。Summitサーバーノードの内部を詳しく調べたところ、2基のPower9プロセッサーと6基のNvidia GV100プロセッサーがペアになっていることがわかりました。これらの高性能コンポーネントは、PCIe 3.0インターフェースとNVLink 2.0の両方を介して通信し、デバイス間で最大100GB/秒のスループットを実現します。
Summitは約200ペタフロップスの性能を発揮し、中国の(現在)トップの93ペタフロップスを誇るSunway TaihuLightシステムを容易に凌駕するはずです。最近の記事で筐体内部を詳しく調査しましたので、詳細はそちらをご覧ください。
クアルコムのCentriq 2400が登場
QualcommのCentriq 2400は、業界初の10nmサーバープロセッサの称号を主張していますが、Qualcommの10nmプロセスはIntelの14nmノードにおける集積度とほぼ同等です。Cavium ThunderX2と同様に、CentriqプロセッサはRed Hatが最近追加したARMアーキテクチャのサポートから大きな恩恵を受けています。ちなみに、Top500リストにランクインしているスーパーコンピュータはすべてLinuxで動作しています。
ハイエンドのCentriq 2460は、60MBのL3キャッシュを備えた64ビットARM v8準拠の「Falkor」コアを48個搭載しています。プロセッサダイの面積は398mm²で、 180億個のトランジスタを搭載しています。
このチップはベース周波数2.2GHzで動作し、ブースト時は最大2.6GHzまで動作します。驚くべきことに、この120Wプロセッサの小売価格はわずか1,995ドルです。Qualcommは46コアモデルと40コアモデルもそれぞれ1,373ドルと888ドルで提供しています。IntelのXeonプロセッサの推奨価格をざっと見れば、その価値が分かります。同等のプロセッサを購入するには10,000ドル以上の出費を覚悟してください。
ARMベースのプロセッサの重要なセールスポイントは、ワットあたりの性能とドルあたりの性能です。Qualcommは、このプラットフォームを市場に投入するために多数のパートナーと提携しており、最近のCloudflareベンチマークの結果を考慮すると、このプロセッサはIntelの最高級プロセッサと比べても非常に競争力があります。
現在のページ: ページ 1
次のページ 2ページ
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。