インテルは、Hot Chips 31において、待望のSpring Crestディープラーニング・アクセラレータの詳細を発表しました。Nervana Neural Network Processor for Training(NNP-T)は、24個のプロセッシングコアと、32GBのHBM2メモリを搭載した新しいデータ転送方式を採用しています。270億個のトランジスタが688mm²のダイに分散配置されています。また、NNP-TにはインテルのライバルであるTSMCの最先端技術も搭載されています。
これに対し、Intelは多角的なアプローチを開発し、主導権を握り続けています。計算負荷の高いトレーニングワークロードは、物体認識、音声翻訳、音声合成といったワークロードを実行する複雑なニューラルネットワークを構築し、軽量な推論コードとして展開されます。Xeonプロセッサは広く普及しているため、計算負荷の低い推論ワークロードでは依然として最適なプラットフォームとなっていますが、Intelは、依然としてNVIDIA GPUが得意とするトレーニングワークロードに対処するための複数のソリューションを開発しています。
Nvidiaは、GPUがあらゆるAIおよび機械学習の究極のソリューションであると主張していますが、Intelはワークロードの種類ごとに異なるソリューションが存在すると主張しています。Intelのトレーニングに対する答えの一部は、近日発売予定のXeグラフィックス・アーキテクチャとAlteraベースのFPGAで実現されますが、同社はトレーニングワークロード向けにカスタムビルドされたNervanaシリコンの新製品ラインも開発中です。
画像
1
の
2

Spring Crestディープラーニング・アクセラレータ、別名Intel Nervana Neural Network Processor for Training (NNP-T)が登場します。どう考えても長すぎる名前ですが、ここではNNP-Tに絞って説明します。
この新しいアクセラレータは、IntelによるNervana買収の成果であり、基本的なチップアーキテクチャを根本的に見直し、トレーニングワークロードに特化してカスタマイズしたものです。さらに重要なのは、Nervanaアーキテクチャはワークロードを複数のカード、さらには複数のシャーシにスケールアウトできるように設計されており、この設計に基づくラックスケールアーキテクチャも将来的には実現可能となる可能性があることです。ニューラルネットワークの規模と複雑さが拡大し続ける中で、データセンターのアーキテクトは、従来の単一のアクセラレータを最初の測定単位とするパラダイムとは対照的に、シャーシをコンピューティング測定の最初の単位として考えるようになっているため、この設計哲学は重要です。
Intelによると、モデルの爆発的な規模拡大(約5ヶ月ごとに倍増)と複雑性への対応は、メモリ容量/スループットと演算能力の向上だけでは不十分です。これら2つの軸は、データセンターにおける経済性の究極の尺度である電力効率を重視した効率的なアーキテクチャと組み合わせる必要があります。また、データトラバーサルに伴う電力オーバーヘッドを削減するために、最適化された通信システムにも重点を置く設計が必要です。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
NNP-T SoCアーキテクチャ
ここで、Intelがこれらの課題に対する最善のアプローチを見出しています。688mm 2 NNP-Tダイは、TSMCの16nm CLN16FF+プロセスで製造されています。IntelプロセッサにTSMCプロセスを採用するのは少し直感に反するかもしれませんが、NervanaはIntelに買収される前に、既に第1世代Lake Crest設計をTSMCの28nmプロセッサでテープアウトしており、これらの設計ルールとTSMCのIPを引き続き使用することで、現世代Spring Crest製品への移行を加速させることができました。Intelは次世代モデルでもTSMCとの提携を継続しますが、電力制御やスキューイング技術など、自社IPをより多くアーキテクチャに組み込み、同社が「IntelとNervanaの最高の融合」と呼ぶものを生み出します。
この設計にはTSMCの最新技術が数多く採用されています。NNP-Tダイの両脇には、8GBのHBM2-2400スタック(ピンあたり2.4GB/秒)が4つ配置され、これらはすべて巨大な1200mm²のシリコンインターポーザー上に搭載されています。ダイとHBMスタックは、TSMCのCoWoS(Chip-on-Wafer-on-Substrate)インターコネクトによって接続されています。CoWoSは、マイクロバンプを用いてダイをパッシブシリコンインターポーザーに接続し、その後、シリコン貫通ビア(TSV)を備えたパッケージ基板に接合するマルチチップパッケージング技術です。その結果、3325ピンBGAインターフェースを備えた60×60mmのパッケージが実現しました(つまり、ソケット型プロセッサではありません)。
これはインターポーザーがパッシブであるため2.5Dパッケージング技術に分類されますが、アクティブインターポーザー(ベースダイ上のアクティブロジック)を備えた同様の設計は3Dパッケージングの定義に該当します。一方、個々のHBM2スタックは真の3D実装(4Hi)です。TSMCのCoWoSは、パッケージ基板に埋め込まれたシリコンブリッジを使用するIntel独自のEMIB(Embedded Multi-die Interconnect Bridge)パッケージングと競合します。
4つのHBM2スタックをフル活用するには、1レーンあたり28GB/秒(合計3.58Tbps)をサポートする64本のSerDesレーンが必要でした。これらのレーンはダイ上のHBM PHY/メモリコントローラにデータを供給し、コントローラは270億トランジスタのダイ全体に配置された24個のTensorプロセッサ(TPC)にデータをルーティングします。TCPには、ダイ全体に分散配置された60MBのSRAMも搭載されています。また、管理用CPUと、IPMI処理、I2Cなどのインターフェース、そして16レーンのPCIe Gen 4.0専用のダイ領域も設けられています。
このチップは1.1GHzで動作し、空冷構成では150~250Wの消費電力を誇ります。将来的には水冷化によってさらに高いパフォーマンスを実現できる可能性があります。NNP-Tは、強化された冷却機能と接続性(ここではカード背面のQFSPネットワークポートとして表示)により、OCPアクセラレータモジュール(OAM)メザニンカードフォームファクタ(現在はハイブリッドキューブメッシュ)で提供されます。OCPカードはハイパースケールデータセンターで急速に普及していますが、NNP-Tは従来のPCIeカードフォームファクタもサポートしています。
データ入力、データ出力
これほど驚異的なメモリスループットを利用できるからといって、必ずしも常に使用すべきというわけではありません。これは主に、データ移動は消費電力とトラバーサル時間の点で、一般的にコンピューティングよりもコストがかかるためです。そのため、データ移動を最小限に抑えることは、Nervanaアーキテクチャの重要な理念です。
Tensor Processing Cores を詳しく見てみると、同時に読み書き可能な複数のデュアルポートメモリバンクと、メモリからデータを読み出し、畳み込みフィルタを用いて変換することで行列乗算を実行できる畳み込みエンジンが見つかります。演算処理は赤いブロックで行われ、複合パイプラインが乗算前の前処理と、最終積に対する複数の演算をサポートします。このエンジンは同時に2つの演算を出力し、前処理と後処理の両方を同時に提供します。これにより、計算パイプラインを介した連続的なデータ移動の必要性が最小限に抑えられます。Intel はまた、制御パスに小型マイクロコントローラ (uController) を直接組み込み、カスタム命令によってマイクロコントローラ内のサブルーチンをトリガーして特定の演算を実行できるようにしています。
各 TPC には 4 つの高速バスがあり、そのうち 2 つは HBM2 メモリ専用で、残りの 2 つは他の TPC との通信を処理します。
TPCには60MBのSRAMが分散配置されています。TPCはオンダイネットワークに接続されており、双方向2Dメッシュアーキテクチャで構成されています。このネットワークは独立したバスを備えており、TPC間のデータ移動を可能にするだけでなく、HBM2メモリサブシステムにアクセスすることなくダイ外にデータを移動することも可能です。これにより、1回の操作でHBMへの複数回のアクセスを必要とする、読み取り負荷の高いニューラルネットワークでよく見られるメモリのボトルネックが緩和され、コアを最大限に活用できないという問題が解消されます。
Intelはダイの大部分を、ダイとの間の膨大な帯域幅(総断面帯域幅2.6Tbps)を提供するネットワークスキームに割り当てています。メッシュアーキテクチャは、制御、メモリ、ダイ間、クラスタ間通信(色付きの矢印で示されています)用の異なるネットワークで構成されています。このような複雑なネットワークでは、スループットを最大化し、輻輳を回避するために、高度なルーティングとQoS(サービス品質)制御が必要です。当然のことながら、Nervanaの従業員の多くはネットワーク技術に深い経験を持っており、これがソフトウェアで直接制御される送受信アーキテクチャの構築に役立っています。
生の計算能力
画像
1
の
4

結局のところ、メモリとネットワークサブシステムのパフォーマンスを最大化することは、データ量の多いテンソルワークロード中にコアを最大限に活用するのに役立ちます。ここでは、NNP-Tのコンピューティングコアに焦点を当てています。これらのコアは、各TPC内に2つずつ配置されています。コンピューティングコアは、bFloat16行列乗算、FP32、BF16など、主要な演算をサポートしています。Intelは、主に競合アーキテクチャがこの指標で苦戦しているため、小さなメッセージサイズでのコア使用率パフォーマンスデータと、さまざまなGEMMサイズのディープラーニングワークロードにおけるシングルチップパフォーマンスを公開しました。使用率は競合製品よりもはるかに優れていると主張していますが、ベンダーが提供するすべてのベンチマークと同様に、最終的な判断はサードパーティの分析を待つ必要があります。
大規模なパフォーマンス
大規模モデルを複数のシャーシに分散配置することは必須であり、NNP-Tはシャーシ間、さらにはラック間でもスイッチを介さずにグルーレスに拡張できるように設計されています。ネットワークは非常に高い帯域幅と低レイテンシを念頭に設計されており、50億、80億、あるいはそれ以上のパラメータにまで拡張可能な大規模モデルを処理できるアーキテクチャとなっています。
画像
1
の
3

Intel は、一般的な送受信の通信帯域幅パフォーマンス データも公開しましたが、データ転送間の計算を必要とする Allreduce および Broadcast の測定値も公開し、シャーシ内から他のシャーシへの線形スケーリングを強調しました。
同社はまた、異なるメッセージサイズにおけるレイテンシ指標も提供しており、2KBという小さなメッセージサイズでは優れたレイテンシ特性が得られ、8MBのメッセージサイズまで安定したスケーリングが可能であることが示されています。繰り返しますが、これはステップ間の計算を伴う実際のワークロードで測定されたレイテンシであり、リンク上の時間のみを考慮した標準的なパフォーマンス測定とは異なります。Intelによると、これらのテストはAステッピングのシリコンで実施されましたが、最終製品に搭載されるBステッピングではさらに優れたパフォーマンスが期待されています。
このアーキテクチャは、NNP-T 8基ずつで1024ノードまでのスケーリングをサポートしていますが、スケーリングと効率的なスケーリングは全く別の問題です。Intelはより広範なスケーリング効率のテスト結果をまだ公開していませんが、このアーキテクチャは256カードまで、あるいはそれ以上まで十分にスケーリングできると言われています。
プログラミングモデル
インテルは、フレームワークとハードウェアバックエンドを接続するオープンソースのnGraphライブラリとコンパイラによって、ソフトウェアの複雑さの大部分を抽象化することを目指しています。インテルは、Paddle Paddle、Pytorch、TensorFlowフレームワークと連携しています。
画像
1
の
2

ティア1の顧客はハードウェアへの低レベルアクセスを、より幅広い顧客はカーネルライブラリを利用できるようになります。Intelは今後1年間で独自の高レベルプログラミング言語を公開し、顧客が独自のカーネルを作成できるようにする予定です。ここでの主な目標はシンプルさです。複雑さは最終的にダイ面積を消費するからです。そのため、カスタムISAはかなりシンプルになり、ダイ面積を乗算器とメモリに集中させることができます。Intelはディープラーニングプリミティブ用の専用命令も提供しています。
ナーヴァーナNNP-T出荷日
インテルは、年末までにNNP-Tのサンプルを最先端の顧客に提供し、最初はティア1クラウドサービスプロバイダーに特化し、その後、2020年を通じてより広範な市場にカードを開放すると述べている。インテルは、最終製品に搭載されて出荷されるBステッピングシリコンをすでにラボで稼働させており、今後4か月間にさらなるアップデートが予定されていると述べている。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。