インテルは2ヶ月前にイスラエルのハイファで開催されたイベントで、新型Nervanaニューラルネットワークプロセッサ(NNP-I)の概要を発表しました。NNP-Iは改良型10nm Ice Lakeプロセッサで、M.2ポート(そう、通常はストレージ用に使用されるM.2ポートです)に差し込むPCB上に搭載されます。本日、インテルはHot Chips 31で、この設計のさらなる詳細を発表しました。Hot Chips 31は、主要半導体ベンダーが最新のマイクロアーキテクチャを発表する最高の場です。
インテルは、「AI Everywhere」戦略に基づき、急成長を遂げるAI市場におけるプレゼンスを高めるため、様々な取り組みを進めています。同社の幅広いアプローチには、GPU、FPGA、カスタムASICなどが含まれており、AI分野の様々な課題に対応しています。オブジェクト認識、音声翻訳、音声合成ワークロードなど、複雑なニューラルネットワークを構築する計算集約型のトレーニングタスク向けに設計されたソリューションに加え、トレーニング済みのモデルを推論と呼ばれるプロセスで軽量コードとして実行するためのソリューションも提供しています。
IntelのSpring Hill Nervana推論向けニューラル・ネットワーク・プロセッサ(NNP-I)1000(以下、NNP-Iと表記)は、データセンターにおける軽量な推論ワークロードに対応します。このチップは標準のM.2デバイスに搭載できるほど小型で、マザーボードの標準M.2ポートに挿入することで、Xeonサーバーの推論負荷を軽減し、より大容量のチップを一般的なコンピューティングタスクに割り当てます。先日ご紹介したように、トレーニング向けニューラル・ネットワーク・プロセッサ(NPP-T)は、トレーニングワークロード向けのIntelのNervanaソリューションとして採用されていますが、両デバイスの基盤となるアーキテクチャは大きく異なります。
スプリングヒル原子力発電所-I
Intelは10nm Ice Lakeダイを改良し、2つの演算コアとグラフィックエンジンを削除して、12個の推論演算エンジン(ICE)を搭載しました。ユニット間のハードウェア同期機能を備えたICEアクセラレータは、Sunny Coveマイクロアーキテクチャを採用した2つのIAコアとコヒーレントファブリックと24MBのL3キャッシュを共有しています。
IAコアは標準的なIce Lakeコアで、畳み込みニューラルネットワークを高速化するAVX-512およびVNNI命令をサポートしています。また、完全統合型電圧レギュレータ(FIVR)がコンポーネントに動的に電力を供給し、最もアクティブなオンダイユニットにより多くの電力を割り当てます。ダイには2つのLPDDR4Xメモリコントローラが搭載されており、オンパッケージメモリに接続されています。オンパッケージメモリは、M.2 PCBの左下に単一のコンポーネントとして表示されています。これらのコントローラは最大4.2 GT/s(68 GB/s)のスループットを提供し、インバンドECCをサポートしています。
IntelはLPDDR4の容量や、M.2デバイスに関するその他の詳細情報をまだ公開していません。Intelがこのパッケージを、上図のM.2バージョンのような様々な形態のアドインカードに搭載していることは分かっています。これらのアドインカードは、サーバーマザーボードの標準M.2ポートに差し込むことも、標準PCIeスロットに差し込む大型のアドインカードに差し込むこともできます。GoogleのTPUのようなAI向けに設計されたカスタムシリコンとは異なり、このデバイスはほぼすべての既存の最新サーバーとハードウェア互換性があります。このアプローチはスケーラブルでもあり、特に複数のM.2ポートを備えたPCIeライザーカードを使用すれば、必要に応じてNNP-Iをサーバーに追加できます。
このデバイスは、PCIe 3.0 x4またはx8インターフェースを介してホストと通信しますが、NVMeプロトコルは使用しません。代わりに、標準的なPCIeデバイスとして動作します。Intelは、推論「ジョブ」をアクセラレータに完全に移動させるソフトウェアを提供し、作業が完了するとXeon CPUに通知します。このオフロードにより、Xeonと他の種類のアクセラレータ間のPCIeバスを介した通信が不要になります。この通信は割り込みを生成し、データの移動を必要とするため、CPUに負担をかけます。一方、NNP-Iは、処理に必要なデータにアクセスするための独自のI/Oアコモデーション(PCH)を備えた自己完結型システムとして動作します。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
このデバイスは10Wから50Wまでの様々な電力エンベロープをサポートしており、これがパフォーマンスに影響を与えます。M.2インターフェースの15W制限は、標準M.2ソケットに接続されたデバイスへの電力供給を妨げますが、大型のアドインカードに搭載されたNNP-Iは最高のTDP定格で動作できるため、はるかに高いパフォーマンスを提供します。INT8動作時のTOP/sは48から92です。設定されたTDPに応じて、ダイはワットあたり2~4.8TOP/sの効率を提供しますが、この指標にはパッケージ全体の電力は含まれていません。
推論コンピューティングエンジンの内部
ICEエンジンを詳しく調べてみると、各ICEユニットに4MBのSRAMが追加されていることがわかります。これは、実際の計算処理よりも電力と時間の面で常にコストがかかるダイ内データ移動を削減するのに役立ちます。Deep Learning Compute Gridは、データおよび制御ファブリックを介してSRAMとVP6 DSPに接続されたテンソルエンジンです。このDSPエンジンは、固定機能のDL Compute Grid向けに特別に調整されていないアルゴリズムにも使用できます。また、他のコードはIce Lakeコア上でVNNIを使用して実行できるため、デバイス上で複数のモデルを同時に実行でき、急速に進化するAI分野に必要な前方互換性も多少は確保されています。
DL Compute GridはFP16とINT8に対応していますが、AIアルゴリズムの将来の調整に備えてINT4、2、1もサポートするように設計されています。驚くべきことに、bfloat16はサポートしていません。右下の表に示すように、ICEユニット間のワークロード分散を調整することで、ファブリックは帯域幅またはレイテンシのいずれかを最適化することができます。
画像
1
の
2

ここでは、4D並列計算能力を最大限に引き出すために柔軟に設計されたDL Compute Gridと、ベクトル処理に使用されるTensilica Vision P6 DSPのクローズアップ画像をご覧ください。Tensilica DSPエンジンは、INT8、INT16、INT32、FP16をサポートするワイドVLIWマシンです。このエンジンは完全にプログラマブルで、DL Compute Gridとの双方向パイプラインを備えており、ハードウェア同期された2つのユニット間で高速にデータを転送します。
スプリングヒルメモリサブシステム
メモリサブシステムに焦点を戻すと、各コンピューティングユニットの設計決定の背後にある多くの合理化が明らかになります。ここでは、ハードウェア制御のL3キャッシュが8つの3MBスライスに分割され、AIコアとICEユニットで共有されていることがわかります。この設計は、4つの異なるレイヤーによって、データをコンピューティングエンジンに可能な限り近づけるように最適化されています。
グラフの左側にある一連のブロックは、メモリ階層の各層をデータ転送する際のレイテンシヒットを定量化したものです。DRAMからDL Compute Gridへのデータ転送を基準とすると、階層の各層がエンジンにデータをどれだけ高速に転送できるかがわかります。L3キャッシュからのアクセスはDRAMの10倍高速ですが、DL Compute Gridに保存されたデータは1000倍高速です。
まとめると、階層型設計により、Xeonは複数の異なるタイプのニューラルネットワークをデバイスにオフロードすることができ、各層は一定レベルの精度をサポートします。また、上記のピラミッドはワットあたりのパフォーマンスに基づいて配置されていることにもお気づきでしょう。
画像
1
の
3

Intelは、チップを10WのTDPに設定し、ResNet50を毎秒3,600推論で実行した際のパフォーマンスデータを公開しました。これはワットあたり4.8 TOP/sの効率に相当し、同社の設計目標を満たしています。注目すべきは、このチップは低いTDP範囲でより高い効率を発揮するため、高パフォーマンス設定では効率が変化する可能性があるということです。また、これらの数値はASICのみに適用され、M.2デバイス全体の消費電力は含まれていません。Intelは、今後さらに多くのパフォーマンスデータを公開する予定だと述べています。
IntelはNNP-Iのアクセラレータに合わせてコードをカスタマイズするコンパイラを提供しており、開発期間中に同社の「定義的」パートナーであったFacebookと協力し、Gloコンパイラがデバイスにも対応できるようにしています。また、このデバイスはPyTorchやTensorFlowなど、多くの標準言語をほとんど、あるいは全く変更を加えることなくサポートしています。Intelは、推論にXeonを扱える人なら誰でもNNP-Iを使用できると主張していますが、上級プログラマーは階層型アーキテクチャ向けに深く最適化できると主張しています。
推論アプリケーションはデータセンターにおけるトレーニングよりもはるかに普及しており、手頃な価格で電力効率の高いデバイスがハイパースケーラーやクラウドサービスプロバイダー(CSP)に大量に販売されることが見込まれます。つまり、これはインテルにとって収益性の高いセグメントになる可能性があります。同社はこれらのデバイスが直接小売販売されることを想定していませんが、将来的にはCSPがクラウドベースのインスタンスを通じてこれらのデバイスを公開することを期待しています。
インテルはすでにNNP-Iのさらに2世代を開発中です。年末までに量産を開始する予定で、NNP-Iはすでにサンプル出荷されています。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。