1
Intel Habana Gaudi2はNvidiaのA100を上回る性能を持つとされる

インテルは水曜日、Habana Labs製ディープラーニングプロセッサGaudi2の性能結果を、主要なディープラーニングベンチマークであるMLPerfで公開しました。第2世代Gaudiプロセッサは、現在販売されている主要な競合製品であるNVIDIAのA100コンピューティングGPU(80GB HBM2Eメモリ搭載)と比較して、トレーニング時間において最大3倍の性能を発揮しました。インテルの発表では、Gaudi2がNVIDIAのH100 GPUと比較してどの程度の性能を発揮するかは示されていませんが、次世代チップに対するインテル独自の性能目標の一部が示されています。 

「ResNet-50の場合、Gaudi 2は、A100-80GBのNvidiaの提出と比較してトレーニング時間が36%大幅に短縮され、ResNet-50とBERTの両方の結果に提出されたA100-40GB 8アクセラレータサーバーで引用されたDellの提出と比較して45%の短縮を示しています」とIntelの声明には記されている。 

画像

1

2

インテル
(画像提供:Intel)

Gaudi と比較して 3 倍のパフォーマンス向上

IntelのHabana Gaudi2のパフォーマンス結果を見る前に、Gaudiが実際にどのようなものなのかを簡単におさらいしておきましょう。Gaudiプロセッサは、Matrix Multiplication Engine(MME)とプログラマブルTensor Processor Core(TPC、各コアは基本的に256ビットVLIW SIMD汎用プロセッサ)クラスターを搭載したヘテロジニアスシステムオンチップ(SoC)で、FP32、TF32、BF16、FP16、FP8形式のデータ処理が可能です(FP8はGaudi2のみサポート)。さらに、Gaudiは独自のメディアエンジンを搭載し、ビデオデータとオーディオデータの両方を処理できます。これは、ビジョン処理にとって非常に重要な要素です。

インテル

(画像提供:Intel)

オリジナルのHabana GaudiはTSMCのN16製造プロセスを使用して製造されていましたが、新しいGaudi2はN7ノードで製造されており、IntelはTPC数を8個から24個に増やし、FP8データフォーマットのサポートも追加しました。実行ユニット数とメモリ性能の向上により、オリジナルのGaudiと比較してパフォーマンスを3倍に高めることができますが、この馬力向上の要因は他にもある可能性があります。一方で、他の制約(例:VLIWコアのスレッドディスパッチャ、メモリサブシステムの帯域幅、ソフトウェアのスケーラビリティなど)もある可能性があります。

Gaudi2プロセッサのコンピューティングコアには合計48MBのSRAMが搭載され、メモリサブシステムには96GBのHBM2Eメモリが搭載され、ピーク帯域幅は2.45TB/sです(これは、700WでSXM構成で約3TB/sのメモリ帯域幅を提供するNvidiaの次期H100と関連付けられる数少ない数値の一つです)。このチップの汎用性をさらに高めるため、24個の100GbE RDMA over Converged Ethernet(RoCE2)ポートを備えています。 

仕様に記載されていないのは、FLOPS と電力だけです (これらは Mezzanine OAP カードなので、最大 560W であると想定します)。

A100と比較して2倍のパフォーマンス向上

インテルは、新しいGaudi2ディープラーニングプロセッサのベンチマークテストを実施するために、MLPerfベンチマークのコンピュータービジョン(ResNet-50)モデルと自然言語処理(BERT)モデルを使用しました。インテルは、Xeon Scalable 8380 CPU 2基とGaudi2プロセッサ(メザニンカード)8基を搭載したHabana氏のマシンを、第1世代Gaudiを搭載した市販サーバー、およびDellとNvidiaのA100 80GB/40GB搭載サーバー(GPU 8基搭載)と比較しました。結果は現在、ML Commonのデータベース(詳細、コード)に掲載されています。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Intel は、Nvidia A100 搭載システムのパフォーマンス結果はすぐに使用できるマシンで得られたものであり、Gaudi 搭載サーバーのパフォーマンスは「特別なソフトウェア操作なし」で達成されたものであり、「Habana の顧客がすぐに使用できる商用ソフトウェア スタックとは異なる」ものであることを強調しています。 

「トレーニングのスループットは、NGCとHabanaのパブリックリポジトリから取得したTensorFlowドッカーを用いて算出しました。ベンダー推奨の最適なパフォーマンスパラメータ(両方とも混合精度を使用)を採用しています」と説明には記されています。「トレーニング時間のスループットは、結果として得られるトレーニング時間の収束に影響を与える重要な要素です。」 

私たちが扱っているのはインテルの Habana Labs によって取得されたパフォーマンス数値 (常にある程度疑ってかかるべき) であることに留意する必要がありますが、インテルが 自社の Habana Gaudi2 ディープラーニング プロセッサとその競合製品の実際の (つまり、最終的には検証可能な) パフォーマンス数値を公開したことも評価すべきです。 

インテル

(画像提供:Intel)

実際、コンピュータービジョン(ResNet-50)モデルに関しては、IntelのGaudi2は学習時間においてNvidia A100システムの2倍の性能を発揮します。もちろんソフトウェア設定は多少異なりますが(アーキテクチャが異なるため当然のことですが)、ここでは単一のモデルを扱っているため、Intelはこれは公平な比較であると主張しています。

インテル

(画像提供:Intel)

自然言語処理に関しては、A100マシンと比較して1.8倍から3.0倍のパフォーマンス向上が見込まれます。この優位性の一部は、Gaudi2に組み込まれたIntelの業界をリードするメディア処理エンジンによるものです。しかし、Gaudi2に搭載されている内部帯域幅とコンピューティング能力、そしてSynapseAIソフトウェアの優位性(Intelが直近数四半期でPyTorchとTensorFlowのサポートにもたらした優位性も念頭に置いてください)が、ここでの重要な部分を担っているようです。 

スケールアウト

Intel が ML Common のデータベースに提出したもの (まだ公開されていない) の中には、Habana の顧客が利用できる商用ソフトウェア スタックに利用できる Gaudi2 プラットフォームの並列スケールアウト機能を実証する 128 および 256 アクセラレータ構成のパフォーマンス結果がありました (このチップには 24 個の 100GbE RDMA ポートがあり、さまざまな方法で拡張できることに注意してください)。

インテル

(画像提供:Intel)

Intel が ML Common のデータベースに提出したもの (まだ公開されていない) の中には、Habana の顧客が利用できる商用ソフトウェア スタックに利用できる Gaudi2 プラットフォームの並列スケールアウト機能を実証する 128 および 256 アクセラレータ構成のパフォーマンス結果がありました (このチップには 24 個の 100GbE RDMA ポートがあり、さまざまな方法で拡張できることに注意してください)。

アムダールの法則によれば、1つのチップ内で1つの実行コアを超えてパフォーマンスをスケーリングできるかどうかは、チップ内レイテンシやソフトウェア速度、相互接続速度など、多くの要因に左右されます。GPU開発者は長らくこの法則を否定してきました。スケールアウト機能に関しては、IntelのGaudi2は膨大なI/O性能を活かして、既存のAIモデルを凌駕しています。一方、IntelはAMDとNvidiaベースのソリューションが同じケースでどのように動作するかを明らかにしていません(テンソル演算の方がスケールアップしやすいと推測すべきではないでしょうか?)。  

「Gaudi2は、最新のMLPerf結果で実証されているように、リーダーシップトレーニングにおいて明確なパフォーマンスを発揮します」と、Habana Labsの最高執行責任者であるエイタン・メディナ氏は述べています。「私たちは、ディープラーニングトレーニングのアーキテクチャとソフトウェアの革新を継続し、最もコスト競争力の高いAIトレーニングソリューションを提供していきます。」 

いくつかの考え 

IntelのHabana 8-way Gaudi2 96GB搭載ディープラーニングマシンのパフォーマンス結果は、Nvidiaの8-way A100 DLシステムと比較しても、間違いなく驚異的です。同じプロセスノードで競合製品を2倍も上回るのは、控えめに言っても驚異的です。しかし、この競合製品は発売から2年しか経っていません。 

しかし、これは消費電力を考慮していないため、消費電力は不明です。IntelのGaudi2 OAMカードは、ボードあたり最大560W(スパーク時)と想定されるに過ぎません。しかし、これはGaudi2のような製品を導入する人にとってはほとんど参考にならない指標です。 

IntelのGaudi2システムパートナーには現在、DDNとSupermicroが含まれています。DDNの性質上、ここではAI対応ストレージソリューションについて言及しています(これはIntelのPDFであることをご承知おきください)。Supermicroについては言及のみしています。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。