2
インテル、ビジョン2024でGaudi 3の詳細を発表 ― 新しいAIアクセラレーター、現在パートナーにサンプル提供、第3四半期に量産開始
インテル ガウディ 3
(画像提供:Intel)

インテルは本日開催されたVision 2024イベントで、新製品Gaudi 3 AIプロセッサの詳細を含む多数の発表を行いました。インテルによると、このプロセッサは市場をリードするNvidiaのH100プロセッサと比較して、最大1.7倍のトレーニング性能、50%の推論性能、40%の効率性を実現しながらも、大幅に低価格を実現しています。また、インテルはデータセンター向けCPUポートフォリオの新ブランドも発表し、Granite RapidsとSierra Forestチップを新しい「Xeon 6」ファミリーとしてブランド化しました。これらのチップは今年中に市場投入される予定で、パフォーマンスを向上させる新しい標準化されたMXFP4データフォーマットのサポートが追加されます。MXFP4データフォーマットの詳細については、こちらをご覧ください。

Intelはまた、Ultra Ethernet Consortium準拠のネットワーク向けAI NIC ASICと、将来のXPUおよびGaudi 3プロセッサで使用されるAI NICチップレットを開発中であり、Intel Foundryを通じて外部の顧客にも提供可能になると発表しましたが、これらのネットワーク製品に関する詳細は明らかにしませんでした。 

Intel Gaudi 3 の仕様

インテルのGaudi 3は、2019年にインテルがHabana Labsを20億ドルで買収したことで生まれたGaudiアクセラレータの第3世代です。Gaudiアクセラレータは、2024年第3四半期にOEMシステム向けに量産開始され、一般提供が開始される予定です。また、インテルはGaudi 3システムを自社のDeveloper Cloudで提供し、見込み顧客がチップを迅速にテストするための基盤を提供します。

画像

1

8

インテル ガウディ 3
(画像提供:Intel)

Gaudiには2つのフォームファクタがあり、OAM(OCPアクセラレータモジュール)HL-325Lは、高性能GPUベースシステムによく見られるメザニンフォームファクタです。このアクセラレータは128GBのHBM2e( HBM3Eではありません)を搭載し、3.7TB/sの帯域幅を提供します。また、200Gbps Ethernet RDMA NICを24個搭載しています。HL-325L OAMモジュールのTDPは900W(液冷方式のため、より高いTDPも可能)で、FP8性能は1,835TFLOPSです。OAMはサーバーノードごとに8個ずつグループ分けされ、最大1,024ノードまで拡張可能です。

Intel は、Gaudi 3 は前世代と比べて FP8 が 2 倍、BF16 が 4 倍のパフォーマンスを実現し、ネットワーク帯域幅が 2 倍、メモリ帯域幅が 1.5 倍になっていると主張しています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

OAMは、8つのOAMを収容するユニバーサルベースボードに搭載されます。Intelは、今年後半の一般提供開始に向けて準備を進めており、既にパートナー企業にOAMとベースボードを出荷しています。HLB-325ベースボードでOAMを8つに拡張すると、FP8の性能は14.6 PFLOPSに達し、メモリ容量や帯域幅など、その他のすべての指標は線形に拡張されます。

Intelは、TDP 600WのGaudi 3 PCIeデュアルスロットアドインカードも提供しています。このカードは128GBのHBMeEと24枚の200Gbps Ethernet NICを搭載しており、Intelによると、デュアル400Gbps NICはスケールアウトに使用されているとのことです。Intelによると、このPCIeカードのFP8ピーク性能はOAMと同じ1,835TFLOPSで、TDPが300W低いことを考えると興味深い結果です(ただし、長時間のワークロードには耐えられない可能性があります)。ただし、4台で動作するように設計されているため、ボックス内でのスケーリングはより制限されています。Intelによると、このカードはスケールアウトしてより大規模なクラスターを構築することもできるとのことですが、詳細は明らかにされていません。

Dell、HPE、Lenovo、SupermicroがGaudi 3の発売に合わせてシステムを提供します。Gaudiの空冷モデルはすでにサンプル出荷されており、液冷モデルも第2四半期にサンプル出荷される予定です。これらのモデルはそれぞれ2024年第3四半期と第4四半期に一般提供(量産)される予定です。PCIeカードも第4四半期に提供開始予定です。

画像

1

4

インテル ガウディ 3
(画像提供:Intel)

Gaudi 3 は、前世代と同じアーキテクチャと基礎となる基本原理を活用していますが、Intel が Gaudi 2 アクセラレータに使用している TSMC 7nm ノードよりも高度な TSMC 5nm プロセスを採用しています。

OAM設計は、中央に2つの5nmダイを搭載し、96MBのSRAMを2つに分割することで、12.8TB/sの帯域幅を実現しています。ダイの両側には、合計128GBのHBM2Eパッケージが8つ配置され、最大3.7TB/sの帯域幅を実現します。2つのダイ間の高帯域幅インターコネクトにより、両方のダイに存在するすべてのメモリにアクセスできるため、単一のデバイスとして認識され、動作します(少なくともソフトウェアに関しては、レイテンシは変動する可能性があります)。Gaudi 3は、ホストプロセッサ(CPU)との通信用にx16 PCIe 5.0コントローラも搭載しており、CPUとGaudiアクセラレータの比率を自由に選択できます。

コンピューティングは、64個の第5世代Tensorプロセッシングコア(TPC)と8個の行列演算エンジン(MME)によって処理され、2つのエンジン間のワークロードはグラフコンパイラとソフトウェアスタックによってオーケストレーションされます。Gaudi 3チップパッケージには、スケールアップ(インボックス)とスケールアウト(ノード間)の両方の接続を提供する24個の200Gbps RoCEイーサネットコントローラーも搭載されており、Gaudi 2の100Gbps接続を2倍に拡張します。

Gaudi 3 のスケーラビリティ

画像

1

5

インテル ガウディ 3
(画像提供:Intel)

結局のところ、今日のAIトレーニングおよび推論ワークロードを支配する鍵は、アクセラレータを大規模クラスタにスケールアウトする能力にあります。IntelのGaudiは、迫り来るNvidiaのB200 NVL72システムとは異なるアプローチを採用しており、Gaudi 3アクセラレータ間に高速200Gbpsイーサネット接続を使用し、サーバーをリーフスイッチとスパインスイッチでペアリングしてクラスタを構成します。

Nvidiaのシステムレベルアーキテクチャは、PCIeインターフェースを介したNVLinkを、GPU間のインボックス接続と、NVLinkスイッチを介してパッシブ銅線ケーブルでラック全体を接続するために利用しています。AMDも独自のアプローチを採用しており、サーバー内のGPU間ではPCIeインターフェースとInfinity Fabricプロトコルを使用し、他のノードとの通信には外部NICを使用していますが、これはネットワークNICをチップに内蔵するIntelのアプローチよりもネットワークコストと複雑さが増します。

ネットワーク帯域幅が 2 倍になったことで、Gaudi 3 は 8 つの OAM Gaudi を備えた単一ノードから、8,192 の OAM デバイスを収容する最大 1,024 のノード (サーバー) を備えたクラスターまで拡張できるようになりました。

各サーバーは8台のGaudi 3アクセラレータで構成され、それぞれ21本の200Gbpsイーサネット接続を介して相互通信します。各デバイスの残りの3つのイーサネットポートは、リーフスイッチを介してクラスタとの外部通信に使用されます。スイッチはこれらの接続をOFSPコネクタを備えた6つの800Gbpsイーサネットポートに集約し、他のノードとの通信を容易にします。

各ラックには通常4つのノードが含まれますが、ラックの電力制限やクラスタのサイズによって異なる場合があります。最大16ノードが3つのイーサネットリーフスイッチで1つのサブクラスタを形成し、さらに大規模なクラスタを形成するために、リーフスイッチは通常64ポートのスパインスイッチに接続されます。800Gbpsリーフスイッチの64ポートのうち半分は16ノードに接続され、残りの半分はスパインスイッチに接続されます。

クラスタの規模に応じてスパインスイッチの数は異なります。Intelは、512ノード(Gaudi 4,096台)で構成される32個のサブクラスタに3台のスパインスイッチを使用する例を示しています。Intelによると、この構成では、すべてのサーバー間接続(ノンブロッキング・オールツーオール)に均等な帯域幅が提供されます。イーサネットスイッチをさらに1層追加することで、最大数万台のアクセラレータをサポートできます。

Gaudi 3のパフォーマンスとNvidia H100の比較

画像

1

10

インテル ガウディ 3
(画像提供:Intel)

IntelはGaudi 3のパフォーマンス予測を公開しましたが、ベンダーが提供する他のベンチマークと同様に、これらの情報は鵜呑みにしない方が良いでしょう。上のアルバムの最後の画像でわかるように、Intelはこれまで提供してきたテスト構成の詳細な行単位の情報ではなく、ベンチマークに関する情報を提供するQRコードのみを提供しています。このコードでは、テスト結果や構成の詳細を確認するための有効な手段がないため、これらのベンチマークに関する主張は鵜呑みにしない方が良いでしょう。

IntelはH100システムの公開ベンチマークと比較しましたが、実世界の比較データが不足しているため、NVIDIAの近日発売予定のBlackwell B200とは比較しませんでした。また、AMDの有望なInstinct MI300 GPUとの比較も提供していませんが、AMDは業界で認められているMLPerfベンチマークにおける公開パフォーマンスデータの公開を避け続けているため、これは不可能です。

インテルは、同様のクラスターサイズのH100と比較して、トレーニングワークロードと推論ワークロードの両方で多くの比較を提供しましたが、重要なのは、インテルがGaudiがトレーニングワークロードで1.5倍から1.7倍高速であると主張している点です。比較対象には、それぞれ8個と16個のGaudiを使用したLLAMA2-7B(70億パラメータ)モデルとLLAMA2-13Bモデル、そして8,192個のGaudiアクセラレータでテストされたGPT 3-175Bモデルが含まれており、いずれもFP8を使用しています。興味深いことに、インテルはここでNvidiaのH200とは比較していません。H200はH100よりもメモリ容量が76%、メモリ帯域幅が43%も優れています。

Intelは推論性能の比較においてH200との比較を行いましたが、スケールアウト性能をクラスターと比較するのではなく、シングルカードでのパフォーマンスに絞りました。ここでは、LLAMA2-7B/70Bワークロードのうち5つがH100 GPUを10~20%下回り、2つはH200と同等、1つはH200をわずかに上回るなど、ばらつきが見られます。Intelは、Gaudiのパフォーマンスは出力シーケンスが大きいほど向上すると主張しており、Falconの1800億パラメータモデルで2,048バイトの出力を持つ場合、Gaudiは最大3.8倍のパフォーマンスを発揮します。

インテルはまた、推論ワークロードにおいて消費電力が最大2.6倍優れていると主張している。これは、データセンターの厳しい電力制限を考慮すると重要な考慮事項だが、トレーニングワークロードに関する同様のベンチマークは提供していない。これらのワークロードについて、インテルはパブリックインスタンスで単一のH100をテストし、H100の消費電力(H100によって報告されたもの)を記録したが、単一ノードまたはより大規模なクラスターでの推論の例は提供していない。より大きな出力シーケンスでは、インテルはパフォーマンスが向上し、ひいては効率が向上すると主張している。

Gaudi 3 ソフトウェアエコシステム

画像

1

5

インテル ガウディ 3
(画像提供:Intel)

CUDAにおけるNVIDIAの優位性が示すように、ソフトウェア・エコシステムはハードウェアと同様に重要な考慮事項です。Intelはエンドツーエンドのソフトウェア・スタックを誇示し、「ほとんど」のエンジニアが現在サポート強化に取り組んでいると述べています。Intelは現在、マルチモーダル学習・推論モデルとRAG(検索拡張生成)のサポートに注力しています。

Hugging Faceは60万以上のAIモデルチェックポイントを提供しており、IntelはHugging Face、PyTorch、DeepSpeed、Mosaicとの連携によりソフトウェア移植プロセスが簡素化され、Gaudi 3システムの導入にかかるターンアラウンドタイムが短縮されたと述べています。Intelによると、ほとんどのプログラマーはフレームワークレベル以上(つまり、PyTorchを使い、Pythonでスクリプトを作成)でプログラミングを行っており、CUDAを用いた低レベルプログラミングは認識されているほど一般的ではないとのことです。

Intelのツールは、基盤となる複雑さを抽象化しながら移植プロセスを簡素化するように設計されており、OneAPIがカーネルと通信ライブラリとして機能します。これらのライブラリは、CUDAの代替となることを目的とした、Arm、Intel、Qualcomm、Samsungなどを含む業界コンソーシアムであるUnified Accelerator Foundation(UXL)が策定した仕様に準拠しています。PyTorch 2.0は、Intel CPUおよびGPUを用いた推論と学習にOneAPIを使用するように最適化されています。Intelによると、OpenVinoも急速な普及を続けており、今年に入ってすでに100万回以上ダウンロードされています。

考え

前述の通り、Intel、Nvidia、AMDはそれぞれ異なるアプローチで、AIトレーニングと推論ワークロードの両方のパフォーマンスの鍵となる、強化されたクラスタースケーラビリティを提供しています。それぞれのアプローチには独自の強みがありますが、Nvidia独自のNVLinkは最も成熟し、確立されたソリューションであり、ラックスケールアーキテクチャへの拡張性は大きな利点です。一方で、Intelのイーサネットベースのネットワークアプローチは、複数ベンダーのネットワークスイッチをサポートすることで豊富なカスタマイズオプションを提供するオープンソリューションを実現しています。また、内蔵NICは、競合するAMDのInstinct MI300シリーズよりもコスト面で優位性があります。 

しかし、NVIDIAのGraceベースの製品とAMDのMI300Aはどちらも、一部のワークロードでは他に類を見ないほど高度なCPU+GPU統合パッケージを提供しています。一方、IntelはFalcon ShoresのCPU+GPU統合版を中止したため、CPUとアクセラレータを別々に提供し続けています。NVIDIAの新しいGB200 CPU+GPUサーバーが同社のBlackwell受注の大部分を占めているとの報道もあり、こうした緊密に連携した製品に対する業界の旺盛な需要が浮き彫りになっています。

インテルの将来のFalcon Shores製品はAIアクセラレーターのみの設計となるため、GPUのみを搭載したNVIDIAやAMDのクラスターと競合できるでしょう。また、Gaudi 3のリフレッシュ世代では、HBM2EからHBM3/Eに移行する余地もあると考えられます。AMDとNVIDIAはどちらも、AI製品に高速メモリを採用しています。具体的なデータは公開されていませんが、インテルは価格面でも積極的に競争する計画があると述べており、NVIDIAがGPUの需要急増による供給不足に苦しんでいる中、これは強力な戦略となる可能性があります。

Falcon ShoresはGaudi向けに最適化されたコードとも互換性があり、前方互換性も確保されます。Intelはまた、過去数四半期でGaudi 2プラットフォームが3倍に改善されたことを、プラットフォームの採用拡大の一例として挙げています。 

注目すべきは、Intel がイベントで Ponte Vecchio GPU を宣伝しなかったことですが、これは次世代 Rialto Bridge GPU のキャンセルを考えれば驚くことではありません。そのため、来年の Falcon Shores の発売に向けて、同社の AI の取り組みは Gaudi 3 のみに集中すると予想されます。

空冷式のGaudi 3モデルはすでにパートナー企業向けにサンプル出荷中で、第3四半期に一般提供開始予定です。液冷式モデルは第4四半期に発売予定です。詳細についてはIntel Visionのウェブキャストを注視しており、必要に応じて更新いたします。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。