42
インテルHabana Gaudiが視覚言語AIモデルでNvidiaのH100に勝利:Hugging Face
ガウディ2
(画像提供:Intel)

Vision-Language(VL)AIモデルであるBridgeTowerの新たな微調整パフォーマンスベンチマークは、AIアクセラレーション陣営にNVIDIAの優位性以外にも活力があることを示しました。NVIDIAはAIアクセラレーション市場を(優れた先見性、綿密に検討され文書化されたソフトウェアスタック、そして純粋な処理性能によって)支配していますが、他のプレーヤーもAI市場のシェアを獲得しようと躍起になっています。そして少なくともBridgeTowerに関しては、Intel独自のGaudi 2シリコン(Intelによる20億ドルの2019年のHabana買収を通じて設計・製造)が、Hugging Faceの調査でNVIDIAのA100 80GBを驚異の2.5倍、さらにはNVIDIAの天才児H100を1.4倍も上回る性能を示したことが示されています。

ビジョン・ランゲージ

Vision-Language(VL)とは、言語と視覚表現のモダリティを横断して情報を処理・関連付けることができるAIモデルを指します。特にVLモデルは、Open AIのCLIPやStable Diffusion XLなどの画像生成モデルと関連付けられることが多く、Midjourney、Stable Diffusion、そして現在ではIdeogramが牽引する急成長市場となっています。 

主なボトルネックは、CPUが画像のデコードや画像拡張(GPUのドローコールに関する議論と同様の問題)といった多くの高コストな処理に圧倒され、HPU(またはNvidia GPU)が(CPUによる)さらなるデータ処理とAIアクセラレータへの送信を待つ間に停止してしまうことです。ハードウェアアクセラレーションがない場合、このプロセスは以下のように進行します。

  • データの取得(例:JPEG 画像がディスク上のどこに保存されているか)
  • CPUはエンコードされた画像を読み取る
  • CPUは画像をデコードする
  • CPUは画像変換を適用して画像を拡張する
  • 画像はデバイスに送信されます(ただし、これは通常、データローダー自体によって行われるわけではありません)

これは、画像変換を加速する Gaudi 2 の統合ハードウェア アクセラレーションによるプロセスです。

  • データを取得する
  • CPUはエンコードされた画像を読み取る
  • エンコードされた画像はデバイスに送信される
  • デバイスは画像をデコードする
  • デバイスは画像変換を適用して画像を拡張します

ハードウェア アクセラレーション方式を使用すると、CPU の活用が大幅に減少することが明らかになります (微調整のメイン プロセス内の他のタスクに CPU サイクルが解放されます)。その結果、パフォーマンスが向上します。

事前学習済みのBridgeTowerチェックポイントを866Mパラメータで微調整することで、HabanaのGaudi 2をベンチマークすることで、ハードウェアアクセラレーションによる画像読み込みがもたらすパフォーマンス向上を確認できます。ワークロードは、それぞれ8台のデバイス(NvidiaのA100 80GB、H100、Gaudi 2)に分散コンピューティングで実行されました。結果は3つの異なる処理実行で測定され、平均化されました。各実行では、メモリへのデータ読み込み専用のCPUプロセスが増加しました(最初の実行ではメインCPUプロセス内でメモリを読み込み、2回目と3回目の実行ではメモリ読み込みプロセスの数がそれぞれ1つと2つ増加しました)。

スワイプして水平にスクロールします

Gaudi 2、Nvidia A100、Nvidia H100におけるデータ読み込みパフォーマンス。単位は1秒あたりのサンプル数で表されます。
デバイスデータローダー_num_workers=0データローダー_num_workers=1データローダー_num_workers=2dataloader_num_workers=2 + mediapipe_dataloader
ガウディ 2 HPU601.5747.4768.7847.7
H100 GPU336.5580.1602.1該当なし
A100 80 GB GPU227.5339.7345.4該当なし

結果は明白だ。Gaudi 2 の最高のパフォーマンスシナリオは最初のシナリオで、データがメインのトレーニングプロセスと並行してロードされ、Gaudi 2 は Nvidia の H100 を 1.79 倍、A100 を 2.23 倍上回った。しかし、これは Habana 自身も認めているように、最適化されていないシナリオである。そのため、おそらく最も明らかな結果は 3 番目のデータポイントから得られ、メインの微調整プロセスの外でデータのロードを処理するために 2 つの追加プロセスが生成された。そこでは、Nvidia の製品は、Gaudi 2 の塵の雲が遠くに消えていくのを捉えるために目を細めなければならないだろう。Gaudi 2 は、Nvidia の最高峰の H100 に対して 1.3 倍、A100 80 GB に対して 2.23 倍のパフォーマンス向上を実現している。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

データ読み込みを処理するために追加のプロセスを生成することも可能でしょう。しかし、パフォーマンスの推移からわかるように、この戦略は次第に収穫逓減をもたらすでしょう。例えば、Nvidia H100では、専用のデータ読み込みプロセスを1つ生成することでパフォーマンスが1.72倍向上しますが、プロセスを1つから2つに増やしても、さらに3%しか向上しません。しかし、Habanaはデータ読み込みのほとんどのステップをGaudi 2に組み込むことができるため、自社の最高スコア(データの読み込みと変換を2つのCPUプロセスで処理した場合)に対してさらに10%のパフォーマンス向上を実現できます。

AIアクセラレーション分野で覇権を握る企業が現れるまでには、まだ長い道のりがあります。Nvidiaは優れた製品とソフトウェアスタックを有し、先行者利益を獲得してきました。しかし、これまでも劣勢の企業が優勝候補に追いつき(時には追い抜くことさえある)、Intel、AMD、そして他の企業がこぞってNvidiaの覇権を奪おうとしていることは明らかです。

Francisco Pires 氏は、Tom's Hardware のフリーランス ニュース ライターであり、量子コンピューティングに関心を持っています。