26
AWS は大規模言語モデルにインテルの Habana Gaudi を採用
インテル ハバナ ラボ Gaudi アクセラレーター
(画像提供:Intel)

IntelのHabana Gaudiは、Habana SynapseAIソフトウェアパッケージを搭載し、ある程度競争力のあるパフォーマンスを提供しますが、NVIDIAのCUDA対応コンピューティングGPUと比べると依然として劣っています。この点と入手性の低さが相まって、GaudiはChatGPTのような大規模言語モデル(LLM)ではそれほど普及していません。 

AIブームが到来する中、IntelのHabanaはより広範な導入が見込まれています。Amazon Web Servicesは、LLMの学習にPyTorchとDeepSpeedを搭載したIntelの第1世代Gaudiを試すことを決定し、その結果はDL1 EC2インスタンスの商用提供に十分なほど有望でした。

ソフトウェア面では、研究者らはDeepSpeed ZeRO1最適化を用いて、BERT 1.5Bモデルの事前学習を様々なパラメータで実施しました。目標は、学習パフォーマンスと費用対効果を最適化することでした。モデルの収束性を確保するため、ハイパーパラメータを調整し、アクセラレータあたりの有効バッチサイズを384に設定しました。マイクロバッチはステップごとに16個、勾配累積は24ステップです。

AWS

(画像提供:AWS)

一方、AWSの研究者たちは、GaudiのネイティブBF16サポートを活用することで、FP32と比較してメモリサイズ要件を削減し、トレーニングパフォーマンスを向上させ、15億個のBERTモデルに対応しました。彼らは、3億4000万から15億個のパラメータを持つBERTモデルに対し、DeepSpeed ZeROステージ1の最適化を適用し、128個のアクセラレータで82.7%のスケーリング効率を達成しました。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

AWS

(画像提供:AWS)

AWSの研究者は、適切なHabana SynapseAI v1.5/v1.6ソフトウェアとDeepSpeed、そして複数のHabana Gaudiアクセラレータを使用することで、15億パラメータのBERTモデルを16時間以内に事前学習し、128個のGaudiアクセラレータネットワーク上で収束し、85%のスケーリング効率を達成できることを発見しました。このアーキテクチャはAWSワークショップで評価できます。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。