89
インテルは、Arc Alchemist GPU 上で大規模言語モデルを高速化するための PyTorch AI 最適化を実証しました。
インテル Arc A770 限定版
(画像提供:Tom's Hardware)

IntelのArc Alchemist GPUは、同社のPyTorch拡張機能のおかげで、Llama 2のような大規模な言語モデルを実行できます。これは最近のブログ投稿でデモが公開されています。WindowsとLinuxの両方で動作するIntel PyTorch拡張機能により、LLMはArc GPUのFP16パフォーマンスを活用できます。ただし、IntelによるとLlama 2をIntelハードウェアで実行するには14GBのVRAMが必要であるため、おそらくArc A770 16GBカードが必要になるでしょう。

PyTorchは、Meta社が開発した機械学習用のオープンソースフレームワークで、LLM(Language Management Model)で使用できます。このソフトウェアはそのまま使用できますが、デフォルトではすべてのハードウェアを最大限に活用するようにコーディングされていません。そのため、IntelはPyTorch拡張機能を提供しています。このソフトウェアは、Arc GPU内のXMXコアを活用するように設計されており、2023年1月に最初のリリースが行われました。同様に、AMDとNvidiaも、最適化を目的としてPyTorch向けの最適化を提供しています。

Intelはブログ記事で、12月にリリースされFP16パフォーマンスに特化して最適化されたIntelのPyTorch拡張機能の最新アップデートを使用して、Llama 2におけるArc A770 16GBのパフォーマンスを実証しました。FP16(半精度浮動小数点データ)は、精度とパフォーマンスをトレードオフするものであり、AIワークロードでは多くの場合、良好なトレードオフとなります。

デモでは、Llama 2と対話重視のLlama 2-Chat LLMが紹介され、「ディープラーニングは人間のような一般化能力を持つことができるのか?」といった疑問が投げかけられました。これに対し、LLMは驚くほど謙虚な姿勢で、ディープラーニングは人間の知能と同じレベルではないと答えました。しかし、Intelによると、Llama 2のようなLLMをFP16精度で動作させるには14GBのVRAMが必要とのことで、入力やクエリへの応答速度に関する数値も提供されていませんでした。

このデモではFP16のパフォーマンスのみを紹介していますが、Arc AlchemistはBF16、INT8、INT4、INT2にも対応しています。これらのデータ形式の中でも特に注目すべきはBF16です。FP16は5ビットであるのに対し、BF16はFP32と同等の8ビットという広い数値範囲を持つため、AIワークロードにはさらに適しているとよく考えられています。BF16のパフォーマンス最適化は、Intelの次期PyTorch拡張機能アップデートで上位に位置付けられる可能性があります。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

マシュー・コナッツァーは、Tom's Hardware USのフリーランスライターです。CPU、GPU、SSD、そしてコンピューター全般に関する記事を執筆しています。