
人工知能(AI)大規模言語モデル(LLM)スタートアップ企業Laminiの共同創業者兼CEOが、Twitter/Xに動画を投稿し、NVIDIA GPUの供給不足を揶揄しました。LaminiのCEOは今、かなり得意げな様子ですが、これは主に同社のLLMが、既に入手可能なAMD GPUアーキテクチャのみで動作していることが理由のようです。さらに同社は、ROCmを採用したAMD GPUは、かつて主流だったNVIDIA CUDAプラットフォームと「ソフトウェア的に同等」になったと主張しています。
GPU を焼いているところです 💁🏻♀️ 最初に焼いてくれた Jensen に感謝します https://t.co/4448NNf2JP pic.twitter.com/IV4UqIS7OR 2023 年 9 月 26 日
動画では、LaminiのCEOであるシャロン・ゾウ氏が、AI LLMアクセラレーションGPUを探してオーブンをチェックしている様子が映っています。まず彼女はキッチンに足を踏み入れます。一見すると、ジェンセン・フアン氏の有名なカリフォルニア風コキーナに似ていますが、オーブンをチェックすると「52週間のリードタイムがあり、まだ準備ができていません」と書かれています。苛立ちを隠せないゾウ氏は、庭のグリルをチェックします。すると、そこには焼きたてのAMD Instinct GPUが準備万端で、すぐに使える状態でした。
AMDのGPUはグリルで調理できるのに、NVIDIAのGPUは長時間のオーブン調理が必要なのはなぜか、技術的な理由は不明です。読者の皆様がコメント欄でこの半導体の難問を解明してくれることを願っています。
もっと真面目な話、注目のLLMスタートアップ企業Laminiを詳しく見てみると、彼らが決して冗談ではないことが分かります。CRNは火曜日に、カリフォルニア州パロアルトに拠点を置くこのスタートアップ企業の背景について報じました。記事で言及されている重要な点としては、LaminiのCEOであるSharon Zhou氏が機械学習の専門家であり、CTOのGreg Diamos氏が元Nvidia CUDAソフトウェアアーキテクトであるという事実などが挙げられます。
Laminiは過去1年間、AMD Instinct GPU上でLLMを「秘密裏に」実行しており、テスト期間中に多くの企業がプライベートLLMの恩恵を受けていたことが判明しました。Laminiの最も注目すべき顧客はおそらくAMDでしょう。AMDは「社内KubernetesクラスターにAMD Instinct GPUを搭載したLaminiを導入し、ファインチューニングを用いて、特定の開発タスク向けに複数のコンポーネントにまたがるAMDコードベースでトレーニングされたモデルを作成しています。」
Laminiの非常に興味深い主張は、AMD Instinct GPU上で本番環境対応のLLMを実行するのに必要なのは「たった3行のコード」だけだということです。さらに、Laminiはすぐに入手できるAMD GPUで動作することが大きな利点だと言われています。CTOのDiamos氏はまた、AMD ROCmがLLMにおいてNvidia CUDAと「ソフトウェアパリティ」を達成しているため、LaminiのパフォーマンスはNvidiaソリューションに劣らないと主張しています。
画像
1
の
2

AMDハードウェアを用いたLLMソリューションの提供に注力する企業であれば、当然期待は高まりますが、必ずしも間違っているわけではありません。AMD Instinct GPUは、特に十分な台数があれば、Nvidia A100やH100 GPUと競合する可能性があります。例えば、Instinct MI250はAIワークロード向けに最大362テラフロップスのBF16/FP16ピーク演算性能を提供し、MI250Xはそれを383テラフロップスにまで押し上げます。どちらも128GBのHBM2eメモリを搭載しており、これはLLMの実行に不可欠な要素となります。
一方、AMDが近日発売予定のInstinct MI300Xは、メモリ容量が192GBに増加し、NVIDIAのHopper H100の2倍となります。しかし、AMDはMI300の演算性能をまだ公式に発表していません。MI250Xよりも高い性能になることは間違いありませんが、どの程度高いかは完全には分かっていません。
比較すると、NvidiaのA100は、BF16/FP16演算で最大312テラフロップス、スパース性を考慮するとピーク時で624テラフロップスの演算性能を発揮します。スパース性は基本的に、答えが分かっているゼロ乗算を「スキップ」することで、スループットを2倍に高める効果があります。H100は、スパース性を考慮すると最大1979テラフロップスのBF16/FP16演算性能を発揮します(スパース性を考慮しない場合はその半分)。つまり、理論上はAMDはA100に匹敵するものの、H100には及ばないと言えるでしょう。しかし、これは実際にH100 GPUを入手できることを前提としており、Lamini氏が指摘するように、現状では1年以上の待ち時間が必要になります。
当面の代替案としては、AMDのInstinct GPUでLLMを実行するという方法があります。MI250X単体ではH100に匹敵しないかもしれませんが、最適化されたROCmコードを実行する5基のMI250Xなら、十分に競争力を発揮するはずです。また、LLMに必要なメモリ容量の問題もありますが、前述の通り、128GBは80GBまたは94GB(デュアルGPUのH100 NVLを除けば、現行H100の最大値)を超えています。ChatGPTのように800GBのメモリを必要とするLLMは、10基以上のH100またはA100 GPU、あるいは7基のMI250X GPUで構成されるクラスターが必要になる可能性があります。
LaminiのようなAMDのパートナーが、自社のソリューションの強みを強調し、自社の立場を強化するために厳選したデータやベンチマークを引用するのは当然のことです。しかしながら、AMD GPUが現在容易に入手可能であり、価格も希少性が低いことから、レッドチームのチップがテラフロップスあたり、あるいはGPUメモリ1GBあたりで最安価格を実現できる可能性は否定できません。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることに情熱を注いでいます。