45
OpenAIは独自のチップを開発するかもしれないが、それでもNvidiaに依存することになる。Broadcomと共同開発するカスタムチップは2026年第3四半期に延期されるとの報道もある。
木々と空を背景にしたブロードコムの看板
(画像クレジット:ゲッティイメージズ/ジャスティン・サリバン)

OpenAIとBroadcomの100億ドル規模の提携は、長らく噂されてきたが、既に亀裂が生じている。同社はOpenAIの推論ワークロード向けに特別に設計されたカスタムチップを開発していると広く認識されているが、事情に詳しい関係者によると、このプロジェクトは「行き詰まり」に陥っているという。The Informationの報道によると、OpenAIはBroadcomが提供できるよりも早く、より多くのパワーを求めており、チップを2026年第2四半期にリリースするという社内の計画は、早くても第3四半期に延期されている。

これまで意図的に秘密にされてきたこのプロジェクトは、TSMCが製造を担当する予定だ。稼働開始後、このチップはOpenAIの拡大するデータセンター群全体の推論ジョブを処理できるようになるため、GPUのボトルネックの影響を軽減し、コスト削減につながる可能性がある。

しかし、OpenAIは自社製チップの基盤構築を進めている一方で、NVIDIAとの提携も強化しています。両社の間で最近締結された、潜在的に1,000億ドルを超えるインフラ契約では、NVIDIAがOpenAIがホストする次世代AIクラスターにGPUを供給する予定です。NVIDIAのCEO、ジェンスン・フアン氏は先日、OpenAIは「おそらく次なる数兆ドル規模のハイパースケーラー企業になるだろう」と述べており、OpenAIはNVIDIAの最高級システムにとって引き続き重要な顧客であり続けるでしょう。

明確な終着点のないヘッジ

ブロードコムの幹部は昨年末、大手AI顧客が数十億ドル規模の長期注文を受注したと述べ、OpenAIとの契約と思われる内容を初めて確認した。報道ではすぐに、この契約はOpenAIとの関連が示唆された。OpenAIは少なくとも2023年半ばから、社内に小規模で専門性の高いシリコンチームを育成してきた。このチップは社内推論タスク向けに設計されており、商用リリースは想定されていないと理解されている。ブロードコムが物理設計を担当し、TSMCがチップの製造を担当する見込みだ。

この買収により、OpenAIは自社製チップの開発を目指すハイパースケーラーの長い列に新たに加わった。AmazonはTrainiumとInferentiaプラットフォームを保有している。Googleは現在第5世代TPUを開発中だ。MicrosoftはMaiaアクセラレーターの開発に取り組んでいる。いずれもGPU依存からの脱却を謳っていたが、いずれも主要なワークロードをNVIDIAのチップ上で実行している。

OpenAIはこの事実を隠そうとはしません。同社のGPT-4モデルはNvidia H100で学習されており、CoreWeaveやMicrosoftなどのホスティングパートナーは、引き続きNvidiaのハードウェアを大規模に導入しています。この新しいカスタムチップは、最終的には一部の推論ジョブを担う可能性がありますが、学習用のH100やBlackwellクラスのGPUに取って代わるという証拠はありません。また、たとえこのチップの性能が優れていたとしても、Nvidiaの競合的なソフトウェアスタックがバンドルされることはないでしょう。

一致するCUDAはありません

これは、競合企業が依然として追いつけない部分です。NVIDIAのCUDAプラットフォームは、現在使用されているほぼすべてのAIフレームワークのデフォルトのターゲットとなっています。PyTorchやTensorFlowから、人気のモデルコンパイラや量子化ツールキットに至るまで、AIソフトウェアスタックのほとんどはNVIDIAのアーキテクチャに最適化されています。そこから移行するには、コアライブラリの書き換え、エンジニアの再教育、そして新しいハードウェアへのモデル適応が必要となり、最終的には、ほとんどの企業が負担をいとわないコストとなります。

OpenAIは他の企業と同様に、よほどの理由がない限りCUDAを放棄する可能性は低い。Broadcomは独自のソフトウェアエコシステムを提供していないため、OpenAIのチームは独自のツールチェーンを構築するか、まだ同等の水準に到達するのに苦労しているオープンスタンダードのいずれかを採用する必要がある。当面は、大規模モデルを構築・実行する最も簡単かつ迅速な方法は、依然としてNVIDIAのチップとソフトウェアを使用することだ。

ジェンセン・フアンはそれを熟知している。業界を掌握する彼は、AmazonやGoogleといった企業がNVIDIAのチップと競合する可能性のある新型チップを発表する前に、事前に情報提供していたと報じられている。こうしたことはすべて極秘裏に行われ、報道によると、一種の暗黙のルールとなっているという。義務ではないものの、実際に行われている。そして、この事実は、NVIDIAが顧客、さらにはNVIDIAに対抗するためにチップを開発している企業の間で、依然として大きな影響力を持っていることを示している。

なぜそうなっているのかは容易に理解できます。NVIDIAは提携、インフラ、そして部品調達に数十億ドルを投じています。最近、CoreWeaveから最大63億ドル相当の未使用GPU容量を購入することに合意し、Enfabricaのネットワーク技術のライセンス取得に10億ドル近くを投資し、共同開発契約の一環としてIntelに50億ドルを支払いました。OpenAIがいずれ自社製チップを使用するという明確な意向を示していたにもかかわらず、NVIDIAはOpenAIの次世代GPUデータセンターをサポートすることにも合意しました。

サプライチェーンの逆風

OpenAIチップが性能目標を達成したとしても、サプライチェーンの逆風に直面することになる。CoWoSパッケージングは​​TSMCで依然としてボトルネックとなっており、短期的な生産能力の大部分はNvidiaとAMDが担っている。先進的なHBMメモリも、SK hynixとSamsungが既存顧客を優先しているため、逼迫している。つまり、Broadcamは設計の専門知識を提供できるものの、バックエンドをコントロールすることはできない。OpenAIも同様だ。

規模の問題もあります。NVIDIAのBlackwellプラットフォームは、マルチチップモジュール、膨大なメモリ帯域幅、そして独自のNVLinkスイッチングを採用しており、これはBroadcomでは提供できないモノリシックな組み合わせです。OpenAIのチップがよりシンプルであれば、より安価でワットあたりの効率も高くなる可能性がありますが、ピーク性能では競争力がないため、将来の大規模モデルの学習における価値は限定的になります。

これらすべては、OpenAIがワークロードに応じてNVIDIAと独自のカスタムハードウェアの両方を使用する長期的なハイブリッドモデルを示唆しています。これは、他のすべてのハイパースケーラーが既に行っていることです。

Broadcamとの提携は、戦略的な観点からOpenAIにとってある程度のメリットがある。もし予定通りに出荷され(可能性は低いと思われるが)、良好なパフォーマンスが得られれば、トークンあたりのコストを削減し、OpenAIはインフラに対するコントロールを少し強化できる可能性がある。しかし、初期の兆候は芳しくなく、いずれにせよ、最先端モデルのトレーニングにおいてNvidiaのハードウェアに取って代わる特効薬にはならないだろう。

Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。

ルーク・ジェームズはフリーランスのライター兼ジャーナリストです。法務の経歴を持つものの、ハードウェアやマイクロエレクトロニクスなど、テクノロジー全般、そして規制に関するあらゆることに個人的な関心を持っています。