76
DeepSeek の AI ブレークスルーは、一部の機能で業界標準の CUDA をバイパスし、Nvidia のアセンブリのような PTX を使用します…
Nvidia Hopper H100 GPU および DGX システム
(画像提供:Nvidia)

DeepSeekは、2,048基のNvidia H800 GPUを搭載したクラスターを用いて、6,710億のパラメータを持つMixture-of-Experts(MoE)言語モデルを約2ヶ月で学習させ、AI業界に大きな衝撃を与えました。MetaなどのAI業界リーダーと比較して10倍の効率性を示したのです。@Jukanlosreveが引用したMirae Asset Securities Koreaの分析によると、この画期的な成果は、多数のきめ細かな最適化を実装し、一部の関数ではNvidiaのCUDAではなく、アセンブリ言語のようなPTX(並列スレッド実行)プログラミングを採用したことで達成されました。

例えば、DeepSeekはV3モデルの学習時に、NVIDIAのH800 GPUを再構成しました。132個のストリーミングマルチプロセッサのうち、20個をサーバー間通信に割り当てました。これは、プロセッサの接続制限を克服し、トランザクションを高速化するために、データの圧縮と解凍に利用されたと考えられます。また、パフォーマンスを最大化するために、DeepSeekは高度なパイプラインアルゴリズムも実装しました。これは、スレッド/ワープレベルの非常に細かい調整によって実現されたと考えられます。 

これらの変更は標準的なCUDAレベルの開発をはるかに超えており、維持管理が非常に困難であることで知られています。そのため、このレベルの最適化はDeepSeekのエンジニアの卓越したスキルを反映しています。世界的なGPU不足は米国の規制によってさらに深刻化し、DeepSeekのような企業は革新的なソリューションの採用を余儀なくされ、DeepSeekは画期的な成果を上げました。しかし、DeepSeekがこの成果を達成するためにどれだけの開発投資を行ったかは不明です。 

この画期的な進歩は市場に混乱をもたらしました。一部の投資家は、新しいAIモデルのための高性能ハードウェアの必要性が低下し、NVIDIAなどの企業の売上に打撃を与えるだろうと考えていたからです。インテルの元CEOであるパット・ゲルシンガー氏をはじめとする業界のベテランは、AIのようなアプリケーションは利用可能なあらゆるコンピューティングパワーを活用できると考えています。DeepSeekの画期的な進歩について、ゲルシンガー氏は、これがマスマーケットの幅広い低価格デバイスにAIを搭載する手段になると考えています。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。