
中国のAIスタートアップ企業DeepSeekは、OpenAI、Meta、Anthropicといった大手企業の主要モデルに匹敵するAIモデルを、GPUコンピューティングの量、ひいてはコストを11分の1に削減して学習させたと発表した。この主張はまだ完全に検証されていないが、この驚くべき発表は、米国の制裁措置が中国におけるAIハードウェアの入手性に影響を与えている一方で、優秀な科学者たちが限られたハードウェアから最大限のパフォーマンスを引き出すことで、中国のAIチップ供給を圧迫する影響を軽減しようと取り組んでいることを示唆している。同社はモデルと重みをオープンソース化しているため、まもなくテスト結果が公開されると期待できる。
Deepseekは、2,048基のNvidia H800 GPUを搭載したクラスターを用いて、6,710億のパラメータを持つDeepSeek-V3 Mixture-of-Experts(MoE)言語モデルをわずか2ヶ月で学習しました。これは、同社の論文によると280万GPU時間に相当する計算量です。比較のために、Metaは16,384基のH100 GPUを搭載したクラスターを用いて、54日間かけて4,050億のパラメータを持つLlama 3を学習するのに、その11倍の計算能力(3,080万GPU時間)を要しました。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
DeepSeek-V3は、パラメータ数や推論能力の点でGPT-4oやo3といった最先端のモデルに遅れをとっているかもしれませんが、DeepSeekの成果は、比較的限られたリソースで高度なMoE言語モデルを学習できることを示しています。もちろん、これには多くの最適化と低レベルプログラミングが必要ですが、結果は驚くほど良好です。
DeepSeek チームは、DeepSeek-V3 モデルの導入には高度なハードウェアと、事前入力段階とデコード段階を分離する導入戦略が必要であり、リソース不足のため中小企業では実現できない可能性があることを認識しています。
「DeepSeek-V3は優れた性能と費用対効果を備えているものの、特に導入においていくつかの制約があることも認識しています」と、同社の論文には記されている。「第一に、効率的な推論を実現するために、DeepSeek-V3の推奨導入単位は比較的大きく、小規模チームにとっては負担となる可能性があります。第二に、DeepSeek-V3の導入戦略により、エンドツーエンドの生成速度はDeepSeek-V2の2倍以上を達成しましたが、さらなる改善の余地が残されています。幸いなことに、これらの制約は、より高度なハードウェアの開発によって自然に解消されると期待されます。」
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。