65
チップ争い:NVIDIAがIntelのディープラーニングベンチマークに異議を唱える

Intelは最近、Xeon Phiのベンチマーク結果をいくつか公開し、GPUではなく小型のAtom CPUをベースとした「Many Integrated Core(多統合コア)」Phiアーキテクチャが、ディープラーニングにおいてGPUよりもはるかに効率的で高性能であると主張しました。NVIDIAはこの主張に異議を唱え、Intelの結果に重大な欠陥があると考える多くの理由を詳述した投稿を公開しました。

GPUとその他すべて

GPUがタスクに最適かどうかはさておき、現在、ディープラーニングニューラルネットワークの学習においてGPUが主流であることは、議論の余地がありません。これは、ニューラルネットワークの学習にはCPUが一般的に設計されている高精度計算ではなく、低精度(8ビット程度)の計算が必要となるためです。GPUが将来、多くの顧客にとってより効率的な代替手段に置き換えられるかどうかは、まだ分かりません。

NVIDIAはここ数年、機械学習向けにGPUを最適化し続けてきただけでなく、開発者がニューラルネットワークの学習を容易にするソフトウェアにも多くのリソースを投入してきました。これは、研究者が機械学習にAMDではなくNVIDIAを選ぶ主な理由の一つでもあります。NVIDIAは、Keplerソフトウェア時代とPascal時代を比較した場合、ソフトウェアのパフォーマンスが桁違いに向上したと述べています。

しかし、ディープラーニングの学習においてGPUだけが唯一の選択肢ではありません。この分野は現在急成長を遂げており、新旧様々な企業がディープラーニングに最適化されたチップの市場シェア獲得を目指しています。

機械学習向けFPGAに注力している企業もあれば、Google、CEVA、Movidiusのようにカスタムディープラーニングチップを開発している企業もあります。また、IntelはXeon Phiブランドで数十個の小型Atom(Bay Trail-T)コアを搭載することでGPUに対抗しようとしています。

インテルの主張

インテルは論文の中で、Knights Landing Xeon Phiチップ4基は「GPU4基」よりも2.3倍高速であると主張しました。また、Xeon Phiチップは複数ノード(最大128ノード。インテルによるとGPUでは実現不可能)間で38%のスケーラビリティ向上が見込めると主張しました。インテルによると、128台のXeon Phiサーバーで構成されたシステムは、単一のXeon Phiサーバーよりも50倍高速であり、Xeon Phiサーバーのスケーラビリティが優れていることを示しています。

インテルはまた、Caffe ディープラーニング フレームワークのインテルに最適化されたバージョンを使用すると、同社の Xeon Phi チップは標準的な Caffe 実装に比べて 30 倍高速になると論文で述べています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Nvidiaの反論

NVIDIAの主な主張は、Intelがベンチマークで古いデータを使用していたという点にあるようです。これはGPUと比較する際に誤解を招く可能性があります。特にNVIDIAのGPUは、28nmプレーナープロセスから16nm FinFETプロセスに移行した時点で、パフォーマンスと効率が劇的に向上したからです。さらに、NVIDIAはここ数年で、GPU向けに様々なソフトウェアフレームワークを最適化してきました。

そのため、Nvidia は現在、Intel が Caffe AlexNet テストのより新しい実装を使用していた場合、Nvidia の前世代の Maxwell GPU 4 つが Intel の Xeon Phi サーバー 4 つよりも実際に 30% 高速であることがわかったと主張しています。

Xeon Phiの「38%優れたスケーリング」に関して、NVIDIAは、Intelの比較対象には最新のインターコネクト技術を搭載した最新のXeon Phiサーバーが含まれており、Intelはこれを4年前のKeplerベースのTitan Xシステムと比較したと述べています。NVIDIAは、例えば音声トレーニングのワークロードが128個のMaxwell GPU間でほぼ直線的にスケーリングすることをBaiduが既に実証していると述べています。

Nvidiaはまた、ディープラーニングにおいては、弱いノードを増やすよりも強いノードを少なくする方が効果的だと考えている。同社はさらに、最新のDGX-1「スーパーコンピュータ・イン・ボックス」1台で、Xeon Phiサーバー21台分よりわずかに高速で、Xeon Phiサーバー4台分より5.3倍高速だと付け加えた。

OpenAIという非営利団体がDGX-1システムの初の顧客になったばかりであることを考えると、IntelがXeon Phiチップとの比較にDGX-1システムを利用できなかったのは理解できます。しかし、Maxwellベースのシステムはすでにかなり古いため、Intelが最新のXeon Phiチップを数世代前のGPUと18ヶ月前のソフトウェアでテストすることにした理由は不明です。

AIチップの競争が激化(良い意味で)

ディープラーニングに関しては、Xeon Phiはパフォーマンスとソフトウェアサポートの両面で、GPUシステムにまだかなり遅れをとっている可能性が高い。しかし、NVIDIAのDGX-1がXeon Phiサーバー21台に辛うじて勝てるのであれば、Xeon Phiチップは価格面でもかなり競争力があるということになる。

DGX-1は現在12万9000ドルですが、Xeon Phiサーバーチップ1個あたりの価格は2000ドルから6000ドルです。Intelの最上位Xeon Phiチップを21個搭載した場合でも、そのシステムはNVIDIA DGX-1と価格面で匹敵するようです。

Nvidia と Intel の争いは今後数年間で大幅に激化すると思われますが、さらに興味深いのは、Google の TPU のような ASIC のようなチップが実際に勝利を収められるかどうかです。

Intelは既にPhiコプロセッサに「汎用」コアをより多く採用しており、NVIDIAはGPUをゲーム向けに最適化することをまだ検討する必要があります。つまり、両社はカスタムディープラーニングチップのような極端な最適化パスを辿ることができない可能性があります。しかし、ディープラーニングチップの普及においてはソフトウェアサポートも大きな役割を果たし、NVIDIAは現時点で最も強力なソフトウェアサポートを提供していると言えるでしょう。

ルシアン・アルマスは、Tom's Hardware USの寄稿ライターです。ソフトウェア関連のニュースやプライバシーとセキュリティに関する問題を取り上げています。