Googleは最近、Tensor Processing Unit(TPU)の性能と、IntelのHaswell CPUと連携したNVIDIAのKeplerベースK80 GPUとの比較に関する論文を発表しました。TPUのディープラーニング結果はGPUやCPUと比較しても印象的でしたが、NVIDIAはTesla P40などの最新の推論チップを使用すれば、GoogleのTPUを上回る性能を発揮できると述べています。
テスラP40 vs Google TPU
Google の TPU は 2015 年にオンラインになったため、同社はそのパフォーマンスを、Nvidia Tesla K80 GPU や Intel Haswell CPU など、当時自社のデータセンターで使用していた他のチップと比較しました。
Googleが結果を今になってようやく公開したのは、おそらく他の機械学習の競合企業(NVIDIAやIntelではなく、Microsoftなど)に、自社のAIをこれほどまでに高度なものにしている秘密を知られたくないからだろう。少なくとも、手遅れになるまでは。TPUの結果を今公開するということは、Googleが既に次世代TPUのテスト、あるいは実用化を進めている可能性を示唆していると言えるだろう。
それでも、NVIDIAはこの機会を利用して、Tesla P40などの最新の推論GPUもそれ以降大幅に進化していることを示しました。NVIDIA GPUの推論性能の向上の一部は、従来の28nmプロセスノードから16nm FinFETノードへの移行によるものです。この移行により、同社のチップはワットあたりの性能が約2倍向上しました。
NVIDIAは、Maxwell、そしてPascalにおいて、ディープラーニング向けのGPUアーキテクチャをさらに改良しました。新しいGPUが推論処理において大幅に高速化しているもう一つの理由は、NVIDIAのディープラーニングおよび推論に最適化されたソフトウェアも大幅に改良されたことです。
最後に、NVIDIAによると、Tesla P40が旧型のTesla K80と比べて最大26倍高速化できる主な理由は、K80がFP32のみをサポートしていたのに対し、Tesla P40はINT8演算をサポートしていることにあると考えられます。推論計算ではそれほど高い精度は必要ではなく、ほとんどのニューラルネットワークでは8ビット整数で十分と思われます。
NVIDIAによると、これらの改良により、P40はGoogleのTPUなどの特定用途向け集積回路(ASIC)に対して高い競争力を持つとのことです。NVIDIAが提供した以下のグラフでは、Tesla P40は推論処理においてGoogleのTPUの2倍の速度を示しているようです。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
NVIDIAによると、P40は10倍の帯域幅と12テラフロップスの32ビット浮動小数点演算性能を備えており、ニューラルネットワークのトレーニングにより効果的だとのこと。GoogleのTPUは推論チップに過ぎないため、その性能は推論性能にとどまっています。
それは公平な比較でしょうか?
ASICとGPUを比較するのは、リンゴとオレンジを比較するようなものです。しかし、Googleのような企業にとって最も重要なのは、アーキテクチャに関係なく、特定のチップのコストパフォーマンスです。
Googleは十分な規模を持つ企業であるため、チップで複数の処理を同時に行う必要はありません。ニューラルネットワークの学習にはGPU、推論にはTPUを選択する余裕があります。もしTPUがGPUよりもコストパフォーマンスに優れているなら、GoogleはTPUを選択する可能性が高いでしょう(既にそうしています)。
GoogleにとってTPUのコストは不明ですが、P40は5,000ドルを超える場合があることは分かっています。Tesla P40の推論性能は2倍かもしれませんが、少なくとも2倍の価格であれば、Googleは依然としてTPUに固執する可能性があります。
もう一つの点は、チップの運用コストです。Tesla P40のTDPは250Wで、TPUの75Wの3倍です。TPUとTesla P40の初期コストが同程度であったとしても、運用コストが大幅に低いため、GoogleはおそらくTPUを選択するでしょう。
NVIDIAのローエンド推論チップであるTesla P4は、TDPが75Wであるため、初期費用と運用コストの面でより近い競合相手だった可能性があります。しかし、NVIDIAによると、P4の性能はP40の半分弱です。つまり、同じ消費電力レベルでは、Tesla P4はTPUよりもわずかに性能が劣る可能性があるということです。
Nvidiaは、P40の帯域幅が10倍高いと述べています。これがTPUの主な制限要因であり、P40が推論性能を2倍に向上できる理由であると考えられます。Googleも最近の論文で、TPUの帯域幅が4倍であれば推論性能は3倍向上できた可能性があると認めています。
しかし、この改良は次世代TPUで実現される可能性が高いでしょう。Googleが論文で言及した他の改良点と組み合わせると、次世代TPUは現行TPUやTesla P40と比べて数倍高速になる可能性があります。しかし、このTPUがNVIDIAの将来の推論GPUと同等の消費電力とコストで匹敵するかどうかはまだ分かりません。
機械学習チップは最適化を渇望している
GoogleのTPUとNVIDIAの最新GPUの両方からわかるのは、機械学習には可能な限り高いパフォーマンスが必要だということです。つまり、チップメーカーは今後数年間、自社のチップを機械学習向けに可能な限り最適化するとともに、(学習用または推論用の)焦点を絞り込み、各トランジスタからさらに高いパフォーマンスを引き出そうと努力するはずです。機械学習市場は活況を呈しており、より特化したチップを求める顧客も数多くいるはずです。
機械学習チップの特化は組み込み市場にも大きな恩恵をもたらすはずです。小型ながらも高性能な推論チップが間もなく数多く登場するでしょう。これにより、スマートフォン、ドローン、ロボット、監視カメラなど、より多くの組み込みデバイスが、インターネット接続を必要とせず、低コストで優れた機能を備えた「AI強化」サービスを提供できるようになるでしょう。
ルシアン・アルマスは、Tom's Hardware USの寄稿ライターです。ソフトウェア関連のニュースやプライバシーとセキュリティに関する問題を取り上げています。