
NVIDIAは、2つの新しい「推論」GPU、Tesla P4とTesla P40のリリースにより、ディープラーニングGPUへの注力を強化しています。この2つのGPUは、Tesla M4およびM40の直接の後継となる16nm FinFETプロセスを採用し、パフォーマンスが大幅に向上し、8ビット(INT8)演算をサポートしています。

ディープラーニングプロセスにおける2つのステップは、それぞれ異なるレベルのパフォーマンスだけでなく、異なる機能も必要とします。そのため、NVIDIAは、最近リリースされたTensorRT推論エンジンなどの推論エンジンの実行に特化して最適化されたTesla P4とP40をリリースしました。
すでにかなり低い16ビット(FP16)精度をサポートするPascalベースのTesla P100とは異なり、2つの新しいGPUはさらに低い8ビットINT8精度をサポートします。これは、研究者がディープラーニングのトレーニングには特に高い精度は必要ないことを発見したためです。
データの量を2倍にして精度を半分にすれば、期待通りの結果が大幅に早く現れます。推論は既に学習済みのデータを扱うため、学習時よりもさらに低い精度で済みます。そのため、NVIDIAの新しいカードはINT8演算をサポートしています。
テスラP4
Tesla P4は、発表された2つのGPUのうちローエンドのGPUであり、高効率GPUを必要とするスケールアウトサーバーをターゲットとしています。Tesla P4 GPUは1台あたり50Wから75Wの電力を消費し、ピーク性能は5.5(FP32)テラフロップス/秒、21.8 INT8 TOP/秒(テラオペレーション/秒)です。

NVIDIAは、自社のTesla P4 GPUをIntel Xeon E5汎用CPUと比較し、P4はAlexNet画像処理テストにおいて最大40倍の効率性を示したと主張しました。また、Tesla P4はArria 10-115 FPGA(Intelが買収したAltera製)と比較して8倍の効率性を示したとも主張しました。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
テスラP40
Tesla P40は、パフォーマンスが最も重視されるスケールアップサーバー向けに設計されました。Pascalアーキテクチャの改良と、28nmプレーナープロセスから16nm FinFETプロセスへの移行により、NvidiaはP40が前世代のTesla M40と比較して最大4倍の速度を実現したと主張しています。
P40 GPUのピーク性能は12(FP32)テラフロップス/秒、47 TOP/秒で、弟分であるTesla P4の約2倍の速度です。Tesla P40の最大消費電力は250Wです。
テンソルRT
NVIDIAは、TensorRT GPU推論エンジンも発表しました。このエンジンは、NVIDIA GPU向けの従来のcuDNNベースのソフトウェアツールと比較して、パフォーマンスが2倍になります。この新しいエンジンはINT8演算もサポートしているため、NVIDIAの新しいTesla P4とP40は、発売初日から最大限の効率で動作できるようになります。
下のグラフでは、NVIDIAがTensorRT推論エンジンを使用したTesla P4およびP40 GPUのパフォーマンスを、Intelの最適化されたCaffeニューラルネットワークフレームワークを搭載した14コアのIntel E5-2690v4と比較しています。NVIDIAの結果によると、Tesla P40はIntelのCPUよりも最大45倍高速であるようです。

これまでNvidiaは自社のGPUをIntelの汎用CPUとのみ比較してきたが、現在Intelのディープラーニング向け主力製品は「メニーコア」(Atomベース)アクセラレータを搭載したXeon Phiシリーズのチップとなっている。
NVIDIAのGPUは、低精度演算において、マルチコアCPUに対してもGPUが本質的に優位に立つため、これらのチップを依然として大きく上回っている可能性が高い。しかし、現時点では、ディープラーニングアプリケーション向けに顧客が求めているものを考慮すると、Xeon PhiとNVIDIAのGPUを比較する方が現実的だろう。
ディープストリームSDK
NVIDIAはまた、Pascalベースのサーバーを利用して最大93本のHDビデオストリームをリアルタイムでデコード・分析できるDeepStream SDKも発表しました。NVIDIAによると、これにより企業は自動運転車、インタラクティブロボット、フィルタリングや広告配置などのアプリケーション向けに、大規模なビデオ分析が可能になります。
Coursera、Udacity、Microsoftとの提携
ディープラーニングを使用して実際の問題を解決するためのオンラインコースとワークショップを世界中で提供しているNvidiaのDeep Learning Instituteは、CourseraおよびUdacityと提携して、より多くの人々がコースを利用できるようにしました。
コースには、自動運転車のエンジニアになる方法や、ディープラーニングを用いた病気のリスク予測などが含まれます。マイクロソフトとの提携により、ディープラーニングを用いてロボットに思考力を教えるワークショップも開催されます。
ルシアン・アルマスは、Tom's Hardware USの寄稿ライターです。ソフトウェア関連のニュースやプライバシーとセキュリティに関する問題を取り上げています。