Googleの「Cloud TPU」はトレーニングと推論の両方を実行し、すでにNvidia Tesla V100より50%高速化

Google I/O 2017において、Googleは次世代機械学習チップ「Cloud TPU」を発表しました。この新しいTPUは推論だけでなく、ニューラルネットワークのトレーニングも可能になりました。

第一世代TPU

Googleは、推論性能において競合他社より「3世代」先を行くために独自のTPUを開発しました。このチップは期待に応えたようで、Googleは先月、TPUがKepler GPUよりも最大30倍、Haswell CPUよりも最大80倍高速であることを実証した論文を発表しました。

これらのチップは少し古いものだったので、比較はあまり公平ではありませんでしたが、さらに重要なのは、それらが推論用ではなかったことです。

NVIDIAは、推論に最適化されたTesla P40 GPUが、10ms未満のレイテンシのアプリケーションにおいて既にTPUの2倍の速度を実現しているとすぐに指摘しました。しかし、ピークINT8性能（90TOPS対48TOPS）では、TPUはP40のほぼ2倍の速度でした。

P40は3倍以上の電力を使ってその性能を達成したため、この比較も公平とは言えません。要するに、機械学習のタスクに関しては、現時点では大きく異なるアーキテクチャ同士を比較するのは容易ではないということです。

クラウドTPUパフォーマンス

Googleは先月の論文で、次世代TPUは特定の改良を加えることで大幅に高速化できる可能性を示唆しました。Cloud TPUはこれらの改良の一部を受け継いでいるようです。大幅に高速化され、浮動小数点演算も可能になったため、ニューラルネットワークのトレーニングにも適しています。

Googleによると、このチップは180テラフロップスの浮動小数点演算性能を達成しており、これはFP16半精度演算におけるNVIDIAの最新Tesla V100アクセラレータの6倍に相当します。NVIDIAの「Tensor Core」の性能と比較しても、Cloud TPUは依然として50%高速です。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Google は Cloud TPU を高度にスケーラブルにし、64 個のユニットを組み合わせて「ポッド」を形成し、単一の機械学習タスクで合計 11.5 ペタフロップスの計算パフォーマンスを実現できると述べています。

奇妙なことに、Googleはまだ推論性能の数値を明らかにしていませんが、近い将来に発表される可能性があります。消費電力もTPUと同様に明らかにされていません。

誰でも使えるクラウドTPU

Googleはこれまで、TPUを自社内で公開してきませんでした。これはおそらく、まだ実験段階の技術であり、まずは実環境での性能を確認したいと考えていたためでしょう。しかし、今後はCloud TPUをGoogle Compute Engineのすべての顧客に提供開始します。顧客はCloud TPUをIntel CPU、Nvidia GPU、その他のGoogleのハードウェアインフラストラクチャと組み合わせることで、独自の機械学習ソリューションを最適化できるようになります。

Cloud TPU が、Google が 2015 年にオープンソース化した TensorFlow 機械学習ソフトウェアライブラリをサポートしていることは、ほぼ言うまでもありません。

Google はまた、TensorFlow Research Cloud プログラムを通じてトップクラスの研究者に 1,000 個の Cloud TPU へのアクセスを寄付し、研究者がそれらの TPU をどのように活用しているかを調査する予定です。

更新、2017 年 5 月 18 日午前 7 時 52 分 (太平洋時間): タイプミスを修正しました。

Ecosystem