
今週「ステルスモード」から抜け出したスタートアップ企業 Habana Labs は、GPU と比較してはるかに高い機械学習推論パフォーマンスを可能にすると言われるカスタム チップを発表しました。
ハバナ・ゴヤの仕様
スタートアップ企業によると、Goyaチップは、ディープラーニング推論用に一から設計されており、GPUやその他のチップがこのタスク向けに再利用されているのとは異なります。チップのダイは8つのVLIW Tensor Processing Core(TPC)で構成され、それぞれが独自のローカルメモリと共有メモリへのアクセスを備えています。外部メモリへのアクセスはDDR4インターフェースを介して行われます。このプロセッサは、FP32、INT32、INT16、INT8、UINT32、UINT16、UINT8のデータ型をサポートしています。
Goyaチップは、TensorFlow、MXNet、Caffe2、Microsoft Cognitive Toolkit、PyTorch、Open Neural Network Exchange Format(ONNX)など、主要な機械学習ソフトウェアフレームワークをすべてサポートしています。学習済みのニューラルネットワークモデルが読み込まれると、チップはそれをGoyaチップに最適化された内部フォーマットに変換します。
Goya チップでは、ビジョン、ニューラル機械翻訳、感情分析、レコメンデーション システムなどのモデルが実行されており、このプロセッサはあらゆる種類の推論ワークロードとアプリケーション ドメインを処理できるはずだと Habana 氏は語りました。
ゴヤパフォーマンス
ハバナ氏によると、Goyaチップは、バッチサイズ10、レイテンシ1.3ミリ秒で、ResNet-50画像を1秒あたり15,000枚処理する性能を示し、消費電力はわずか100Wです。比較対象として、NVIDIAのV100 GPUは、1秒あたり2,657枚という性能を示しました。
デュアルソケットのXeon 8180は、それよりもさらに低いパフォーマンス、つまり1,225画像/秒を達成しました。Habana氏によると、バッチサイズを1に設定した場合、Goyaチップは0.27ミリ秒のレイテンシで8,500枚のResNet-50画像を処理できます。

このレベルの推論パフォーマンスは、チップのアーキテクチャ設計、混合形式の量子化、独自のグラフ コンパイラ、およびソフトウェア ベースのメモリ管理によって実現されます。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
Habanaは、Goya推論プロセッサと組み合わせるディープラーニングトレーニングチップ「Gaudi」を発表する予定です。この2つのチップはGoyaと同じVLIWコアを採用し、ソフトウェア互換性も確保されます。16nmプロセスによるGaudiチップは、2019年第2四半期にサンプル出荷が開始される予定です。
ルシアン・アルマスは、Tom's Hardware USの寄稿ライターです。ソフトウェア関連のニュースやプライバシーとセキュリティに関する問題を取り上げています。