
Nvidiaは、サンノゼで開催されたGTCで、長らく待望されていたVolta GPUアーキテクチャの幕を一部開け、GV100 GPUとその最初の派生製品であるTesla V100を披露しました。NvidiaがVoltaという名称を初めてGTCで発表したのは2013年のことですが、その後、興味深い詳細が明らかになるまで4年かかりました。しかし、ゲーマーの方はまだ期待しすぎないでください。Nvidiaは今でもPascalベースの製品(発売からわずか1年かそれ以下)を売り込んでいます。一方、AIや高性能コンピューター(HPC)市場で活躍する方なら、Voltaのこの第一段階は間もなく登場するでしょう。
Volta GV100 GPUアーキテクチャ

Volta GV100 GPUは、12nm TSMC FFNプロセスを採用し、210億個を超えるトランジスタを搭載し、ディープラーニングアプリケーション向けに設計されています。815mm²のダイサイズは、TSMCの現在の能力の限界に挑戦するものです。NVIDIAは、現在のプロセス技術ではこれ以上の大型GPUを開発することは不可能だと述べています。GV100以前にNVIDIAが製造した最大のGPUはGP100で、面積は610mm²、トランジスタ数は153億個でした。GV100はGP100より30%以上大きくなっています。

Volta の完全な GV100 GPU は 84 個の SM (各 SM には 4 つのテクスチャ ユニット、64 個の FP32 コア、64 個の INT32 コア、32 個の FP64 コア) を備え、SM ごとに 128KB の共有 L1 キャッシュが搭載され、テクスチャ キャッシュと共有メモリの比率を自由に設定できます。GP100 は 60 個の SM と合計 3,840 個の CUDA コアを備えていました。Volta SM には、Tensor ディープラーニングの 4x4 行列演算に特化した新しいタイプのコアも搭載されています。GV100 は SM ごとに 8 個の Tensor コアを搭載し、トレーニングと推論の処理能力を合計 120 TFLOPS に高めます。計算を省くと、これにより完全な GV100 GPU は 5,376 個の FP32 および INT32 コア、2,688 個の FP64 コア、336 個のテクスチャ ユニットという驚異的な性能になります。

GP100と同様に、TPCごとに2つのSMを搭載しています。GV100では合計42TPCです。つまり、合計6つのGPCとなります。
GV100はGP100と同様に4つのHBM2メモリを搭載しており、各スタックは2つのメモリコントローラによって制御されます。ちなみに、512ビットのメモリコントローラが8つ搭載されており(このGPUのメモリバス幅は合計4,096ビット)、各メモリコントローラは768KBのL2キャッシュに接続され、合計6MBのL2キャッシュを備えています(Pascalは4MB)。

テスラV100
新しいNvidia Tesla V100は、80個のSMを搭載し、合計5,120個のCUDAコアを備えています。FP64、FP32、Tensor演算ではそれぞれ7.5、15、120TFLOPSに達するポテンシャルを秘めています。
画像
1
の
4

Tesla V100は16GBのHBM2メモリを搭載し、最大900GB/秒の転送速度を実現します。NVIDIAがTesla V100に搭載したSamsung製メモリは、Tesla P100カードに搭載されているメモリよりも180GB/秒高速です。NVIDIAによると、これは市場で入手可能な最速のメモリを使用しているとのことです。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
Tesla V100 では第 2 世代の NVLink も導入されており、GPU あたり 6 つの 25 GB/秒の NVLink で最大 300 GB/秒を実現します。

これらの数値を視覚的に捉えると、NvidiaのPascalベースTesla P100は56個のSMと3,584個のCUDAコアを搭載し、FP64演算で最大5.3 TFLP、FP32演算で最大10.6 TFLOPの性能を発揮します。V100はP100と比較してFP32演算能力が30%向上し、FP64性能はほぼ50%向上しています。また、NvidiaはTesla V100のNVLink帯域幅を50%向上させました。これは、Tesla P100と比較してGPUあたり2つのNVLinkを追加し、各NVLinkの帯域幅を5GB/秒増加させたためです。

Nvidiaによれば、Tesla V100のTDPは300Wで、これはTesla P100と同じ電力要件だ。
スワイプして水平にスクロールします
| ヘッダーセル - 列 0 | V100 | P100 |
|---|---|---|
| SMS | 80 | 56 |
| コア | - 5,120 (FP32)- 2,560 (FP64) | - 3,584 (FP32) - 1,792 (FP64) |
| ブーストクロック | 1,455MHz | 1,480MHz |
| テラフロップス | - 7.5 (FP64)- 15 (FP32)- 120 テンソル | - 5.3 (FP64) - 10.3 (FP32) |
| テクスチャユニット | 320 | 224 |
| メモリ | 16GB 4096ビット HBM2 | 16GB 4096ビット HBM2 |
| データレート | 900 GB/秒 | 720 GB/秒 |
| トランジスタ | 211億 | 153億 |
| 製造工程 | 12nm FFN | 16nm フィンFET+ |
デレク・フォレストはTom's Hardwareのフリーランスライターとして活躍していました。ゲーミングデスクトップとノートパソコンを中心に、ハードウェアのニュースやレビューを執筆していました。