86
Nvidia、GK110ベースの71億トランジスタスーパーGPUを発表

NvidiaのGK104チップについては周知の事実です。このチップは最近、魅力的なGeForce GTX 690にデュアル構成で搭載され、私たちのラボを駆け巡っています。このカードは(今のところ)ゲーミングの王者ですが、Nvidia KeplerベースのGPUの最高峰はまだ登場していません。

今週、サンノゼで開催された Nvidia GPU テクノロジー カンファレンスで、グラフィックス カンパニーは、本格的なビジネス向けのプロフェッショナル レベルのグラフィックス カードである Tesla K20 を動かす Kepler ベースの GK110 GPU を発表しました。

エヌビディア テスラ K20

エヌビディア テスラ K20

ハードウェアの観点から今回のカンファレンスで発表される目玉は、間違いなくGK110でしょう。28nmプロセスを採用し、驚異の71億個のトランジスタを搭載しています。また、GK104では物足りなさを感じていたコンピューティング機能もすべて搭載されるとされています。NVIDIAのCEO、ジェンスン・フアン氏は基調講演後の質疑応答で、GK110は「地球上で市販されている最も複雑なIC」だと述べました。

GK110には71億個のトランジスタが搭載されている

GK110には71億個のトランジスタが搭載されている

比較すると、複雑さとトランジスタ数で次に大きいのは、ザイリンクスのVirtex-7 2000T FPGAで、200万個のロジックセルと68億個のトランジスタを集積しています。比較対象として、Intelの10コアXeon Westmere-EXは26億個のトランジスタを搭載しています。

GK110は15個のSMXユニットを搭載し、ユニットあたり192個のCUDAコアを搭載しているため、合計2,880個のCUDAコアを備えています。NVIDIAはTesla K20製品の詳細な仕様をまだ明らかにしていませんが、すべてのボードで15個のSMXユニットすべてが動作するわけではないことを示唆しています。いずれにせよ、ほとんどのTesla K20実装では、少なくとも約2,496個のCUDAコアが使用されると予想されます。

メモリバスは6つの64ビットコントローラを並列に配置し、384ビットにアップグレードされました。メモリ容量そのものについては、NVIDIAは具体的な数値を明らかにしませんでした。回答を求められると、Huang氏は「十分ではありません」と簡潔に答えました。

さらに彼は、「384 ビットの背後に可能な限り高速なメモリを配置する」と説明し、「[K20 が] 解決しようとしている問題は非常に大きいため、おそらく十分ではないだろう」と付け加えた。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

残念ながら、GK110 はまだ完成していないため、2012 年第 4 四半期まではお目にかかれません。発売されると、GK110 GPU は、テネシー州のオークリッジ国立研究所の新しい Titan スーパーコンピューターと、イリノイ大学アーバナ・シャンペーン校の国立スーパーコンピューティング応用センターの Blue Waters システムに組み込まれる予定です。

KeplerベースのTesla製品を今すぐお求めの方のために、NVIDIAはGK104ベースのTesla K10も発表しました。これは即時入手可能です。このアクセラレータボードは、2基のGK104 Kepler GPUを搭載し、ピーク単精度浮動小数点演算で4.58テラフロップス、メモリ帯域幅は320GB/秒です。

Tesla K10 はすでに石油・ガス産業、信号・画像処理の分野で利用されています。

エヌビディア テスラ K10

エヌビディア テスラ K10

「Fermiはコンピューティングにおける大きな前進でした」と、NVIDIAのチーフサイエンティスト兼研究担当シニアバイスプレジデントであるビル・ダリー氏は述べています。「Fermiは、GPUアクセラレーテッドコンピューティングをハイパフォーマンスコンピューティングのトップレベルに確立し、数十万人もの開発者をGPUコンピューティングプラットフォームに惹きつけました。Keplerも同様に破壊的なインパクトを与えるでしょう。GPUの使いやすさ、幅広い適用性、そして効率性により、技術コンピューティング分野へのGPUの普及を促進するでしょう。」

NvidiaのCEO、ジェンスン・フアン氏が基調講演で説明したように、KeplerベースのTeslaカードには、Fermiに対する優位性を高める3つの新たなイノベーションが搭載されています。

  • SMXストリーミング・マルチプロセッサ- あらゆるGPUの基本構成要素であるSMXストリーミング・マルチプロセッサは、高性能とエネルギー効率を徹底的に追求して再設計されました。ワットあたりの性能はFermiストリーミング・マルチプロセッサと比較して最大3倍向上し、わずか10台のサーバーラックで1ペタフロップスの演算性能を持つスーパーコンピュータの構築を可能にします。SMXのエネルギー効率は、CUDAアーキテクチャ・コア数を4倍に増やし、各コアのクロック速度を低下させ、アイドル時にGPUの一部をパワーゲーティングし、制御ロジックではなく並列処理コアに割り当てるGPU領域を最大化することで実現しました。
  • 動的並列処理- この機能により、GPUスレッドは動的に新しいスレッドを生成できるようになり、GPUはデータに動的に適応できるようになります。これにより並列プログラミングが大幅に簡素化され、アダプティブメッシュリファインメント、高速多重極法、マルチグリッド法など、より幅広い一般的なアルゴリズムのGPUアクセラレーションが可能になります。
  • Hyper-Q -- 複数のCPUコアが単一のKepler GPU上のCUDAアーキテクチャコアを同時に使用できるようになります。これによりGPU使用率が大幅に向上し、CPUのアイドル時間が大幅に短縮され、プログラミング性が向上します。Hyper-Qは、MPIを使用するクラスターアプリケーションに最適です。
     

Nvidia GTC 基調講演のライブブログで詳細を読んで、Nvidia がGeForce Grid を使ってクラウドでのゲーム用にどのようなアプリケーションを計画しているかを確認してください。

詳細はTwitterの@MarcusYamからご覧ください。

マーカス・ヤムは、2008年から2014年までTom's Hardwareのニュースディレクターを務めました。彼は90年代後半にテクノロジーメディアの世界に入り、オーバークロックされたCeleron 300AとVoodoo2 SLIで、究極のストリート信用を誇るゲーミングマシンを構成していた時代を懐かしく思い出します。