Nvidia の CUDA: CPU の終焉?

15ページ中2ページ目:

その間...

一方、CPU メーカーが問題の解決策を見つけるのに頭を悩ませている一方で、GPU メーカーはムーアの法則の利点からこれまで以上に恩恵を受け続けていました。

なぜ彼らは、CPU を設計する同僚たちと同じようなハンディキャップを受けなかったのでしょうか。その理由は非常に単純です。CPU は、整数や浮動小数点計算などの多様なデータを処理し、ランダムメモリアクセス、分岐などを実行する命令のストリームから最大のパフォーマンスを引き出すように設計されているからです。その時点まで、設計者は命令の並列性を高めること、つまり、できるだけ多くの命令を並列に実行することに取り組んでいました。その結果、Pentium はスーパースカラー実行を導入し、特定の条件下で 1 サイクルあたり 2 つの命令を実行できるようになりました。Pentium Pro は、計算ユニットを最適に使用するために、命令のアウトオブオーダー実行を導入しました。問題は、連続した命令のストリームから実現できる並列性には限界があり、したがって、計算ユニットの数をやみくもに増やしても意味がないということです。計算ユニットはほとんどの時間使用されないままになるからです。

対照的に、GPUの動作は極めてシンプルです。その仕事は、一方でポリゴンのグループを受け取り、他方でピクセルのグループを生成することにあります。ポリゴンとピクセルは互いに独立しているため、並列ユニットで処理できます。つまり、GPUはCPUとは異なり、実際に使用される計算ユニットにダイの大部分を割り当てることができるのです。

GPUはCPUとは別の点でも異なります。GPUのメモリアクセスは非常に一貫性が高く、あるテクセルが読み込まれると、数サイクル後に隣接するテクセルが読み込まれ、あるピクセルが書き込まれると、数サイクル後に隣接するピクセルが書き込まれます。メモリをインテリジェントに構成することで、パフォーマンスは理論上の帯域幅に近づきます。つまり、GPUはCPUとは異なり、主にテクスチャ処理の高速化を目的としているため、膨大なキャッシュを必要としません。バイリニアフィルタやトライリニアフィルタで使用される少数のテクセルを格納するのに必要なのは、わずか数キロバイトです。