62
AMDのCPU-GPU Infinity Fabricの詳細

AMDは現在、x86プロセッサとディスクリートグラフィックスカードの両方を1つのプラットフォームで提供している唯一のベンダーです。少なくともIntelのXeグラフィックスが登場するまでは、Team Redはインターコネクト技術によってある程度の柔軟性を得ることができます。この技術は、高性能コンピューティング(HPC)の世界で特に有用であり、昨日のRice Oil and Gas HPCカンファレンスでのAMDのプレゼンテーションからもそれが明らかです。 

AMDは2018年のNext Horizo​​nイベントで、データセンターのMI60 Radeon Instinct GPU間のInfinity Fabricを拡張し、NVIDIAのNVLinkに似た100GbpsのGPU間リンクを実現すると発表しました。しかし、5月にFrontierスーパーコンピュータを発表した際に、AMDはこのアプローチを拡張し、CPUとGPU間のメモリコヒーレンスを実現することを明らかにしました。

(画像提供:Twitter)

毎年恒例のライス石油・ガス HPC イベントはまだ終了していませんが、昨日の Intersect 360 Research のアナリスト Addison Snell 氏のツイートによると、AMD は将来の Epyc+Radeon 世代に、AMD が Raven Ridge Ryzen 製品で実現したものと同様に、Infinity Fabric を介して GPU と CPU 間の共有メモリ/キャッシュ コヒーレンスを組み込むことを発表したそうです。 

また、エクストリーム コンピューティング リサーチ センターの上級研究科学者 Hatem Ltaief 氏のツイートのおかげで、ライス石油ガスで発表されたスライドもいくつか見ることができました。 

画像

1

5

(画像クレジット:Twitter @HatemLtaief @addisonsnell)

AMDのグラフは、セミカスタムSoCやFPGA、GPGPU、汎用x86コンピューティングコアなど、様々なコンピューティングソリューションの電力効率の差を浮き彫りにし、消費電力とそのパフォーマンスを実現するために必要なシリコン面積に対するFLOPSパフォーマンスを示しています。ご覧の通り、汎用CPUは遅れをとっていますが、専用のSIMDパスウェイを使用するベクトル化コード向けの最適化により、両方の指標でパフォーマンスを向上させることができます。しかしながら、GPUは電力効率と消費面積の両方において依然として圧倒的なリードを維持しています。 

同社が Ryzen APU で行っているように、キャッシュ コヒーレンスを活用することで、両方の長所を活かすことができ、スライドによれば、データが統合され、「すべてのコードに対して CPU+GPU へのシンプルなオンランプ」が提供されます。 

AMD は、統合メモリなしで GPU を使用するために必要なコードの例もいくつか提供しましたが、統合メモリ アーキテクチャに対応すると、実際にはコーディングの負担が大幅に軽減されます。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

AMDは、Carrizoの固定機能ブロックを統合するためにヘテロジニアス・システム・アーキテクチャ(HSA - 詳細はこちら)を採用し、マーケティング資料でその機能を宣伝したことで有名です。CPUとGPU間のInfinity Fabricリンクを拡張するアプローチと同様に、HSAはキャッシュコヒーレントな共有仮想メモリプールを提供し、コンポーネント間のデータ転送を排除することでレイテンシを低減し、パフォーマンスを向上させます。 

例えば、CPUがデータ処理タスクを完了した後も、GPUでの処理が必要な場合があります。この場合、CPUはデータをメモリ空間からGPUメモリに渡し、GPUがデータを処理してCPUに返します。この複雑なプロセスはレイテンシを増加させ、パフォーマンスの低下を招きますが、共有メモリを利用することでGPUはCPUが使用していたのと同じメモリにアクセスできるため、ソフトウェアスタックが削減され、簡素化されます。

データ転送は実際の計算自体よりも多くの電力を消費することが多いため、それらの転送をなくすことでパフォーマンスと効率の両方が向上し、個別の GPU と CPU 間でメモリを共有することでそれらの利点をシステム レベルにまで拡張することで、AMD は HPC 分野で競合他社に対して明確な優位性を獲得します。 

AMDは依然としてHSA財団のメンバーであるように見えますが、報道機関とのコミュニケーションにおいてHSAを積極的に宣伝することはなくなりました。いずれにせよ、オープンアーキテクチャの中核理念がAMDの新しい独自実装に引き継がれていることは明らかです。この実装は、現在DOEの支援の恩恵を受けているオープンなROCmソフトウェアエコシステムに大きく依存していると考えられます。 

AMDはこの分野で先駆的な取り組みを行い、エクサスケールクラスのシステムで大きな成功を収めてきました。その中には、2エクサフロップスを達成し、最新のInfinity Fabric 3.0を搭載したEl Capitanスーパーコンピュータも含まれます。一方、Intelも米国エネルギー省(DOE)のアルゴンヌ国立研究所にあるAuroraスーパーコンピュータの基盤となるPonte Vecchioアーキテクチャの開発に取り組んでいます。IntelのアプローチはOneAPIプログラミングモデルを強く活用しており、CPUとGPU間の共有メモリプール(愛称Rambo Cache)を統合することを目指しています。今後、より多くの情報が明らかになるにつれ、両アプローチの違いについてより深く理解していくのは興味深いことでしょう。 

一方、NVIDIAはCPUとGPUの両方を製造しておらず、同様の機能を実現できないため、スーパーコンピュータ分野で苦戦する可能性があります。許容できる電力範囲でエクサスケールクラスの性能を達成するには、この種のアーキテクチャと、その基盤となる統合プログラミングモデルが必要でしょうか?これは未解決の問題ですが、NVIDIAはコヒーレンス機能を提供するはずのCXLコンソーシアムの一員であり、AMDとIntelの両社は米国エネルギー省のエクサスケールクラスのスーパーコンピュータ向けに非常に重要な契約を獲得しています(より広範なサーバーエコシステムでは、勝利したHPC技術がしばしば採用されます)。しかし、NVIDIAはHPCおよびデータセンター分野のGPUアクセラレーションコンピューティングで優位に立っているにもかかわらず、そのような契約獲得について何も発表していません。 

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。