AMDは、I/Oダイ(IOD)上に積層された機械学習(ML)アクセラレータを搭載したプロセッサの特許を取得しました。この特許は、AMDがFPGAまたはGPUベースの機械学習アクセラレータを統合した、特殊用途向けまたはデータセンター向けシステムオンチップ(SoC)の開発を計画している可能性を示唆しています。
AMDがCPUにキャッシュを追加できるようになったように、プロセッサI/Oダイの上にFPGAやGPUを追加する可能性もある。しかし、さらに重要なのは、この技術によって、同社が将来のCPU SoCに他の種類のアクセラレータを追加できるようになることだ。他の特許取得済み製品と同様に、この特許によってその技術を採用した設計が必ず市場に出るという保証はない。しかし、この特許はAMDの研究開発の方向性を示唆しており、この技術をベースにした製品、あるいはそれに近い派生製品が市場に出る可能性もある。
I/O ダイの上に AI/ML アクセラレータをスタックする
AMD は、アクセラレータを追加するいくつかの方法を説明しています。1 つは、独自のローカル メモリを持つアクセラレータを使用するもので、もう 1 つは、そのようなアクセラレータが IOD に接続されたメモリを使用することを意味します。3 番目のシナリオでは、アクセラレータがシステム メモリを使用する可能性があり、この場合は、IOD の上にスタックする必要さえありません。
画像
1
の
3

機械学習技術は、将来のデータセンターで広く利用されるでしょう。しかし、競争力を高めるためには、AMDは自社のチップを用いて機械学習ワークロードを高速化する必要があります。CPU I/Oダイ上に機械学習アクセラレータを積層することで、高価なカスタムの機械学習最適化シリコンをCPUチップレットに統合することなく、機械学習ワークロードを大幅に高速化できます。また、密度、消費電力、データスループットの面でも優位性が得られます。
この特許は2020年9月25日に出願されました。これは、AMDとザイリンクスが両社の経営陣がAMDによるザイリンクスの買収に関する最終合意に達したと発表した1か月強前のことでした。この特許は2022年3月31日に公開され、AMDフェローのマキシム・V・カザコフ氏が発明者として記載されています。ザイリンクスのIPを採用したAMDの最初の製品は2023年に発売される予定です。
AMDがこの特許を実際の製品に適用するかどうかは不明ですが、ほぼあらゆるCPUに機械学習機能を追加できるという容易さを考えると、このアイデアは実現可能だと考えられます。AMDのコードネーム「EPYC Genoa」および「Bergamo」プロセッサがアクセラレータポートを備えたI/Oダイを使用していると仮定すると、機械学習アクセラレータを搭載したGenoa-AI CPUやBergamo-AI CPUが登場する可能性は十分にあります。
AMDが第5世代EPYC「Turin」プロセッサで600Wのコンフィギュラブル熱設計電力(cTDP)を検討しているとの噂も注目に値します。これは、現世代EPYC 7003シリーズ「Milan」プロセッサのcTDPの2倍以上となります。さらに、AMDの第4世代および第5世代EPYC CPU向けのSP5プラットフォームは、プロセッサに非常に短時間で最大700Wの電力を供給します。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
AMDの将来の96~128(GenoaおよびBergamo)CPUがどれだけの電力を必要とするかは不明ですが、プロセッサパッケージにMLアクセラレータを追加すると、消費電力は確実に増加します。そのため、次世代サーバープラットフォームがスタック型アクセラレータを搭載したCPUをサポートできるようにすることは非常に理にかなっています。
究極のデータセンターSoCの構築
AMD は、2006 年に ATI Technologies を買収して以来、データセンターのアクセラレーテッド プロセッシング ユニット (APU) について語ってきました。過去 15 年間にわたり、一般的なワークロード用の汎用 x86 コアと、高度に並列化されたワークロード用の Radeon GPU を統合した複数のデータセンター APU プロジェクトについて耳にしてきました。
これらのプロジェクトはどちらも実現していませんが、それには多くの理由があります。AMDのBulldozerコアは競争力がなかったため、需要が非常に限られる可能性のある大型で高価なチップを開発するのはあまり意味がありませんでした。また、従来のRadeon GPUはデータセンター/AI/ML/HPCワークロードに必要なすべてのデータ形式と命令をサポートしておらず、AMD初のコンピューティング中心のCDNAベースGPUが登場したのは2020年になってからでした。
しかし、AMDが競争力のあるx86マイクロアーキテクチャ、コンピューティング指向のGPUアーキテクチャ、XilinxのFPGAポートフォリオ、そしてPensandoのプログラマブルプロセッサファミリを擁する現在、これらの多様なIPブロックを単一の大型チップに統合することは、あまり理にかなっていないかもしれません。むしろ、TSMCが提供する今日のパッケージング技術とAMD独自のInfinity Fabric相互接続技術を活用すれば、汎用x86プロセッサチップレット、I/Oダイ、そしてGPUまたはFPGAベースのアクセラレータを搭載したマルチタイル(またはマルチチップレット)モジュールを構築する方がはるかに理にかなっています。
実際、多様なIPを内蔵した大規模なモノリシックCPUよりも、マルチチップレットのデータセンタープロセッサを構築する方が理にかなっています。例えば、マルチタイルのデータセンターAPUは、TSMCのN4Xパフォーマンス最適化ノードで製造されたCPUタイルと、密度最適化されたN3Eプロセス技術で製造されたGPUまたはFPGAアクセラレータタイルのメリットを享受できます。
ユニバーサルアクセラレータポート
この特許のもう一つの重要な部分は、FPGAやコンピューティングGPUを用いて機械学習ワークロードを高速化するために設計された特定の実装ではなく、あらゆるCPUに専用アクセラレータを追加するという原理です。アクセラレータポートはAMDのI/Oダイに提供される汎用インターフェースとなるため、AMDは将来的に、クライアントやデータセンターアプリケーション向けのプロセッサに、他の種類のアクセラレータを追加できるようになるでしょう。
「本明細書の開示に基づいて、多くのバリエーションが可能であることを理解されたい」と特許の説明には記されている。「適切なプロセッサには、例えば、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、グラフィックスプロセッサ、機械学習プロセッサ、[DSP、ASIC、FPGA]、その他の種類の集積回路(IC)が含まれる。[…] このようなプロセッサは、処理されたハードウェア記述言語(HDL)命令の結果と、ネットリスト(このような命令はコンピュータ読み取り可能な媒体に保存可能)を含むその他の中間データを用いて製造プロセスを構成することで製造することができる。」
FPGA、GPU、DSPは現在でも様々なアプリケーションに活用できますが、データセンター向けのデータ処理ユニット(DPU)などは今後ますます重要性を増すでしょう。DPUは基本的に、AMDが現在たまたま提供している新興アプリケーションです。しかし、データセンターがより多くの種類のデータをより高速に処理するように進化するにつれて(AppleがProRes RAWなどのアプリケーション固有のアクセラレーションをクライアントSoCに統合しているように、クライアントPCも同様に進化し)、アクセラレータはより一般的になりつつあります。つまり、あらゆる、あるいはほぼすべてのサーバープロセッサにアクセラレータを追加する方法があるはずです。実際、AMDのアクセラレータポートは、そのための比較的シンプルな方法です。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。