AMD シニア フェローの Kevin Lepak 氏が Hot Chips 2017 のステージに登壇し、EPYC の MCM (マルチチップ モジュール) 設計の背後にある理由を説明し、同社が設計プロセスの非常に早い段階で複数のダイを使用することを決定したことを思い出させました。
インテルは、Purleyサーバーイベントで、今や有名になったEPYCのスライド資料を発表しました。インテルは、AMDのEPYCデータセンターチップは「デスクトップダイを接着したもの」を使用しているに過ぎず、同社のThreadripperモデルにも採用されているマルチチップ設計はレイテンシと帯域幅の不足に悩まされ、クリティカルなワークロードのパフォーマンスを阻害していると主張しました。驚くべきことに、バークレイズはその直後にAMDの株価を格下げしました。その結果、AMDの株価は短期的に下落しました。バークレイズはインテルの主張を直接引用していませんが、その論理(および説明)は不気味なほど似ていました。
しかしAMDは、MCMアーキテクチャに伴ういくつかの課題に対処するために設計を調整し、単一のモノリシックダイと比較して41%のコスト削減を実現したと主張しています。それでは詳しく見ていきましょう。
MCMは41%のコスト削減を実現
Threadripper 1950Xのレビューで取り上げたように、AMDのCEOであるリサ・スー氏は、Intelの最高峰に匹敵する最先端のデータセンタープロセッサの開発をチームに命じました。チームは早い段階で、単一のモノリシックダイではAMDの目標であるパフォーマンス、メモリ、I/Oを達成できないことを認識していました。レパック氏は、この決定は同社のコスト予測にも基づいていたことを明らかにしました。レパック氏はモノリシックEPYCプロセッサのモックアップを提示し、2つの製造技術による製造コストを比較しました。

AMDは、EPYCダイ1個の重量が777mm 2になると予測していますが、4個のダイを搭載したMCMでは合計852mm 2のダイ面積が必要です。AMDは、この10%のダイ面積オーバーヘッドは比較的小さいと主張しています。同社はZeppelinダイをMCM構成向けに特別に設計したため、複製されたコンポーネントのダイオーバーヘッドの削減に重点を置きました。例えば、4つのInfinity Fabricリンクはそれぞれわずか2mm 2のダイ面積しか消費しません。
AMDのZeppelinダイには、メモリ、I/O、そしてSCH(サーバーコントロールハブ、ノースブリッジに類似)コントローラーが搭載されていますが、同社はこれらの冗長部品をモノリシックダイのコスト予測から除外しました。また、Infinity Fabricリンクも、単一のチップには明らかに不要なため、除外しました。
MCM全体のダイ面積が大きくなるとコストが増加すると考えるのは理にかなっています。しかし、AMDは、この設計によって実際にはコストが41%削減されると主張しています。すべてのダイは製造中に欠陥を抱えますが、大型のダイはより影響を受けやすいです。小型のダイは歩留まりが高く、欠陥によるコストへの影響を軽減します。AMDは、コアやキャッシュの欠陥を回避するために、ユニットを無効化し、そのダイを低価格のSKUに使用することも可能ですが、I/Oレーンやその他の重要なパスウェイに発生した欠陥は通常、修復不可能です。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

各ダイは4つのInfinity Fabricリンクを備えています。AMDは、トレース長、ひいてはレイテンシを最小限に抑えるため、ダイあたり3つのリンクのみを使用しています。ご覧のとおり、アクティブ化されるリンクはMCM内のダイの位置によって異なります。Threadripperモデルはダイが2つしかないため、論理的には2つのInfinity Fabricリンクのみを使用しています。
各ダイには帯域幅を最大化するために2つのI/Oコントローラが搭載されています。1つはプロセッサ間通信用に図の上部にある「G」ブロックに接続し、もう1つはPCIe接続用に下部にある「P」バンクに接続します。AMDは、分散I/Oアプローチにより、2ソケットサーバーで一貫したパフォーマンススケーリングが保証されると説明しています。Threadripperは他のプロセッサと通信する必要がないため、多少異なる構成になっていると思われます。そのため、PCIeレーン用にダイごとに1つのI/Oコントローラのみがアクティブになると考えられます。
メモリスループット
MCMアーキテクチャでは、メモリのスループットとレイテンシが低下する可能性があります。実際、これはIntelの悪名高いプレゼンテーション資料における主要な論点の一つです。AMDは、様々な構成におけるパフォーマンスを示すDRAM帯域幅テストを発表しました。「NUMAフレンドリー」帯域幅は、ダイのローカルメモリコントローラへのメモリアクセスを表し、「NUMA非対応」帯域幅は、別のダイに接続されたメモリコントローラからInfinity Fabricを介して流れるメモリトラフィックを測定します。
AMDはMCM設計に伴うメモリスループットの課題を認識していたため、その複雑さに対応するためにメモリサブシステムをオーバープロビジョニングしました。帯域幅は完全飽和状態でもわずか15%しか変化しません。特に、軽いワークロードでは、異なるアクセスタイプ間の変動が抑えられ、スループットが良好にスケーリングされます。
画像
1
の
3

AIワークロードはデータセンターで最も急速に成長している分野の一つであり、GPU間のピアツーピア(P2P)通信はAIワークロードにとって重要であり、パフォーマンスは極めて重要です。AMDのEPYCには、統合型ノースブリッジに似たSCHが搭載されています。AMDのプロセッサ内部のスイッチングメカニズムは、デバイス間通信をプロセッサのメモリサブシステムを経由せずに再ルーティングできるため、通常のスイッチとほぼ同様に機能します。これにより、EPYCプラットフォームはスイッチを使用せずに128レーンのPCIe 3.0レーンをフルに提供でき、コストと複雑さを軽減できます。もちろん、同等のパフォーマンスが得られなければ意味がありません。
AMDは、シングルソケットサーバーからのデータパフォーマンスデータを発表しました。このデータでは、データフローがInfinity Fabricを通過する際にEPYCが堅実なP2Pパフォーマンスを発揮することが示されています。また、DMAパフォーマンス指標も発表されています。「Local DRAM」列は、GPUが同じダイに接続されたメモリコントローラにDMAアクセスする際のパフォーマンスを定量化し、「die-to-die」列は、Infinity Fabricを介した別のダイへのDMAリクエストにおけるパフォーマンスを測定しています。ご覧の通り、パフォーマンスは同等で、場合によってはさらに向上しています。AMDは、コヒーレントHyperTransportプロトコルのアップデートバージョンであるInfinity Fabricが、ディレクトリテーブルを専用のSRAMバッファに保持し、マルチキャストプローブもサポートしていることを明らかにしました。

AMDはメモリスループットとスケーリングのベンチマークも発表し、Intelのプロセッサに対して目覚ましいリードを示しましたが、依然としてBroadwell世代のプロセッサとの比較となっています。レビューで確認したように、Intelの最新データセンタープロセッサは、メモリスループットにおいて世代間で大きな飛躍を遂げています。Lepak氏は、IntelのSkylakeベースのPurleyプロセッサの入手に苦労しているものの、最新の比較情報を提供できるよう取り組んでいると説明しました。(記事末尾に、クリックして展開できる形式でテストノートを掲載しています。)
最後に
AMDは正道を歩み、IntelのEPYCに関するプレゼンテーション資料に直接反論することはなかったものの、Hot ChipsプレゼンテーションではIntelの主要な主張のいくつかに反論しているように見受けられます。まず第一に、AMDはデータセンター向けにダイを特別に設計しました。Intelの「グルー」という発言は、ダイ間の相互接続(この場合はAMDのInfinity Fabric)を表す業界用語であるグルーロジックを指しています。いずれにせよ、AMDがデータセンターにデスクトップ用シリコンを単に使用しているという示唆は、確かに否定的な意味合いを帯びています。しかしながら、AMDの戦略は革新的であり、コスト削減にもつながります。Intelのプレゼンテーション資料を取り上げていた記事で述べたように、AMDは次のように述べました。
これにより、複雑なモノリシックプロセッサの製造に伴うリスクが軽減され、歩留まりの向上とコスト抑制につながる可能性があります。また、供給過剰の時期に生産量を増やすことも可能になります。インテルのような研究開発予算を投じることができないファブレス企業にとって、これは賢明な戦略と言えるでしょう。
興味深いことに、Intelのプログラマブル・ソリューションズ・グループも同展示会で同社のEMIB(Embedded Multi-die Interconnect Bridge)技術の概要を発表しました。EMIBは、個別のチップ間の通信経路を提供することで統合的な処理ソリューションを実現するもので、Intelはこれを次世代プロセッサの主要技術と位置付けています。アプローチは異なりますが、IntelのEMIBとAMDのInfinity Fabricの背後にある目的は似ており、AMDはそれが自社のアプローチの正当性を示すものだと考えています。
いずれにせよ、AMDはEPYCプロセッサで好調な業績を上げており、幅広い優良OEMおよびODMがプラットフォームを市場に投入しています。AMDはまた、中国EPYCテクノロジーサミットにおいて、テンセントが年末までに、JD.comが下半期にEPYCソリューションを導入すると発表しました。データセンターのソケット争奪戦が激化する中、今後さらなる発表が期待されます。
画像
1
の
2

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。