44
Intel、Hot Chips 2020でSunny Coveコア搭載の10nm+ Xeon Ice Lake-SPの詳細を発表

IntelはHot Chips 2020で、長らく待望されていた10nm Ice Lake Xeonプロセッサに関する詳細情報をついに公開しました。IPCが約18%向上するという驚異的な性能を概説し、同社のデータセンターおよびハイエンドデスクトップ(HEDT)プラットフォームの今後の展望を垣間​​見せてくれました。Intelは長年にわたり、HEDTとデータセンターチップの両方にXeonダイ設計を採用してきましたが、両者の間には若干の修正が加えられてきました。つまり、Ice Lakeの設計は、Intelが近い将来HEDT向けにどのような計画を持っているかを垣間見せてくれるのです。 

数年にわたる遅延の後、Intelの10nm Xeon Ice Lakeチップは、データセンター市場におけるIntelの優位性を蝕み続けるAMDのEPYC Rome CPUに対抗すべく、Intelにとって待望の製品です。IntelはEPYC Romeとの競争力を維持するためにXeonの価格を大幅に引き下げましたが、ワークステーションおよびHEDTセグメントでは、AMDのThreadripperプロセッサがIntelの最高級プロセッサの2倍以上のコア数を搭載していることから、さらなる課題に直面しています。

画像

1

5

(画像提供:Intel、Hot Chips 2020より)

Intelが以前発表したように、Ice LakeチップはデュアルソケットのWhitleyサーバープラットフォームに搭載され、既に発表済みのCooper Lakeはクアッドソケットおよびオクトソケットサーバーに搭載されます。Intelのプレゼンテーションでは、Cascade Lakeプロセッサと同じコア数、周波数、帯域幅で、合計約18%のIPC向上(SPECIntRateの幾何平均)を実現する、よりきめ細かなアーキテクチャ最適化について詳しく説明されました(これはSoCではなく、Sunny CoveコアのIPC向上を示しています)。Intelによると、Ice Lakeの周波数とメモリ帯域幅の向上により、さらに大きなIPC向上が実現できるとのことです。

Intelはまた、キャッシュ、メモリ、スループットの向上をもたらす、同社の28コアダイの大幅な再編についても強調しました。注目すべきは、IntelがIce Lakeプロセッサで利用可能な最大コア数を明らかにしていないことです。そのため、これらがHCC(High Core Count)設計なのかXCC(Xtreme Core Count)設計なのかは不明です。

IntelはIce Lakeを10nm+プロセスで製造しているが、これは同社の新しい10nm SuperFinテクノロジーとは異なるため、紛らわしい。Sunny Coveコアは、より広いメモリ割り当て(4ワイドではなく5ワイド)や、改良された分岐予測機能と組み合わせた実行ユニットなど、多くの新機能を搭載している。IntelはL2キャッシュを1.25MBに増強し、トランザクション・ルックアサイド・バッファ(TLB - 1.5Kから2Kエントリ)を改良した。また、L1Dキャッシュを48KBに増加し、2つ目のFMA(コンシューマー向けIce LakeチップにはFMAが1つしか搭載されていない)を追加した。 

Intelはまた、アウトオブオーダーウィンドウ(ROB)を224エントリから384エントリに拡張しました[編集: Intelは表の誤記を訂正しました。ROBはIce Lakeモバイルと同じく352です]。また、インフライトロード+ストアエントリを128+72に増加しました(Cascade Lakeチップの72+56エントリに対して)。スケジューラエントリも97から160に増加しました。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Intelは、暗号化性能を向上させるためのVPMADD52、GFNI、SHA-NI、Vector AES、Vector Carry-Less乗算命令などの多数の新命令のサポートに加え、圧縮/解凍性能を向上させるための新命令もいくつか追加しました。これらの命令はすべてAVXアクセラレーションに大きく依存しており、IntelはAVXアクセラレーションも大幅に改善しました(詳細は後述)。Intelによると、これらの命令により、コアあたりの性能がCascade Lakeと比較して1.5倍から8倍(これもISOクロックとコア数による)向上するとのことです(上記の3枚目のスライドを参照)。

画像

1

7

(画像提供:Intel、Hot Chips 2020より)

IntelはSoCアーキテクチャにも大幅な変更を加え、メモリ階層とI/Oサブシステムを刷新しました。コヒーレントメッシュインターコネクトは、Cascade Lake-SPラインナップと同様の水平および垂直リングの配置で復活しましたが、コア、UPI接続、そして4つのデュアルチャネルコントローラに分割された8つのDDR4メモリチャネルなど、様々な要素が再配置されています。Intelはコア配置を変更し、ダイの下部に2つの実行コアを配置し、I/Oコントローラとクラスター化しました(一部のI/Oもダイの下部に配置されています)。

Intelは、キャッシュ・ホームエージェントとスヌープ・フィルタ要素の配置が類似しているため、共有キャッシュはすべてのコアで均一なレイテンシで利用可能であると主張しています。しかし、この設計では、水平方向に並んだコアへの1サイクルのトラバーサルに対し、一部の垂直列間のコア・トラバーサルには2サイクルのレイテンシのペナルティが伴います。

Intelはチップを再設計し、2つの新しいサイドバンドファブリックをサポートしました。1つは電力管理を制御し、もう1つは汎用管理トラフィックに使用されます。これらのファブリックは、実行コア、メモリコントローラ、PCIe/UPIコントローラなどの様々なIPブロックにテレメトリデータと制御を提供します。これは、SoC構造向けのサイドバンドテレメトリ/制御メカニズムを備えたAMDのInfinity Fabricに類似しています。

ダイには、コア間の帯域幅を向上させるための独立したピアツーピア(P2P)ファブリックが搭載されており、I/Oサブシステムも仮想化されています。Intelによると、これによりCascade Lakeと比較して最大3倍のファブリック帯域幅が実現します。また、IntelはUPIブロックの1つを2つに分割し、合計3つのUPIリンクを作成しました。これらのUPIリンクはすべて、きめ細かな電力制御が可能です。専用PLLのおかげで、3つのUPIはすべて、負荷に応じてクロック周波数を独立して変調できます。

PCIe 4.0は、IntelのXeonラインナップにも遅ればせながら搭載されました。これは、AMDのEPYCに対抗する上で重要な要件です。4つのデュアルチャネルメモリコントローラも、EPYCのチャネル単位で対応するようになり、AES-XTS 128ビットハードウェア生成キーによるDRAM暗号化を提供するIntelのTotal Memory Encryption(TME)をサポートするようになりました。これは、AMDのEPYCプロセッサと比較してIntelが不足していた領域への対応にも役立ちますが、AMDの実装と同様に、パフォーマンスが「数」パーセント低下することになります。

Intelの前世代メモリコントローラはOptaneメモリをサポートしていましたが、標準DRAMよりも低速だったため、システムメモリはOptaneのデータ転送速度に合わせてクロックダウンしていました。これらの速度は、200シリーズOptane DIMMによって同等になりました。

Intel は、他のいくつかの最適化 (スライド 5) と連携して、Ice Lake がコアあたりのメモリ帯域幅で大幅なパフォーマンス向上を実現すると主張しています (スライド 6)。

画像

1

4

(画像提供:Intel、Hot Chips 2020より)

AVX命令を高密度に実装することで、適切にチューニングされたワークロードのパフォーマンスが向上しますが、消費電力と熱負荷の増加を犠牲にしています。そのため、IntelのCascade Lake CPUは、AVX、AVX2、およびAVX-512に最適化されたワークロードでは動作周波数が低く(約600~900MHz)、AVXコードの普及を阻害してきました。そのため、IntelによるAVX実装の変更は歓迎すべきものです。

Intelは、周波数への影響を最小限に抑えるためにAVXの電力制限を再設定し、AVX-512およびAVX-256命令の周波数を(未指定で)向上させました。これは、最初のスライドで概説されているように、命令の種類ごとに3つの異なる電力レベルに基づいて適応的に行われます。これにより、256命令を多用する命令と512命令を軽用する命令において、AVXとSSE間の周波数差はほぼ解消され、512命令を多用する命令でも大幅な向上が見られました。これは大きな改善であり、Intelの最新命令の採用拡大を促すはずです。

Intelはまた、コアの電源状態遷移に伴うレイテンシであるPステート遷移を「極めて瞬時」な動作によって短縮しました。12マイクロ秒から約0マイクロ秒への短縮を記録しており、これは驚異的な改善です。Intelはメッシュ周波数遷移についても同様に印象的な短縮を実現し、約3分の1にまで短縮しました。また、C6終了時の典型的なレイテンシも30%削減しました。

総じて、IntelのIce Lake-SPは大きな前進と言えるでしょう。パフォーマンスの向上は理論上は素晴らしいように見えますが、真実は実際に市場に投入されるシリコンに宿ります。また、AMDも独自の大幅な機能強化と(少なくとも)業界最高クラスの64コアを搭載したAMD EPYC Milanプロセッサを市場に投入することが分かっています。どちらのラインナップも年末に発売予定です。そのため、IntelがIce Lake-SPラインナップを展開する上で、価格と入手可能性が鍵となるでしょう。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。