80
Neoverseのロードマップは、NVIDIAがArmを狙う理由を説明

NVIDIAは先日、400億ドルという巨額の買収計画を発表しました。NVIDIA CEOのジェンスン・フアン氏は、ARMのデータセンターアーキテクチャの将来に対する強い信念を表明しました。ライセンスモデルを活用してGeForceの普及を促進するだけでなく、ARMのCPUロードマップを加速させ、ライセンシーへのイノベーションのスピードアップも計画しているとフアン氏は述べ、NVIDIAブランドのARM CPUについてもその可能性を示唆しました。どちらもデータセンターにおける勢力図に根本的な変化をもたらす可能性があります。 

今日、Huang氏がARMのデータセンター市場の将来性について強気な見方をしている理由が明らかになりました。ARMは新しいV1「Zeus」サーバーコアを発表しました。このコアは、現行のN1コアと比較してIPCが最大50%向上し、スケーラブルなベクトル拡張とHBM2eを採用していることを謳っており、Neoverseプラットフォームがパフォーマンス面で猛烈なスピードで進化していることを示唆しています。x86市場では、このような世代交代はめったに見られません。 

ARMはまた、限られたTDPに可能な限り多くのコアを搭載しながらもIPCを40%向上させるよう設計されたN2プラットフォームも発表しました。これは、同社がスケーラビリティの選択肢も備えていることを示しています。最大128コア、HBM3、そして大幅に向上したシングルスレッド性能の組み合わせは、高性能スケールアウト実装にとって大きな可能性を秘めています。 

ARM はまた、業界標準プロトコルを活用した次世代のコヒーレント チップレット ベースの設計と異種コンピューティング ソリューションに関する計画の概要も発表し、同社がさらに先を見据えて、AMD や Intel の x86 チップに見られる最先端技術に匹敵する計画も立てていることを示しました。 

2 つの新しい設計では、7nm と 5nm の両方の設計、PCIe 5.0、DDR5、HBM2E/HBM3 がサポートされ、いずれもデータ センター技術の最先端を代表しています。  

Nvidiaは、すべてが計画通りに進んだ場合(そしてもしそうなれば)、すでに素晴らしいARMロードマップをさらに加速させるつもりで、2022年頃に経営を引き継ぎます。これにより、Neoverseプラットフォームはより短期間で業界を席巻するでしょう。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

NVIDIAのIPをARMポートフォリオに組み込むことで、NVIDIA GPUのより緊密な統合やARMアーキテクチャとのネットワーク化など、両社にとって新たな可能性が生まれます。NVIDIAのグラフィックスおよびDPU IPは、ARMのチップレットベースの野望とうまく連携する高性能チップレット(APUスタイルの実装も可能)としても機能する可能性があります。 

ARM Neoverse ロードマップ

画像

1

2

(画像提供:ARM)

他の多くの半導体ベンダーと同様に、ARMは特定の電力、性能、面積(PPA)目標を満たすようにチップを設計し、これらの軸を調整することで最終的なソリューションを決定します。そのため、ARMの3つのプラットフォームはそれぞれ特定の目標に合わせて調整されています。

  • Nシリーズ: 電力(ワット)あたりのパフォーマンスと面積あたりのパフォーマンスに最適化
  • Eシリーズ: 電力と面積を最適化 - パフォーマンスを犠牲にして効率を重視
  • Vシリーズ: 電力と面積を犠牲にして、最大のパフォーマンスを実現するように最適化

ARM の 3 本柱のアプローチは、スケールアウト (N シリーズ)、エッジ型デバイス (E シリーズ)、スケールアウトの高性能コンピューティング、高性能クラウド、機械学習 (V シリーズ) を対象としています。

ARMはまた、2022年以降に登場予定の次世代Poseidonプラットフォームについても発表しました。同社は、IPCが30%向上し続けると予測しており、これらの設計は5nmまたは3nmプロセスノードをベースにすることで、より多くのコア数に対応します。ARMはまた、ベクトル化/機械学習ワークロードにおけるパフォーマンスの向上についても発表しました。これらのチップは、PCIe 6.0などの将来技術や、まだ定義されていないCCIXおよびCXLインターフェースの新バージョンも採用する予定です。 

「Zeus」V1およびN2「Perseus」設計をベースにしたチップは、7nmまたは5nmプロセスで提供され、PCIe 5.0、DDR5、HBM2eまたはHBM3をサポートします。コヒーレントインターコネクトに関しては、V1はCCIX 1.1をサポートし、N2はCCIX 2.0およびCXL 2.0へと進化しています。 

ARM Neoverse V1 プラットフォーム

(画像提供:ARM)

ARMは具体的なマイクロアーキテクチャの詳細をまだ明らかにしていませんが、V1ではN1プラットフォームと比較してIPC(スライドではsTと表記)が50%も大幅に向上すると予測しています。これはARMが数年前に設定した30%という目標を上回り、バッファ、キャッシュ、ウィンドウ、キューの大型化といったアーキテクチャの最適化によるものです。プロセスノードやTDP制限による周波数上昇の可能性を考慮すると、最終設計においてコアあたりの性能に目を向けると、さらに大きな向上(50%増)が期待できます。これらのチップは最大96個のシングルスレッドコアを搭載し、HBM2eをサポートします。 

V1は、2x256bやbFloat16といった可変ベクトル幅をサポートする初のSVE実装でもあります。ARMは上記のスライドで、N1と比較した際の目覚ましい性能向上を示しました。

ARMはまた、V1ではライセンシーがSVEの周波数と電力目標を完全に制御できると述べています。これにより、設計者はIntelプラットフォーム上の様々なAVXフレーバーとは異なり、ベクトル化されたワークロード中にクロック周波数の低下を回避できます。設計者はチップを想定される冷却量に合わせて調整できるようになり、水冷設計ではSVEの最高性能(約500W)を引き出すことができます。ただし、ARMは液冷に伴うコストの高さから、ほとんどの顧客が空冷設計を採用すると予想しています。 

ARMは、この種のチューニングの好例として富士通を挙げています。世界最速スーパーコンピュータ「富岳」に搭載されているAF64Xチップは、SVEコード実行時にフル周波数で動作します。ARMがより多様なデータ型を採用していることも、古いコードでは問題になりません。SVEは異なるベクトル幅間をシームレスに遷移します。 

ARM Neoverse N2 プラットフォーム

(画像提供:ARM)

N2は、大規模なクラウドアプリケーションからエッジデバイスまで、幅広いスケールに対応できるよう設計されています。ARMによると、N2プラットフォームはN1プラットフォームよりもIPCが40%高く、さらに周波数の向上により、最終設計におけるコアあたりのパフォーマンス向上がさらに加速される可能性があります。注目すべきは、ARMによると、N2プラットフォームはN1と同じ電力効率と面積効率の目標を維持するということです。 

シングルスレッドコアを搭載したこの設計は、32~192コア、12~26コア、8~16コアの3つのバケットに分割され、さまざまなデプロイメントにおける電力とパフォーマンスの目標を満たします。また、V1コアと同じSVE実装を採用しています。 

このプラットフォームは、V1 よりも高度な機能セットを採用します。HBM2e から HBM3 にアップグレードされ、CCIX 2.0 および CXL 2.0 のサポートも含まれます。 

ARM Neoverse チップレット、CXL、CCIX 戦略

(画像提供:ARM)

Intel と AMD はどちらも次世代の相互接続とチップレットベースの設計に熱心に取り組んでいますが、ARM も将来のチップ設計に対する独自のアプローチを開発しています。 

ARM は相互接続ロードマップを大まかに説明したが、同社はすでに N1 プラットフォームでコア数を線形に拡張できるチップレベルのファブリックを作成しているとのことだ。 

しかし、同社はソケットとパッケージ内チップレット間の双方向コヒーレント通信を実現するCCIXインターフェースに投資しており、後者はAMDのRome設計に似ています。これは将来的にチップ間接続にも拡張され、アクセラレータ(NVIDIAグラフィックスやDPUチップレットなど)とメモリを単一パッケージに統合できるようになります。 

ARMは、Intelが推進し業界で広く採用されているオープンソースの取り組みであるCXLを活用し、ノード間におけるコヒーレントなメモリプール、あるいはノード内の永続メモリプールを統合します。このファブリックは、リモートGPUとNPU間の接続も可能にします。これらはいずれも、NVIDIAが頻繁に表明しているデータセンターアーキテクチャの広範なビジョンにうまく適合します。 

画像

1

3

(画像提供:ARM)

ARMはマルチスレッド性能についてまだ明確な予測を発表していませんが、上記の最初のスライドは、整数ワークロードにおける性能をスレッドあたりの性能(各コアはシングルスレッドであることに留意してください)とソケットあたりの性能と比較した場合の、各ファミリの性能比較を示しています。なお、これらの値はARMの社内テストおよび/またはエミュレーションに基づいています。 

2枚目のスライドでは、典型的な大規模クラウド展開におけるV1とN2のラックレベルの比較を概説しています。ARMによると、N2とV1により、アーキテクトはデュアルソケットサーバーで標準的な15kWラック電力バジェット(42U)内で、異なる優先順位に基づいた設計が可能になります。  

ARMはN1プラットフォーム、特にAWS Graviton2チップで確実に大きな支持を得ており、Ampereはすでに今年中に128コアの新製品を発表しています。ARMがV1およびN2プラットフォームで目標を達成できれば、今後採用が加速することは間違いありません。 

ピースをはめ合わせる

NVIDIAはこれまで、ARMエコシステムの育成にプラットフォーム上でCUDAサポートを実現することに注力してきました。買収前に両社の連携が強化される可能性もあり、NVIDIAがARMと既にライセンス契約を結んでいることを考えると、NVIDIAがその間に独自のARMベースのハードウェアソリューションの開発に着手しても全く不思議ではありません。注目すべきは、NVIDIAは既にCXLインターコネクトに関与する多くの業界大手企業の1社であり、またNVIDIA傘下のMellanoxはCCIXプロジェクトに参加していることです。 

ARMは、既存プラットフォームの次の3つのイテレーション(V1、N2、Poseidon)において、世代間IPC成長率を30%以上とする計画を掲げており、これは将来も継続される可能性があります。近年、Intelがこれほどの世代間IPC成長率を達成した例はありません。AMDは最初の2つのZenイテレーションで大きな成長を記録しましたが、将来的にはこれほど大きな世代間飛躍を実現できない可能性があります。 

ARM の予測が現実世界で実現すれば、同社は x86 との競合路線を進むだけでなく (いくつかの側面ではすでに競合しているとも言える)、パフォーマンス面での優位性も追求することになる。 

データセンターは現在、Nvidia の収益の大部分を占めているため、同社が、手元のスマートフォンからエッジ、そしてデータセンターの中枢として機能する Neoverse コアに至るまで、コンピューティングの未来をリードできる複数のアーキテクチャを備えた資産を取得したいと考えるのは当然です。 

ARM はこれらの高い目標を達成できる世界で唯一の資産であり、だからこそ Nvidia はそれを手に入れるために世紀の取引を成功させようとしているのだ。 

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。