インテルのPonte Vecchio、Tiger Lake、不足、そしてデータストリーミングアクセラレータ

Intel関連のニュースは目まぐるしい時期を迎えています。同社は最近、2021年の主力7nm製品である、エクサフロップス・スーパーコンピューター「Aurora」向け汎用GPU「Ponte Vecchio」を発表し、主力製品であるソフトウェアプロジェクト「oneAPI」をローンチしました。Tiger LakeはGeekbenchにも登場し、Golden Coveのプレビューを公開し、供給状況の最新情報を提供しました。また、将来のCPUに搭載される「データストリーミングアクセラレーター」などについても発表しました。

Aurora、Ponte Vecchio、Xe HPC、oneAPI: すべてをまとめる

インテルは、2021年後半に発売予定の米国初のエクサスケール・スーパーコンピュータとなるAuroraスーパーコンピュータのアーキテクチャを、概要から公開しました。（計算）ノードは、2基のSapphire Rapids CPUと6基のHBM搭載Ponte Vecchio GPUで構成されます。これらは、CXLベースの新しいオールツーオールXeリンクを介して接続されます。oneAPIでプログラミングされ、DAOSと呼ばれる新しいファイルシステムも搭載されます。

CPUに関しては、Sapphire Rapidsは10nm++のGolden Coveアーキテクチャを採用し、Eagle Streamプラットフォームの一部となる見込みです。メモリとストレージに関しては、第3世代Optane Persistent MemoryとOptane SSD、そして来年登場する144層3D NANDの後継機を搭載します。（次期第2世代Optane PMは、4層の3D XPointを搭載することで密度が2倍になります。）

Intelは主に7nmプロセスノードのPonte Vecchio GPUに注力しました。最新プロセスノードでは、Ice Lake-UやBroadwell-Yといった低消費電力のリード製品からスタートしました。それと比較すると、Ponte Vecchio 7nmリード製品は真に別次元の製品となるでしょう。

Ponte Vecchio 1枚は、EMIBを介して接続されていると思われる2枚の独立したカードで構成されています。（EMIBは、複数のHBMスタックをパッケージに接続するためにも使用されます。）各カードには、3D Foverosテクノロジーでパッケージ化された8枚の7nm GPUチップレットが搭載されています。また、各カードは、チップレット用のXe Memory Fabric（XEMF）インターコネクト（数千EUまで拡張可能）を備えています。XEMFには、GPU、CPU、HBM用の超高帯域幅統合メモリとして機能するRamboキャッシュも搭載されています。2枚のXeコンピューティングチップレットごとに1つのXEMFダイが搭載されているようです。

しかし、詳細はまだ全て明らかになっているわけではない。すべてのチップレットが1つのFoverosアクティブインターポーザーの一部なのか、それとも個々のGPU「アイランド」ごとに1つのFoverosがあるのか？IntelはEMIBとFoverosを別々に使用しているのか、それともより精巧なCo-EMIB技術で「統合」されているのか？ダイサイズ、チップレットあたりのEU数またはFLOPS、トランジスタ数、TDPなどの仕様も明らかにされていない。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

インテルは、コンピューティングチップレットについてさらに詳しく調査した結果、XeアーキテクチャのXe HPCフレーバーをベースに構築されており、Xe LPとXe HPが他の2つとなることを明らかにしました。ラジャ・コドゥリ氏はインタビューで、Xeはプロセスに依存せず、Genの多くの機能をXeに組み込んでいるものの、今後は廃止される予定であることを明らかにしました。

Xe HPCの目玉機能は、AI向けの新しい「データ並列行列ベクトルエンジン」で、これはNVIDIAのTensorコアに対するIntelの回答と言えるでしょう。BF16、FP16、INT8をサポートし、最大32倍のベクトルレートを実現します。Intelは従来のHPCも軽視しておらず、EUあたりの倍精度（64ビット）浮動小数点性能が40倍向上したと主張しています。ちなみに、Gen11 EUのFP64スループットはFP32の4分の1です。

Xe HPCは、SIMT（GPUから）とSIMD（CPUから）の両方のユニットを搭載します。SIMDは中サイズと大サイズの2種類があります。幅広いベクトルサイズをカバーすることが目標であり、これにより一部のアプリケーションで大幅なパフォーマンス向上が期待できます。

ついにIntelは、DevCloudを通じてパブリックベータ版を公開し、oneAPIイニシアチブを正式に一般公開しました。oneAPIは、各コンピューティングアーキテクチャが独自のコンパイラ、ライブラリ、ツールを持つ必要がなくなるようにします。言い換えれば、あらゆる開発者とワークロードに対応する、ヘテロジニアスコンピューティングのためのプログラミングモデルです。システムプログラミングまたはダイレクトプログラミング（DPC++、Fortran、C++、Pythonをサポート）のための完全なソフトウェアスタックで構成されています。また、ドメイン固有のライブラリ、移行ツール（CUDAから）、分析およびデバッグツールも含まれています。

考え

少し振り返ってみましょう。同社はOmni-Path HPCファブリックの開発を中止しましたが（おそらく最終的にはBarefoot Networksスイッチとシリコンフォトニクスに置き換えられるでしょう）、CPU、GPU、メモリ、ソフトウェア、そしておそらく3D NANDストレージをAuroraに提供し、同社の6つの柱のほぼすべてに手が届くことになります。さらに、Ponte Vecchioの立ち上げ時には、IoT、エッジ、クライアント、データセンター、HPCに至るまで、IntelのAIポートフォリオは完成することになります。

Ponte Vecchio 1台あたり16個のXeチップレットを搭載し、チップレット1個のダイサイズにもよりますが、GPUあたり数千平方ミリメートルのロジックシリコンを搭載する可能性があります。（プロセス主導型製品は一般的に小型ですが、そのターゲット市場は価格にそれほど敏感でないデータセンターやHPCであり、GPUには歩留まり向上に役立つ冗長性が備わっているためです。）全体として、Ponte Vecchioのパフォーマンス範囲と、最先端のプロセスおよびパッケージング技術との組み合わせは、非常に期待される製品となっています。

FoverosとEMIBは、画期的な製品の市場投入期間を数年単位で劇的に短縮する上で間違いなく役立ちます。これは、Nvidiaが仮に2018年にレチクルサイズを超える7nm GPUを7nmの先行製品としてリリースしたと仮定した場合と似ています。Intelは、Ponte Vecchioで7nm（TSMCの5nmと3nmの中間）をリリースすることで、大胆なメッセージを打ち出しています。

インテルは、2019年と比較してノードあたりのパフォーマンスが500倍以上向上すると主張しているが、2019年のノードにNVIDIA GPUが搭載されるかどうかは明らかにしていない。Ponte Vecchioは2021年第4四半期に発売される予定だ。

データセンター担当副社長が退職

Supercomputing 2019の開催に合わせて、ラジーブ・ハズラ氏が24年以上勤めたインテルを退職するというニュースが発表されました。ハズラ氏は前職でデータセンターグループのコーポレートバイスプレジデントを務め、エンタープライズ・ガバメント・グループのゼネラルマネージャーを務めていました。エンタープライズ・ガバメント・グループは、クラウドおよびネットワークインフラストラクチャ・グループと並ぶ3大データセンターセグメントの一つです。

彼はHPC Wireに対し、自身の意思で退社したが、今後も業界で活躍し続けると語った。インテルはまだ後任を見つけていない。

数年間Skylakeの開発に停滞していたIntelのHaifaアーキテクチャチームは、Coreアーキテクチャの年間サイクルに追いつきつつあります。Coreアーキテクチャは、現在では入り江にちなんで名付けられています。Ice LakeではSunny Coveアーキテクチャが採用され、来年にはTiger LakeでWillow Coveアーキテクチャが採用される予定です。

水曜日、Tiger Lake-YがGeekbench 5に登場しました。Redditユーザーのdylan522pがスコア表を作成し、Willow Coveは平均で1桁台後半（9%）のIPC（クロックあたりの命令数）向上を実現することを示しました。同様の暗号化技術を使った複数のテストでは、さらに大きな向上が見られました。また、L2キャッシュの容量増加によるキャッシュ構造の変化も確認されました。

Geekbenchは必ずしも理想的なベンチマークではありませんが、来年発売されるWillow Coveは、クロックあたりでSkylakeよりも約30%高いパフォーマンスを示すでしょう。Intelがデスクトップ向けにTiger Lake-Sを計画しているという確証はなく、Ryzenのデスクトップ市場における成功をIntelが軽視しているように思われます。

さらに、日本のテックワンのCEOはTiger Lake-Yについてコメントし、同製品は「第2世代10nmプロセス」（おそらく10nm++）を採用していると述べました。また、Ice Lake-YはAppleとMicrosoftのみが提供しており、同社が次期製品にTiger Lake-Yを採用する理由もそこにあると主張しました。

ゴールデンコーブ建築の詳細

Golden Coveは2021年にAlder LakeとSapphire Rapidsで登場すると思われます。Intelは以前、セキュリティとシングルスレッド、AI、5Gパフォーマンスに注力すると述べていました。Supercomputing 2019でのRaja Koduri氏のプレゼンテーションで、アーキテクチャのAI側面に関するスライドが私たちの注目を集めました。

Cascade Lakeのクロックあたりのヘテロジニアス（SIMDベクター）パフォーマンスは、2010年のWestmereの150倍です。また、IntelがINT8をサポートするDL Boost VNNI命令群により、Skylakeの3倍も向上しています。AnandTechによると、Intelはまだ開発を終えておらず、2021年にはさらに桁違いのパフォーマンスを実現したいと考えています。

Intelがこれを実現する方法はいくつかあります。グラフにコア数の増加によるパフォーマンス向上も含まれていると仮定すると、Sapphire Rapidのコア数増加はCascade Lakeの28コアに対して2倍以上のパフォーマンス向上をもたらすことは当然です。それ以外にも、スケーリングのベクトルはいくつかあります。IntelがAgilexやNvidiaと共同でTuringで行ったように、INT4演算、さらにはINT2演算のサポートも含まれる可能性があります。

より複雑な可能性としては、AVX2からAVX-512への移行時のように、ベクトル幅を増やすことが挙げられます。あるいは、IntelはコアあたりのAVX-512ユニットの数を増やすことでアーキテクチャを強化し、現在のコアあたり2個から倍増させることも可能でしょう。このような移行は多くのソフトウェアリソースを消費するため、これは仮定上のAVX-1024よりも有益となる可能性があります。また、現時点では、このような新しいアーキテクチャ拡張に関する証拠はありません。

異種パフォーマンスに関して言えば、Golden Cove は Cooper Lake の BF16 も導入する可能性があります。

供給アップデート

インテルは今週、最近の「PC CPU 出荷遅延」について謝罪するプレスリリースを発表しました。これは、2018 年初頭 (さらに最近では 2019 年) に PC およびデータセンター CPU の需要が予想以上に増加したことにより 1 年以上前に始まった不足の影響であり、インテルにはまだ在庫を増やす余裕がありません。

この急激な需要増加、特にクラウドプロバイダーからの需要増加は、Intelにとって不意打ちとなりました。同社は既に生産能力を確保していた10nmプロセスの立ち上げを2019年に延期せざるを得なくなった一方で、チップセットを22nmから、4GモデムをTSMC 28nmから移行（そしてQualcommからのシェア獲得）したことによる、予想外の需要増加に加え、14nmウェハの新たな需要流入に直面したのです。14nmへの圧力をさらに強めた要因としては、Ryzenへの対応として、14nmプロセスの開発期間を通じてラップトップとデスクトップのコア数が着実に増加したことが挙げられます。Ryzenは、平均ダイサイズを長年にわたり拡大させてきたと考えられます。

これを受けて、インテルは14nmプロセスへの投資を拡大し（2019年にウェーハ生産能力を25%、2020年にさらに25%増加）、オレゴン州、アリゾナ州、イスラエル、アイルランドのファブを拡張し、製造ネットワークを拡大する計画を発表しました。また、イスラエルに100億ドル規模の新ファブを建設することも発表しました。

今週のアップデートで、インテルは「生産の変動」を原因としたが、それ以上の詳細は明らかにしなかった。

しかし、インテルは、品不足の状況を踏まえると、14nmの歩留まりが非常に成熟しているため、予想よりもはるかに高い収益の伸び（需要）が品不足の原因であると主張している。同社は、2015年から2018年の3年間で収益が28％（154億ドル）増加した。インテルは、CoreとXeonの生産を優先してきたため、主に市場のローエンドで市場シェアをいくらか譲り渡したと述べ、2019年にはわずかな差で4年連続で過去最高の収益を達成する見込みである。

ガディ・シンガーインタビュー：NNP-Iについて語る

CRNは金曜日、インテルのAI製品グループにおける推論部門を率いるガディ・シンガー氏へのNNP-Iに関するインタビューを掲載した。シンガー氏によれば、同グループは半年前に市場投入予定の製品に注力するために再編され、その結果、同氏が率いる推論製品グループが誕生したという。同グループの規模を少しでも示すため、シンガー氏は、同グループにはハードウェア部門と同数の人員がソフトウェア部門に携わっていると語った。

シンガー氏によると、NNP-Iはエネルギー効率と計算密度（そのルーラーフォームファクターからもわかるように）に重点を置きつつ、拡張性と幅広い用途への対応も実現しているという。後者は、実世界のワークロードに必要な異種機能、すなわちテンソル演算、ベクトル処理、2基のSunny Coveコア、そして大容量キャッシュを搭載することで実現されている。「データの移動は計算よりもコストがかかる」とシンガー氏は皮肉を込めて言った。

同氏は、M.2、ルーラー、デュアルチップ PCIe フォームファクター以外にも、同社では他のフォームファクターへの導入にも取り組んでいると述べた。

NNP-Iの導入について、同社は主にクラウドサービスプロバイダーと連携しているが、チャネルパートナーを通じて「より大規模に」利用できるようにすることも目指しているという。

DSA: データストリーミングアクセラレータ

インテルは水曜日、オープンソースブログでデータストリーミングアクセラレータ（DSA）を発表し、将来のインテルプロセッサに統合される予定だと述べた。同社はDSAを「高性能ストレージ、ネットワーク、永続メモリ、そして様々なデータ処理アプリケーションで一般的に使用されるストリーミングデータの移動と変換操作を最適化することを目的とした、高性能データコピーおよび変換アクセラレータ」と説明している。DSAは、現行のQuickDataテクノロジーに取って代わるものだ。

より分かりやすく言えば、Intelは、データ操作におけるシステム全体のパフォーマンスを向上させ、CPUサイクルを高レベル機能に解放すると述べています。特に、高性能ストレージ、ネットワーク、永続メモリ、そして様々なデータ処理アプリケーションに適用されます。

Intel DSAは新しいCPUおよびプラットフォーム機能で構成され、Intelは段階的にLinuxへのサポートを導入する予定です。Intelはすでに完全な仕様を公開しています。

さまざまなもの：ニューロモルフィック・コンピューティング、Mobileyeの勝利、5G、AppleとIntelの独占禁止法

インテルは、エアバス、日立、GE、アクセンチュアといった企業をインテルのニューロモーフィック研究コミュニティへの最初の企業メンバーとして迎えることを発表しました。これは、ニューロモーフィック・コンピューティングの商用化に向けたインテルの次のステップとなります。

インテルの法務部門は、法曹界の多様性を高める取り組みの一環として、少数派や女性の比率が平均以下の法律事務所とは2021年以降提携しないと発表しました。

インテルは、ミシガン州が試験的に、また長期的には自動運転車やロボットタクシーに州を準備するという目標の一環として、モービルアイの最新 EyeQ4 搭載アフターマーケットシステムを州および市の車両群に追加すると発表した。

インテルとアップルは、特許に関連してアップルに数十億ドルを要求したと報じられているソフトバンク所有の企業に対して独占禁止法訴訟を起こした。

インテルは今週、5Gへの取り組みについてプレゼンテーションを行いました。ネットワーク仮想化はASICではなく標準のXeon上で行われており、同社はインフラ面のリーダーとして業界をリードしています。インテルのネットワーク事業（200億ドル超の市場）の売上高は、2014年の市場シェア8%、売上高10億ドルから、2018年には市場シェア22%、売上高40億ドルへと急成長を遂げています（成長の3分の2は販売量の増加、3分の1は平均販売価格の上昇によるものです）。インテルはまた、2019年にはネットワーク事業の売上高50億ドル達成に向けて順調に進んでいると述べています。

インテルはまた、5G基地局に特化した10nm Atom TremontベースのSnow Ridge SoCを2020年前半に投入することを改めて表明した。インテルは現在の市場シェアを明らかにしなかったが、2022年には基地局の市場シェアが40%を超えると予想している。