Intelは本日、Linley Fall Processor Conferenceにおいて、10nmプロセス技術Tremont Atomアーキテクチャのベールを脱ぎました。IntelのULP(超低消費電力)アーキテクチャは、同社の伝統あるCoreシリーズチップほど注目を集めることはありません。しかし、Atomプロセッサはマイクロサーバー、タブレット、IoT機器など、数え切れないほど多くの低消費電力デバイスに搭載されています。これらの分野は依然としてIntelの牙城であり、AMDにはこれらの分野に参入できる競争力のあるチップがありません。
Intel の 10nm Atom Tremont アーキテクチャへの移行は、シングルスレッド パフォーマンスに重点を置くことから始まりますが、Atom としては初となる L3 キャッシュの追加、ワットあたりのパフォーマンスの向上を補完する新しい電力管理機能の強化、セキュリティの強化、新しい命令のサポートなど、他の大きな改善ももたらします。
Intelは、これらの取り組みの成果として、Tremontは前世代のGoldmont Plusアーキテクチャ(SPEC)と比較して、ISO周波数におけるIPCが最大30%向上したと主張しています。残念ながら、Intelはまだクロック速度を明らかにしていないため、IPCの向上により、Ice Lakeプロセッサと同様に、新しい10nmプロセスの副産物として生じる低周波数に対応できる余裕が生まれる可能性があります。
画像
1
の
6

Intelの次期3Dスタック型Lakefieldプロセッサは、MicrosoftのSurface Neoデバイスに搭載されているものと同様に、低消費電力のTremontコア4基と高性能のSunny Coveコア1基を、Foverosテクノロジーでハイブリッドに組み合わせたアプローチで搭載します。このアプローチにより、Intelは超高密度設計において、低消費電力で驚異的な処理能力を実現しています。
このアプローチにより、Intel は 2 つの異なるアーキテクチャを融合して、Tremont Atom コアの低消費電力と効率性、および Sunny Cove コアの高性能を活用し、ARM big.LITTLE プロセッサに似た組み合わせ (Intel はこれを「ハイブリッド x86 アーキテクチャ」と呼んでいます) を実現しました。
しかし、2つの異なるアーキテクチャを融合することで、新たなレベルのパフォーマンス密度と電力効率を実現した背景には、Tremontアーキテクチャがあります。このアーキテクチャは、従来のフォームファクターを採用した他の多くのプロセッサにも採用される予定です。それでは、Intel初の10nm低消費電力プロセッシングコアを詳しく見ていきましょう。
Intel Tremont シングルスレッドパフォーマンス
画像
1
の
2

Intel の包括的な設計目標には、さまざまなコンピューティング要素を結び付けるネットワーク コンポーネントの電力効率とパフォーマンス密度の向上を組み合わせたシングルスレッド パフォーマンスに重点を置くことが含まれています。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
IntelはTremontの分岐予測器を「Coreクラス」と呼ぶレベルの性能にまで強化しました。つまり、Atomコアは高性能なSunny Cove Coreファミリーの同等製品とほぼ同等の精度を持つことになります。これは新しい2段階分岐予測実装によって実現されていますが、Intelはどの種類の予測器を使用しているかを明らかにしていません(第2段階にはTAGEが使用されている可能性が高いです)。
このアーキテクチャは、最大 6 つのアウトオブオーダー x86 命令をデコードでき、4 ワイドの割り当てとリタイア、およびデュアル ロード/ストア パイプラインを備えています。
チップには、最大 4.5MB の L2 キャッシュを共有する 4 つのコア モジュールが搭載されますが、製品によって異なります。
Intel Tremont フロントエンド (フェッチ、予測、デコード)
画像
1
の
3

ビットは分岐予測ユニット(predict)に流れ込み、そこからフェッチユニットにアドレスが発行されます。フェッチユニットは命令キャッシュをロードします。そして、そこから2つの命令データユニットが送られ、3幅デコードユニットにフラッシュされます。
Tremont は、「かなり長い」履歴でのパスベースの予測を特徴としており、64 バイトのキャッシュラインの最初の 32 バイトで実行された分岐を検索しますが、キャッシュラインの前半で分岐が見つからない場合は次の 32 バイトにジャンプします。
予測器は2つのレベルから構成されており、第1レベルはペナルティフリーですが、第2レベルのより大きな予測器は2サイクルのペナルティを伴います。予測結果は、32KBの命令キャッシュを持ち、1サイクルあたり32バイトを発行できるアウトオブオーダーフェッチに渡されます。
デコードは、2つの異なる対称型複素デコーダバンクを用いて、1サイクルあたり最大6つのx86命令を処理できます。つまり、すべてのデコーダが同じ命令を処理できるということです。これにより、マイクロオペレーションキャッシュを使用せずに、アーキテクチャに幅広いネイティブデコード機能が追加され、ダイ面積の削減につながります。また、デコーダを並列に実行することも、消費電力を抑えるためにデコーダを制限して実行することも可能です。4ビット幅のアロケーション/リネームユニットは、整数実行ユニットにデータを供給します。
Intel Tremont 整数およびベクトル実行
画像
1
の
2

ここでは、Intelが整数ユニットとベクトルユニットに加えた改良点が見て取れます。このアーキテクチャは、幅の拡大に対応するために208エントリのアウトオブオーダーウィンドウを備えており、これにより実行ユニットの並列性が最大限に高められています。6つの予約ステーション(そのほとんどは単一のエンドポートに接続)が、3つのALU、2つのAGU(アドレス生成ユニット)、ジャンプポート、ストアポートにデータを供給します。
Intel は、4 サイクル レイテンシのデュアル 128 ビット AES ユニットと、4 サイクル レイテンシの単一命令 SHA256 サポートを統合し、新しいガロア体命令もサポートすることで、ベクター ユニットの暗号化アクセラレーションを改善しました。
ベクトル処理には、2つのSIMDユニットと2つのAESユニットが2つの実行ポートに分割されています。Intelはまた、これらのポートの1つに浮動小数点乗算器、もう1つのポートに加算器を追加し、乗算、加算、ストアの並列演算を可能にしました。
インテル トレモント メモリ サブシステムと新しい命令
画像
1
の
3

メモリサブシステムは、1サイクルあたり2つのロードとストアをパイプラインにディスパッチできます。8ウェイ32KBデータキャッシュは、ロードから使用開始までのレイテンシが3サイクルです。5エントリの第2レベルTLBは、命令キャッシュとデータキャッシュの両方からの要求を処理します。
L2キャッシュは1~4つのポートで共有され、容量は1.5MB~4.5MBです。Intelはまた、包括的または非包括的のL3キャッシュも追加しました。L3キャッシュにより、Tremontを他のIntelファブリックと連携させることが可能になり、LakefieldのSunny CoveコアとTremontコアの組み合わせがその一例です。Intelはまた、Intel Resource Directorテクノロジーのサポートも追加しました。これにより、キャッシュをスライスして、L2またはL3キャッシュの公平性やメモリ帯域幅要件を強制することが可能になります。
Tremont には特定の L3 キャッシュ容量の要件や仕様はなく、特定の SoC 実装によって決まります。
Intelはまた、エンドポイントへのトラフィック最適化を可能にするmove-direct命令など、ネットワークおよびアクセラレータ固有の新しい命令も追加しました。これは、前述のネットワークアディティブやアクセラレータなどです。Intelはまた、セキュアブート、トラステッドエグゼキューションテクノロジー、そしてメモリ全体の暗号化も追加しました。Intelはまた、最近の脆弱性に対するシリコン内部の緩和策の一部が新しいシリコンにも導入されていると述べていますが、どのような緩和策が採用されているかは明らかにしていません。
Intel は、Kaby および Coffee Lake プロセッサにも搭載されている Speed Shift テクノロジも追加しました。このテクノロジは、オペレーティング システムが遷移を指示するのではなく、ハードウェアが状態の変化を制御できるようにすることで、アイドル状態からの電源状態の遷移を高速化します。
考え
全体的に見て、新しいTremontアーキテクチャは印象的で、低消費電力領域における新たなレベルのパフォーマンスを実現するはずです。しかし、Intelは新しいコアを搭載した今後のSoCに関する詳細な計画を明らかにしていないため、Lakefield以外のデバイスがいつ市場に投入されるかについては何も示唆されていません。ただし、今後登場するGemini LakeではGoldmont Plusアーキテクチャが引き続き採用されていることは分かっており、Tremontコアが近いうちにこの領域に登場することは期待できません。
Intelの10nm Ice Lakeプロセッサで見られたように、開発中の10nmプロセスノードではクロック速度が制限されるため、IPCの大幅な向上が必ずしも全体的なパフォーマンスの大幅な向上につながるわけではありません。そのため、少なくともシリコンが当社のラボに到着するまでは、新しい設計の全体的なパフォーマンスについては判断ができません。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。