69
Intel Xeon Phi Knights Landing の出荷開始、Omni Path のアップデートも

インテルは、ISC 2016のハイパフォーマンスコンピューティングイベントにおいて、昨年11月にスーパーコンピューティングカンファレンスで発表したXeon Phi Knights Landing製品の出荷を開始したことを発表しました。Knights Landing製品にはインテルのOmni-Path Fabricが含まれており、HPC Orchestratorも発表されました。

驚くべきことに、サーバーハードウェア全体の支出は20年以上も目立った伸びを見せていないため、後追い型のアップグレードサイクルは収益成長につながっていない。Intelは、Xeon Phiファミリー(GPUの代替と目されている)による並列処理、Omni-Path(ネットワーク)、3D NAND/XPoint(メモリ)といった高成長分野をターゲットにすることで、データセンター市場への浸透を図ろうとしている。Intelの戦略は、CPUの優位性を足掛かりに、ラックスケールアーキテクチャへの包括的なアプローチであるScalable System Framework(SFF)で攻勢をかけることにある。

Xeon Phi Knights Landing

Intel が Larrabee プロジェクトから派生した Xeon Phi ファミリーは、HPC、機械学習、金融、エンジニアリングのワークロードで見られる高度な並列ワークロード向けに設計されています。

Knights Landing (KNL) 製品は、Xeon Phi ファミリーの第2世代 (x200) であり、前世代の Knights Corner 製品をベースに、ブート可能なソケット型プロセッサのサポートを追加しています。一方、第1世代製品は PCIe コプロセッサのみでした。KNL プロセッサには、プロセッサ上に突出したコネクタで示される統合型 Omni-Path ファブリックの有無を選択できます。KNL プロセッサは、Omni-Path ファブリックコネクタを収容するための開口部を備えた LGA 3647「ソケット P」に装着されます。Omni-Path はスケーラブル・システム・フレームワークの主要コンポーネントであるため、KNL プラットフォームとの緊密な統合は、Intel のラックスケール目標の達成に貢献するでしょう。

KNL 世代は、並列ワークロード向けに特別に設計された初のブート可能 CPU であり、統合 Omni-Path ファブリック (コネクタ上の追加の制御チップに注意)、HBM (高帯域幅メモリ)、および AVX-512 サポートを備えた初のプロセッサです。

インテルは、KNLプロセッサはPCIeボトルネックを解消し、競合GPUソリューションと比較して最大5倍の性能、ワット当たり性能で8倍、ドル当たり性能で9倍の性能を提供すると主張しました。注目すべきは、これらの結果はインテル社内テストによるもので、一部は前世代のGPUで行われたものであることです。インテルは、これはサンプルの入手が限られているためだと説明しています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

KNL(80億トランジスタ超)14nmプロセッサは、革新的な72コアアーキテクチャを採用し、メッシュ構成で配置された36個のデュアルコア「タイル」に分割されています。クアッドスレッドのSilvermontコアは、コアあたり2個のAVX-512 VPU(ベクタープロセッシングユニット)を搭載し、合計144個のVPUを備えています。各タイルには1MBの共有L2キャッシュが搭載され、合計36MBのL2キャッシュとなります。KNLプロセッサは、前世代のKnights Crossing製品と比較して、シングルスレッド性能が最大3倍向上しています。

KNLは、16GBのオンパッケージMCDRAM(マルチチャネルDRAM)Micron HBMを搭載し、最大500GB/秒のスループットを実現します(Intelから提供された情報の更新により、スライドに記載されている値より100GB/秒増加)。8つのMicron HBMパッケージは高速メモリ層として機能し、KNLプラットフォームは3つの動作モード(キャッシュ、ハイブリッド、フラット)を提供します。このプロセッサは、6チャネルに分散された最大384GBのDDR4メモリ(約90GB/秒)をサポートし、4レーンDMI接続を介してWellsburg PCHに接続します。

前述の統合型Omni-Pathファブリックは、デュアルPCIe x16ポートを介してダイに接続され、ネットワークトラフィック用のデュアルポート100Gbpsパイプを提供します。このプロセッサは36レーンのPCIe 3.0も備えていますが、マルチソケットアプリケーション用のQPI接続は備えていません(ただし、内部の様々なクラスタリング/NUMA動作モードはサポートしています)。ソケット型プロセッサはブート可能ですが、PCIeカードはブートできません。

スワイプして水平にスクロールします

Xeon Phi Knights LandingKNL 7290KNL 7250KNL 7230KNL 7210
プロセス14nm14nm14nm14nm
建築シルバーモントシルバーモントシルバーモントシルバーモント
コア/スレッド72 / 28868 / 27264 / 25664 / 256
クロック(GHz)1.51.41.31.3
HBM / 速度 (GT/s)16 GB / 7.216 GB / 7.216 GB / 7.216 GB / 6.4
DDR4 / 速度 (MHz)384 GB / 2400384 GB / 2400384 GB / 2400384 GB / 2133
TDP245W215W215W215W
オムニパスファブリックはいはいはいはい
希望小売価格6,254ドル4,876ドル3,710ドル2,438ドル

IntelはKnights Landingファミリーを4つの主要SKUに展開していますが、将来的にはさらに多くのSKUを導入する可能性があります。各SKUの主な差別化要因はクロック速度とコア数ですが、ローエンドの7210は標準DRAMとHBMの両方で帯域幅の制限を受けます。Intelは、ハイエンドの7290モデルの80~85%の性能を半分の価格で提供する7210が最も人気の高い製品になると予測しています。Intelはすでに10万台を販売(または受注)しており、正式発売前に32のOEM/チャネルシステムと30のISVからなるエコシステムを構築しました。 

Intelは、KNLプラットフォームがシングルソケットノードあたり3テラフロップス以上の倍精度演算(単精度演算では6テラフロップス以上)を実現すると主張しています。また、Intelは機械学習アプリケーションにおけるGPUと比較したKNLの性能の具体的な内訳も示しました。

機械学習アルゴリズムは、学習と推論という2つの一般的なカテゴリに分けられます。学習は2つのタスクのうち、より計算負荷の高いタスクであり、ユーザーは通常、GPU、FPGA、そして(より少ない頻度で)ASICを用いて高負荷な処理を担います。企業は、Googleが最近発表したTensor Processing Unitのように、FPGAプラットフォーム上で綿密な開発を行った後にASICを採用しています。ASICはコストが高いため、ハイパースケールアプリケーションに限定される傾向があり、IntelはXeon Phiファミリーをより汎用的で手頃な価格の代替として位置付けています。

ASICベースのアーキテクチャにおけるもう一つの重要な考慮事項は、それらを駆動するために何らかのコンピューティング能力が必ず必要となることです。そして、今日の状況では、それはXeonを意味します。Intelは、ブート可能なKNLがASICとXeonを組み合わせたアーキテクチャのコストと複雑さを軽減するのに役立つと考えています。

IntelはFPGAの基礎を網羅しています。同社はAlteraを買収し、Xeonベースの製品にオンダイFPGAを搭載することで、将来的にパラダイムシフトを起こす可能性があります。Intelは、KNLがトレーニングタスクにおいてGPUに対抗できる独自の立場にあると考えており、そのスケーラビリティとパフォーマンスを重要な差別化要因として強調しています。Intelによると、GPUは通常、スケールアップアプリケーション(単一ノードでの高負荷計算)に限定されており、KNLが対応しているスケールアウトアーキテクチャ(マルチノード)には対応していないとのことです。

しかし、Nvidiaが本日発表した新型Tesla P100は、従来のPCIeベースのマルチノード・スケールアウト・アーキテクチャにおいてより高いスケーラビリティを提供できるため、計算が多少変わる可能性があります。Intelもまた(当然のことながら)、Xeonファミリーが軽量な推論タスクに最適であると考えています。

オムニパスとスケーラブルなシステムフレームワーク

インテルはまた、Omni-Pathエコシステムの最新情報も発表しました。このエコシステムは現在、8万台以上のノード(インテルによると、対象市場の20~25%)で構成されています。インテルによると、Omni-Pathの導入の多くはXeon Phiの販売と重複しており、インテルがデュアルポート100Gbps接続をKNLパッケージに統合したことで、この傾向は加速すると予想されます。

最後に、IntelはOpenHPCをベースとした新しいHPC Orchestratorシステムソフトウェアを発表しました。この製品は、事前統合、事前テスト、事前検証済みで、既に主要なEOM、インテグレーター、ISV、HPC研究センターで試験運用されており、2016年第4四半期にリリースされる予定です。

ポール・アルコーンはTom's Hardwareの寄稿編集者です。TwitterとGoogle+でフォローしてください。     

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。