24
Tachyumが128コアCPUを発表:5.7GHz、950W、16 DDR5チャネル

TachyumがHot Chips 18でProdigyユニバーサルプロセッサのコンセプトを発表した際、動的バイナリトランスレータを用いてあらゆるコードを実行できるチップとして大きな話題を呼びました。ネイティブコードと変換済みコードの両方で高いパフォーマンスを発揮しました。同社は実際のハードウェア設計に時間を掛け、評価キットの予約注文を受け付けました。Prodigyの正確な仕様も公開しています。確かに見た目は素晴らしいですが、チップ1個あたり950Wの熱設計電力(TDP)という恐ろしいスペックも備えています。

驚異的なパワーで驚異的なパフォーマンス

天才

(画像提供:Golem.de)

 パフォーマンスに関しては、TachyumはフラッグシップモデルであるProdigy T16128-AIXプロセッサが、HPCで最大90 FP64 TFLOPS、推論とトレーニングで最大12「AI PetaFLOPS」の性能を発揮すると予測しています。これは、同社およびGolem.deが公開した仕様によると、ネイティブコード実行時、最大950Wの消費電力(液冷使用時)を想定したものと思われます。一方、TachyumのProdigyプロセッサは、2ウェイ構成と4ウェイ構成で動作可能です。これらの数値を例に挙げると、AMDのInstinct MI250Xは、HPCで約560Wの消費電力で、ピークスループット96 FP64 TFLOPSを実現しています。対照的に、NvidiaのH100 SXM5は、700WでAI向けに最大20 INT8/FP8 PetaOPS/PetaFLOPS(スパース性を考慮した場合最大40 PetaOPS/PetaFLOPS)の演算性能を提供します。しかし、どちらのコンピューティングGPUも汎用ワークロードには適していません。そして、まさにこの点が興味深いところです。

新しいCPUの誕生

TachyumのProdigyは、最大128個の独自開発64ビットVLIWコアを搭載したユニバーサル・ホモジニアス・プロセッサです。コアあたり2つの1024ビット・ベクターユニットと1つの4096ビット・マトリックスユニットを備えています。さらに、各コアは64KBの命令キャッシュ、64KBのデータキャッシュ、1MBのL2キャッシュを備え、他のコアの未使用L2キャッシュをビクティムL3キャッシュとして利用できます。

タキウム

(画像提供:Tachyum)

TachyumのVLIWコアはインオーダーコアだが、コンパイラが適切な最適化を行うことで4ウェイ・アウトオブオーダー問題に対応できると、TachyumのCEO兼共同創設者であるラドスラフ・ダニラック氏はGolem.deの取材に答えた。ダニラック氏はまた、Prodigy命令セットアーキテクチャは、いわゆるポイズンビットを用いたソフトウェアによって、非常に高い命令レベルの並列性を実現できることを改めて強調した。

同社によると、これらのコアは、Prodigy(VLIWアーキテクチャが期待される分野)向けに記述され、明示的に最適化されたネイティブコードだけでなく、ソフトウェアエミュレーションを用いてx86、Arm、RISC-Vバイナリもパフォーマンスの低下なく実行できるという。歴史的に、VLIWプロセッサでx86コードを実行させようとする試みはすべて失敗している(例:TransmetaのCrusoe、IntelのItanium)。その主な原因は、特定のCPUアーキテクチャとエミュレーションの非効率性である。Tachyumの責任者は、Qemuバイナリ変換によってパフォーマンスが30%から40%低下することを認めている(ベースラインは明らかにしていない)。しかし、実環境では依然として競争力のあるパフォーマンスが得られると期待している。一方で、一部のプログラムはすでにネイティブサポートされている。

「GCCとLinuxをネイティブでサポートしており、FreeBSDも[Prodigy上で]動作するようになりました」とダニラック氏は述べた。「Apache、MongoDB、Pythonはすでにネイティブで動作しており、PytorchとTensorflowフレームワークも利用可能です。」

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Tachyum氏は、Prodigyはアクセラレーターではなく、AMD、Intelなどの競合製品と競合する真のCPUであることを強調しています。このプロセッサが汎用ワークロードとAIワークロードの両方で競争力のあるパフォーマンスを発揮できるよう、同社は2018年の最初の発表以来、設計実装に数多くの変更を加えてきました。

「当社はCPU代替製品を提供する企業であり、AIアクセラレータ企業ではありません。クラウド/ハイパースケーラーや通信事業者をターゲットにしています」とダニラック氏は述べた。「将来的にはスーパーコンピュータの顧客を獲得する計画で、ベクトル/MACユニットの幅を512ビットから1,024ビットに倍増させました(これにより、人工知能(AI)の4,096ビット行列演算に必要なデータパスも確保されます)。」

実際、TachyumのProdigyが約束する大きな利点の一つは、異なる種類のコードを実行できることです。汎用ワークロード(インスタンス)を実行しながら、十分な電力で十分なパフォーマンスを提供できると仮定すると、AWSやMicrosoft Azureなどのサービスに柔軟性をもたらす可能性があります。なぜなら、必要に応じてAI、HPC、汎用インスタンスに同じマシンを使用できるからです。もちろん、異なる関係者による実際のソフトウェア開発は必要ですが、少なくとも理論上は実現できるかもしれません。

まだ来ていない

なお、Tachyumは未だProdigyチップを保有していない。そのため、パフォーマンス予測はすべてシミュレーションによるものであり、同社が現在保有しているのはプロセッサのFPGAプロトタイプのみである。

タキウム

(画像提供:Tachyum)

一方、同社は最近、一部のProdigyシリコンに搭載されるTachyumのProdigy評価プラットフォームの予約受付を開始しました。企業は2022年7月31日までに注文する必要があり、実際のハードウェアの納品は「受注後約6~9か月」となります。

Tachyumは、計画通りに進めば、最初のProdigyシリコン(500mm²未満になる可能性あり)を8月中旬にテープアウトする予定です。その後、12月頃にチップの最初のサンプルを入手し、チップが適切に動作すれば、サンプル提供(評価キットの送付)を開始する予定です。通常、シリコンの立ち上げには、最初のチップが工場から戻ってから約1年かかります。それでもTachyumは、最初のプロセッサが計画通りに動作し、2023年前半には実際の量産を開始できると期待しています。

将来的には、ダニラック氏は、TSMC の N3 ノードの 1 つを使用して製造される Prodigy 2 プロセッサが、PCIe Gen6 のサポートとともに、同じ電力で 2 倍の高いパフォーマンスを実現することを想定しています。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。