セレブラス、1350万コアのAIスーパーコンピュータ「アンドロメダ」を発表

画像

の

世界最大のチップ「Wafer Scale Engine 2（WSE-2）」を開発するセレブラス社は本日、スーパーコンピュータ「Andromeda」を発表しました。Andromedaは、16個のウエハサイズのWSE-2チップを1つのクラスターに統合し、1,350万個のAI最適化コアを搭載しています。同社によると、このクラスターは最大1エクサフロップスのAI演算能力、つまり16ビット半精度演算で120ペタフロップスの演算能力を実現します。

システム全体の消費電力は500kWで、これはGPUアクセラレーション搭載のスーパーコンピュータと比べると大幅に低い値です。しかしながら、このような超並列スーパーコンピュータにワークロードをスケールアウトさせることは、長年にわたり主要な阻害要因の一つとなってきました。ある時点でスケーリングが限界に達する傾向があるため、ハードウェアを追加すると収益性が急速に低下してしまうのです。

しかし、Cerebrasによると、その実装はGPT-3、GPT-J、GPT-NeoXといったGPTクラスの大規模言語モデルに対してほぼ線形にスケーリングできるとのことです。Andromedaは、メモリ制限のために標準的なGPUクラスターでは処理できない、25億パラメータおよび250億パラメータのモデルも処理できます。

画像

の

改めてご説明いたしますが、Cerebras WSE-2は世界最大のシングルチッププロセッサです。7nmプロセスで製造された各チップは、AIワークロードに対応するために特別に設計されており、46,225 mm²のシリコンに2兆6000億個のトランジスタが集積された85万個のAI専用コアを搭載しています。このチップは40GBのオンチップSRAMメモリ、20ペタバイトのメモリ帯域幅、そして220ペタビットのアグリゲートファブリック帯域幅を備えています。WSE-2は1チップあたり15kWの消費電力を誇ります。

画像

の

大規模システムの多くはワークロードのスケーリングが不十分で、コード、メモリ、ファブリック、ネットワークの制限などにより、収益性が低下します。しかし、Cerebrasは、CS-2システムがデータ並列処理によってほぼ直線的に拡張できることを示しました。基盤となるコードに変更を加えることなく、同社のAndromedaスーパーコンピュータは、完全接続から10分以内にワークロードを処理できるようになりました。

16基のCS-2は、同社のMemoryXおよびSwarm-Xインターコネクトを使用して、システム間でのモデルの分割を簡素化し、オーケストレーションします。このアプローチでは、モデルパラメータをMemoryXキャビネット内のオフチップに保存し、モデル自体はオンチップで保持するため、単一のシステムで従来よりも大規模なAIモデルを計算できるようになり、プロセッサグループによるスケーラビリティを制限することが多いレイテンシやメモリ帯域幅の問題に対処できます。Cerebrasによると、このシステムにより、最大192基のCS-2システム間でほぼ線形に拡張できます。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Andromedaは、カリフォルニア州サンタクララのColovoreデータセンターに導入されています。同社はAndromedaを顧客と学術研究者の両方に公開しており、アルゴンヌ国立研究所もその1つです。アルゴンヌ国立研究所は既にCOVID-19ゲノム全体をシーケンスウィンドウに取り込み、最大16ノードでワークロードを「ほぼ完璧な線形スケーリング」で実行したと述べています。このプロジェクトは現在、権威あるACMゴードン・ベル特別賞の最終候補に選ばれています。他のユーザーには、JasperAIとケンブリッジ大学が含まれます。システムの詳細については、こちらをご覧ください。

画像

の