87
LightmatterのMars SoCは光を曲げてデータを処理する

トランジスタの速度が遅いのがお悩みですか? シリコンにレーザーを照射すればいい。これがシリコンフォトニクスベースのコンピューティングの基本的な考え方であり、現実に近づいているようです。Lightmatter社は、AI推論ワークロード向けに特別に設計された新型SoC「Mars」でこのアプローチを採用していますが、この技術は最終的には汎用チップにも応用される可能性があります。同社はHot Chips 2020で、レーザーから生成された光を曲げて計算を可能にする、動作可能なMarsテストチップを公開しました。このチップは、非常に優れた仕様を誇ります。 

新しい Mars SoC は、光コンピューティングを主流に近づける可能性のあるいくつかの基本的な前進を示しており、同社は複数の SoC (下) を搭載できる大型のウエハースケールの光学デバイス (上) の写真も公開しました。

画像

1

3

(画像提供:Lightmatter、Hot Chips 2030より)

コアの消費電力はわずか1マイクロワットで、これは電子ベースのチップの一般的な消費電力1ミリワットの1000倍の削減となります。この光モジュールは、レーザーとI/O操作などのデジタル処理を処理する14nm ASICを含む3D積層デバイスの一部です。光コア自体は計算にほぼ電力を消費しませんが、SoCレベルにまで拡大すると、デバイス全体の消費電力は負荷時でわずか3Wです。Lightmatter社は、この偉業を同等のトランジスタ駆動チップと同じダイ面積で実現したと主張しています。つまり、通常のプロセッサと比較して同様にコンパクトなソリューションとなるということです。  

Mars SoCはコンピューティング効率の飛躍的な進歩の基盤となるものですが、同社は最終製品が電子ベースのデバイスよりも3桁高速であると述べている以外、最終的なパフォーマンスデータはまだ公開していません。完成したSoCは、現時点では標準的なPCIe接続のテストデバイスに搭載されています。しかし、同社は複数のフォトニクスユニットとメモリなどの他の要素をCoW(チップオンウェーハ)3Dスタッキングで接続できる、ウェーハスケールのスイッチド光インターコネクトを予告しました。これは、これらのチップが実世界での使用に近づいていることを意味し、同社は将来的にさらに優れたパフォーマンスにつながる可能性のあるいくつかの改良点を概説しました。 

Lightmatter は Hot Chips プレゼンテーション中にデザインの詳細を詳しく公開しましたが、私たちはそれをできるだけ分かりやすい言葉で要約して以下に示します。 

画像

1

9

(画像クレジット:Lightmatter、Hot Chips 2020より)

光コンピューティングへの移行の根拠は非常にシンプルです。より小型で高密度なプロセスノードへの移行による周波数向上の速度が低下しているため、チップの世代交代ごとにパフォーマンスの向上が目立たなくなっています。トランジスタのスイッチング効率は根本的な限界に近づいていますが、光子は同じルールに従う必要はありません。パフォーマンスクロックをリセットするために、Lightmatterはトランジスタ密度の利点(ソリューションの一部としてASICを使用しています)と光コンピューティングの速度と効率を融合させたマルチチップ設計を開発しました。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

すべてはMZI(マッハ・ツェンダー干渉計、最初の画像)から始まります。レーザー光子ビームを装置に照射します。装置にはシリコン導波路があり、光子ビームを導波路が導きます(そう、光はシリコンを透過できます)。導波路は光子ビームを2つのビームに分割し、それぞれのビームに異なる位相シフトを与えるという基本的な概念があります。これにより、2つのビームが導波路の端で再び合流する際に、建設的干渉または破壊的干渉が生じ、その出力が観測/測定されます。とてもシンプルに聞こえませんか?

真のイノベーションは位相シフタの開発にあります。Lightmatter社はこれを実現するためにいくつかの選択肢を検討しましたが、シリコン導波路を曲げ、そこを通過する光を曲げるだけで、同社の電力と速度の要件を満たしながら位相シフトを実現できることを発見しました。同社はナノ光電気機械システム(NOEMS、ええ、長い名前ですね)を用いて、非常に革新的な方法で導波路を曲げています。 

導波管は空中に吊り下げられ、周囲のコンデンサ群に電荷が加えられることで導波管が曲がります。Lightmatter社によると、この技術は電力消費が非常に少なく(「ほぼゼロ」、つまり漏れ電流は最小限)、コンデンサは数百GHzで動作可能です。   

同社は、この基本的な構成要素を基に、入力信号をペアに結合する方向性結合器を介してより複雑な構造を作成し、最終的には行列ベクトル乗算機能を実行できるようになります。 

これらの構造は、より大きな配列(数千スケール)に統合され、より高い計算能力を生み出します。配列を通過するデータのレイテンシは、まさに光速です。最終結果は、1サイクルあたり8回の演算(相当)を実行できる64×64行列×64要素のベクトルです。Lightmatterは全体のクロック速度を明示していませんが、「GHz」としています。 

アレイを通過する帯域幅はテラヘルツ帯に相当するため、デバイス内の他の電子機器が制限要因となります。データは、電圧を用いてレーザーを制御するというごく標準的な手法でデバイスに入力され、デバイスから出力された光は一連のコンバータに送られ、そこでデジタルコードに戻されます。これが明らかなボトルネックであり、この変換にエンドデバイスの電力の大部分が消費されます。  

画像

1

2

(画像クレジット:Lightmatter、Hot Chips 2020より)

フォトニックデバイスの計算性能は、通常のチップと同様に面積に比例するため、アレイを積み重ねることで性能が向上します。ユニット数が増えるとレイテンシも増加しますが、Lightmatter社によると、1000×1000のユニットアレイでもレイテンシは1ナノ秒を大きく下回り、これは標準的なチップの3分の1に相当します。

アレイ内部で使用される電力はごくわずかで、レーザー出力は通常、フォトニックチップの消費電力の最大の要因となりますが、実際には数ミリワットしか消費しません。Lightmatter社によると、意味のある電力消費は、アレイの両側で行われるデータと光信号の変換時にのみ発生します。 

実際、アレイにフォトニックコンピューティングユニットを追加すると効率が向上し、消費電力の増加に対してパフォーマンスが2乗的に増加します。つまり、ユニットを1つ追加すると、消費電力の増加に対してパフォーマンスが4倍になるということです。一方、標準的なトランジスタベースのチップでは、パフォーマンスと消費電力は直線的に増加するため、効率の向上はそれほど顕著ではありません。 

画像

1

4

(画像クレジット:Lightmatter、Hot Chips 2020より)

Lightmatterは、GlobalFoundries社の標準12nmフォトニックプロセスを採用した90mm²のフォトニックコンピューティングユニット、50mWレーザー、14nm ASIC(50mm²、30MBのSRAM)を3D積層型マルチチップモジュールに統合しています。これらはすべて、データ伝送を1mmに短縮する低消費電力アナログI/Oインターフェースで接続されています。  

デバイス全体の面積は150mm2で、総レイテンシは200ピコ秒未満です(アナログと光のみで、デジタル変換は含まれません)。ASICは、フォトニクスコアが適していない一部のAI演算を処理し、外部インターフェースへの接続も提供します。結果として、TDP 3WのSoCが実現され、標準的なデータセンターの動作温度で動作します。 

現時点では、テストチップはPCIe接続デバイス上に搭載されていますが、記事冒頭で紹介したように、最終的には他の多くのチップと共に、巨大なウエハスケールの動的スイッチング光インターコネクト上に搭載される予定です。フォトニクスユニットは、CoW(チップオンウエハ)3Dスタッキングを用いてウエハ上に実装されます。これにより、通常は計算よりも多くの電力を消費するデータ移動に伴う消費電力の懸念に対処できるようになります。Lightmatter社は、フォトニクスを用いることで、データ転送に必要な電力を数十ワットから数マイクロワットに削減できると主張しています。

Lightmatter によれば、これらのデバイスは TensorFlow、PyTorch、ONNX などのすべての標準的なディープラーニング フレームワーク、コンパイラ、モデル交換形式とインターフェースをとるとのことです。 

(画像クレジット:Lightmatter、Hot Chips 2020より)

ライトマター社によると、このデバイスは驚くほど高速で電力効率が高いものの、まだ発展の余地があるという。現在の光ファイバーシステムでも、異なる波長や色を用いることで複数のデータストリームを1つのストリームにエンコードすることが可能であり、パフォーマンスを飛躍的に向上させることができる。ライトマター社は、これらの技術を最終的に同社のフォトニクスコアに応用することで、デバイスの性能を飛躍的に向上させることができると述べている。 

光コンピューティングの夢は、少なくとも広く普及するのに十分な費用対効果のある方法ではありますが、長い間業界から遠ざかってきました。Lightmatterの設計は標準的なCMOS製造技術を用いているため、標準的なウェハ上にエッチングで形成できる可能性があります。もしこの製品が研究室から出荷されれば、当然ながら最先端のデバイスはかなり高価になると予想されますが、計算とデータ転送の両方における消費電力の削減によって、そのコストは相殺される可能性があります。  

同社は具体的な性能データはまだ公開していないものの、このソリューションは電子ベースのソリューションや最終的なクロックレートよりも3桁高速であると述べている。しかし、製品の市場投入が近づくにつれて、より多くの情報を共有する予定だ。Lightmatter社によると、量産ユニットは2021年秋に発売される予定だ。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。