Cerebras のビデオでは、世界最速の AI GPU クラウド (世界最大のチップ) よりも 75 倍高速に AI がコードを記述している様子が紹介されています…

（画像提供：Cerebras）

Cerebras は、Meta の Llama 3.1 405B 大規模言語モデルを 1 秒あたり 969 トークンで実行することに成功しました。これは、GPU を使用した Amazon Web Services の最速 AI サービスよりも 75 倍高速です。

LLMは、セレブラスのクラウドAIサービス「Cerebras Inference」上で実行されました。このサービスは、NVIDIAやAMDのGPUではなく、同社の第3世代Wafer Scale Engineを採用しています。セレブラスは、LLMからのレスポンスを構成する個々の要素であるトークンの生成において、自社のInferenceサービスが最速であると主張してきました。8月に初めてリリースされた当時、Cerebras Inferenceは、Amazon Web Servicesなどのクラウドプロバイダーを介してLlama 3.1 8BおよびLlama 3.1 70Bで実行されるNVIDIA GPUよりも約20倍高速であると謳われていました。

インスタント405Bはこんな感じです: Cerebras vs. 最速GPUクラウド: pic.twitter.com/d49pJmh3yT 2024年11月18日

「CerebrasのLlama 3.1 405Bは、世界最速のフロンティアモデルです。GPT-4oの12倍、Claude 3.5 Sonnetの18倍の速度です」とCerebrasは述べています。「MetaのオープンアプローチとCerebrasの画期的な推論技術の組み合わせにより、Llama 3.1-405Bはクローズドフロンティアモデルよりも10倍以上高速に動作します。」

クエリサイズを1,000トークンから100,000トークン（少なくとも数千語で構成されるプロンプト）に増やした場合でも、Cerebras Inferenceは1秒あたり539トークンで動作したようです。このワークロードを実行できた他の5つのサービスのうち、最も優れたサービスでも1秒あたりわずか49トークンでした。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Cerebrasはまた、第2世代のWafer Scale Engine 1基だけで分子動力学シミュレーションにおいてFrontierスーパーコンピュータの768倍の性能を達成したと自慢した。Frontierは月曜日にEl Capitanスーパーコンピュータが稼働を開始するまで世界最速のスーパーコンピュータであり、AMD製のEpyc CPUを9,472基搭載している。

さらに、Cerebras チップは Anton 3 スーパーコンピュータよりも 20% 優れたパフォーマンスを発揮しました。Anton 3 は分子動力学用に開発されたことを考慮すると、これは大きな成果です。また、1 秒あたり 110 万ステップのシミュレーションというパフォーマンスは、コンピューターが 100 万ステップのシミュレーションの壁を破った初めてのケースでもありました。

マシュー・コナッツァーは、Tom's Hardware USのフリーランスライターです。CPU、GPU、SSD、そしてコンピューター全般に関する記事を執筆しています。

Hardware