
Cerebras は、Meta の Llama 3.1 405B 大規模言語モデルを 1 秒あたり 969 トークンで実行することに成功しました。これは、GPU を使用した Amazon Web Services の最速 AI サービスよりも 75 倍高速です。
LLMは、セレブラスのクラウドAIサービス「Cerebras Inference」上で実行されました。このサービスは、NVIDIAやAMDのGPUではなく、同社の第3世代Wafer Scale Engineを採用しています。セレブラスは、LLMからのレスポンスを構成する個々の要素であるトークンの生成において、自社のInferenceサービスが最速であると主張してきました。8月に初めてリリースされた当時、Cerebras Inferenceは、Amazon Web Servicesなどのクラウドプロバイダーを介してLlama 3.1 8BおよびLlama 3.1 70Bで実行されるNVIDIA GPUよりも約20倍高速であると謳われていました。
インスタント405Bはこんな感じです: Cerebras vs. 最速GPUクラウド: pic.twitter.com/d49pJmh3yT 2024年11月18日
「CerebrasのLlama 3.1 405Bは、世界最速のフロンティアモデルです。GPT-4oの12倍、Claude 3.5 Sonnetの18倍の速度です」とCerebrasは述べています。「MetaのオープンアプローチとCerebrasの画期的な推論技術の組み合わせにより、Llama 3.1-405Bはクローズドフロンティアモデルよりも10倍以上高速に動作します。」
クエリサイズを1,000トークンから100,000トークン(少なくとも数千語で構成されるプロンプト)に増やした場合でも、Cerebras Inferenceは1秒あたり539トークンで動作したようです。このワークロードを実行できた他の5つのサービスのうち、最も優れたサービスでも1秒あたりわずか49トークンでした。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
Cerebrasはまた、第2世代のWafer Scale Engine 1基だけで分子動力学シミュレーションにおいてFrontierスーパーコンピュータの768倍の性能を達成したと自慢した。Frontierは月曜日にEl Capitanスーパーコンピュータが稼働を開始するまで世界最速のスーパーコンピュータであり、AMD製のEpyc CPUを9,472基搭載している。
さらに、Cerebras チップは Anton 3 スーパーコンピュータよりも 20% 優れたパフォーマンスを発揮しました。Anton 3 は分子動力学用に開発されたことを考慮すると、これは大きな成果です。また、1 秒あたり 110 万ステップのシミュレーションというパフォーマンスは、コンピューターが 100 万ステップのシミュレーションの壁を破った初めてのケースでもありました。
マシュー・コナッツァーは、Tom's Hardware USのフリーランスライターです。CPU、GPU、SSD、そしてコンピューター全般に関する記事を執筆しています。