
EXO Labsは、Windows 98上でLlamaを実行する方法について詳細なブログ記事を執筆し、ソーシャルメディアに投稿した短い動画で、26年前のWindows 98 Pentium II搭載PC上で動作する、かなり強力なAI大規模言語モデル(LLM)を実演しました。動画では、350MHzの古いElonex Pentium IIでWindows 98を起動し、EXOがAndrej Karpathy氏のLlama2.cをベースにしたカスタムC推論エンジンを起動し、LLMにSleepy Joeに関するストーリーを生成させる様子が映し出されています。驚くべきことに、LLMは正常に動作し、非常に速いペースでストーリーが生成されました。
LLM は、Intel Pentium II CPU と 128MB RAM を搭載した 26 年前のハードウェアを搭載した Windows 98 PC で実行されています。@karpathy llama2.cCode と DIY ガイドに基づくカスタムの純粋な C 推論エンジンである llama98.c を使用しています 👇 pic.twitter.com/pktC8hhvva 2024 年 12 月 28 日
読者の皆さんの予想通り、EXOにとってこのプロジェクトの基盤としてeBayで古いWindows 98 PCを入手するのは容易でしたが、乗り越えるべきハードルは数多くありました。EXOによると、古いElonexブランドのPentium IIにデータを転送するのは困難で、古いマシンのイーサネットポート経由でファイル転送を行うために「古き良きFTP」を使うしかなかったそうです。
Windows 98向けに最新のコードをコンパイルするのは、おそらくより大きな課題でした。EXOはAndrej Karpathy氏のllama2.cを発見できたことを嬉しく思います。これは「Llama 2アーキテクチャのモデルで推論を実行できる700行の純粋なC言語」と要約できます。このリソースと、古いBorland C++ 5.02 IDEとコンパイラ(そしていくつかの小さな調整)を使えば、コードをWindows 98互換の実行ファイルにして実行することができました。完成したコードへのGitHubリンクはこちらです。
Windows 98で35.9 tok/秒 🤯これはLlamaアーキテクチャの260K LLMです。より大きなモデルも試しました。結果はブログ記事をご覧ください。 https://t.co/QsViEQLqS9 pic.twitter.com/lRpIjERtSr 2024年12月28日
EXOの優れた開発者の一人であるアレックス・チーマ氏は、アンドレイ・カルパシー氏のコードに深く感謝し、そのパフォーマンスに驚嘆しました。260K LLMとLlamaアーキテクチャを使用して「Windows 98で35.9 tok/sec」というパフォーマンスを実現したのです。カルパシー氏はかつてテスラのAI担当ディレクターを務め、OpenAIの創設チームにも所属していたことは特筆に値します。
もちろん、260K LLMは小さめですが、350MHzの古いシングルコアPCでも十分な速度で動作しました。EXOブログによると、15M LLMにアップグレードすると、生成速度は1 tok/秒を少し超える程度になりました。ただし、Llama 3.2 1Bでは0.0093 tok/秒と非常に遅いものでした。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
BitNetはより大きな計画だ
ここまで読んでいただければ、この話が単にWindows 98マシンでLLMを実行するという話ではないことはお分かりでしょう。EXOはブログ記事の最後で、BitNetによって民主化が進むであろう未来について語っています。
「BitNetは3値重みを用いたトランスフォーマーアーキテクチャです」と説明されています。重要なのは、このアーキテクチャを用いることで、7Bパラメータモデルに必要なストレージ容量はわずか1.38GBだということです。26年前のPentium IIならまだしも、現代のハードウェア、あるいは10年前のデバイスからすれば、羽のように軽いと言えるでしょう。
EXOは、BitNetがCPUファーストであることも強調しています。つまり、高価なGPU要件を回避できるということです。さらに、このタイプのモデルは、フル精度モデルよりも50%効率が高く、100Bパラメータのモデルを単一のCPUで人間の読み取り速度(約5~7tok/秒)で実行できるとされています。
最後に、EXOはまだ協力者を募集しています。AIが億万長者や巨大企業が所有する巨大なデータセンターに閉じ込められる未来を避けたい、そして何らかの形で貢献できるとお考えの方は、ぜひご連絡ください。
EXO Labs とのよりカジュアルな連携のため、彼らは Discord Retro チャンネルを主催し、古い Mac、Gameboy、Raspberry Pi などの古いハードウェアで LLM を実行することについて議論しています。
マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることに情熱を注いでいます。