モッダーが Raspberry Pi Zero 搭載の USB スティックに LLM を詰め込んだが、実用に耐えるほどの速度ではない

（画像クレジット：YouTube: Build with Binh）

ローカル LLM の使用が増加しており、多くの人が LLM を実行するために PC やシステムをセットアップしているため、クラウド内のどこかのサーバーで LLM を実行するという考え方は急速に時代遅れになりつつあります。

Binh Pham氏はRaspberry Pi Zeroを実験的に使用し、デバイスを小型USBドライブとして活用することで、追加機能を必要とせずにLLMをローカルで実行できるようにしました。このプロジェクトは、オフラインでも軽量なチャットボット体験を提供するために設計された一連のパッケージと命令セットを組み合わせたllama.cppとllamafileのおかげで大きく促進されました。

Pi Zeroで動作させるためにllama.cppのソースコードを編集した後、彼はスティックのソフトウェア側を動作させる必要がありました。そして、ソフトウェアエクスペリエンスを可能な限りシームレスにすることに注力しました。

LLM自体は、メインプロンプトとして機能するLLMにテキストファイルを送信することを前提として構築されています。そこでPhamは、テキストプロンプトに基づいてストーリーを生成し、生成された出力を含む完全なファイルとして出力する実装を構築しました。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

トークン制限を64に設定し、15Mから136Mまでの複数のモデルでベンチマークを実施しました。Tiny15Mモデルは1トークンあたり223ミリ秒の速度を達成し、2つのより大型のLamini-T5-Flan-77Mモデルは1トークンあたり2.5秒の速度を達成し、SmolLM2-136Mモデルは1トークンあたり2.2秒の速度を達成しました。

トークンの速度は、多くの実用的なアプリケーションで使用するには遅すぎることを意味します。興味深いプロジェクトではありますが、古くて軽量なハードウェアでローカルLLMを実行することは、実用性に欠ける可能性があります。代わりに、Raspberry Pi 5でDeepseekを実行するなど、より複雑なモデルを使用することをお勧めします。

Sayem AhmedはTom's Hardwareの定期購読編集者です。CPU、GPU、その他半導体を搭載したあらゆるものを含む、新旧のハードウェアについて幅広く深く掘り下げた記事を執筆しています。

Ecosystem