2
AMDは、強力な推論機能を備えた初の10億パラメータLLMであるAMD OLMoを発表した。
AMD
(画像提供:AMD)

AMDは、10億パラメータの完全オープンソース大規模言語モデル(LLM)シリーズ「AMD OLMo」を発表しました。これは様々なアプリケーションを対象としており、同社のInstinct MI250 GPUで事前学習済みです。このLLMは、強力な推論機能、命令追従機能、チャット機能を提供すると言われています。 

AMDのオープンソースLLMは、AI業界における同社の地位を向上させ、顧客(そしてその他すべての人々)がこれらのオープンソースモデルをAMDのハードウェアで展開できるようにすることを目的としています。データ、重み、トレーニングレシピ、そしてコードをオープンソース化することで、AMDは開発者がモデルを複製するだけでなく、それらに基づいてさらなるイノベーションを構築できるようにすることを目指しています。データセンターでの利用に加え、AMDはニューラル・プロセッシング・ユニット(NPU)を搭載したAMD Ryzen AI PC上でOLMoモデルのローカル展開を可能にし、開発者が個人用デバイスでAIモデルを活用できるようにしました。

多段階の事前トレーニング

AMD OLMoモデルは、16ノード(各ノードに4基のAMD Instinct MI250 GPU(合計64基))上で、1兆3000億トークンという膨大なデータセットを用いてトレーニングされました。AMDのOLMoモデルラインナップは、3段階にトレーニングされました。

AMD

(画像提供:AMD)
  • Dolma v1.7 のサブセットで事前トレーニングされた初期の AMD OLMo 1B は、言語パターンと一般知識をキャプチャするための次のトークン予測に重点を置いたデコーダーのみのトランスフォーマーです。 
  • 2 番目のバージョンは、AMD OLMo 1B 教師あり微調整 (SFT) で、Tulu V2 データセット (第 1 フェーズ) でトレーニングされ、その後、OpenHermes-2.5、WebInstructSub、および Code-Feedback データセット (第 2 フェーズ) でトレーニングされて、指示の遵守が改良され、科学、コーディング、および数学を含むタスクでのパフォーマンスが向上しました。 
  • 微調整後、AMD OLMo 1B SFT モデルは UltraFeedback データセットを使用した Direct Preference Optimization (DPO) を使用して人間の好みに合わせて調整され、最終的な AMD OLMo 1B SFT DPO バージョンでは、一般的な人間のフィードバックと一致する出力が優先されるようになりました。

パフォーマンス結果

AMD

(画像提供:AMD)

AMD 独自のテストでは、AMD OLMo モデルは、一般的な推論機能とマルチタスク理解の標準ベンチマークにおいて、TinyLlama-1.1B、MobiLlama-1B、OpenELM-1_1B などの同様のサイズのオープンソース モデルに対して優れたパフォーマンスを示しました。

AMD

(画像提供:AMD)

2フェーズSFTモデルは、MMLUスコアが5.09%、GSM8kスコアが15.32%向上するなど、大幅な精度向上が見られました。これは、AMDの学習アプローチの効果を示しています。最終的なAMD OLMo 1B SFT DPOモデルは、ベンチマーク全体で他のオープンソースチャットモデルを平均2.60%以上上回りました。 

AMD

(画像提供:AMD)

AMD OLMoモデルのチャットベンチマークにおける命令チューニング結果、特にAMD OLMo 1B SFTモデルとAMD OLMo 1B SFT DPOモデルを他の命令チューニングモデルと比較したところ、AMDのモデルはAlpacaEval 2の勝率で次点の競合モデルを3.41%、AlpacaEval 2 LCの勝率で2.29%上回りました。さらに、マルチターンチャット機能を測定するMT-Benchテストでは、SFT DPOモデルが最も近い競合モデルに対して0.97%のパフォーマンス向上を達成しました。

AMD

(画像提供:AMD)

さらに、AMDはToxiGen(有害な言語表現を測定、スコアが低いほど良い)、crows_pairs(バイアス評価)、TruthfulQA-mc2(回答の誠実さを評価)といった責任あるAIベンチマークをテストしました。AMD OLMoモデルは、倫理的かつ責任あるAIタスクの処理において、類似のモデルと同等であることが確認されました。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。