98
中国の AI モデルが Hugging Face の LLM チャットボット ベンチマーク リーダーボードで急上昇 — Alibaba が首位をキープ、米国の大手…
人工知能
(画像クレジット:Shutterstock)

Hugging Faceは、同社がテストした中で最も優れた言語モデルをランク付けした、2回目のLLMリーダーボードを公開しました。この新しいリーダーボードは、様々なタスクにおけるオープン大規模言語モデル(LLM)の性能をテストするための、より難易度の高い統一基準となることを目指しています。AlibabaのQwenモデルは、このリーダーボードの初回ランキングで圧倒的な強さを見せ、トップ10のうち3つを占めました。 

新しくなったオープンLLMリーダーボードを発表できて嬉しいです。主要なオープンLLMを対象に、MMLU-proなどの新しい評価を再実行するために、300 H100を費やしました!学習成果:- Qwen 72Bが王者であり、中国のオープンモデルが全体的に優勢- 以前の評価は最近の… 2024年6月26日

新しいリーダーボードのトップは、AlibabaのLLMであるQwenで、いくつかの亜種を擁しながら1位、3位、10位を獲得しています。また、MetaのLLMであるLlama3-70Bや、他の小規模なオープンソースプロジェクトも上位にランクインしており、いずれも優れたパフォーマンスを発揮しています。注目すべきはChatGPTの兆候が見られないことです。Hugging Faceのリーダーボードでは、結果の再現性を確保するためにクローズドソースモデルをテストしていません。 

リーダーボードへの参加資格を得るためのテストは、Hugging Face社独自のコンピューターでのみ実行されます。CEOのクレム・デラング氏のTwitterによると、このコンピューターには300基のNvidia H100 GPUが搭載されています。Hugging Face社はオープンソースで共同作業的な企業であるため、誰でも新しいモデルをテスト用に提出し、リーダーボードに登録することができます。また、新しい投票システムにより、人気の高い新規エントリーが優先的にテスト対象となります。リーダーボードは、小規模なLLMが過剰に表示されて混乱を招くのを防ぐため、重要なモデルのみをハイライト表示するようにフィルタリングできます。 

LLM分野の柱として、Hugging FaceはLLM学習とコミュニティコラボレーションのための信頼できる情報源となっています。昨年、複数の確立されたLLMのテスト結果を比較・再現する手段として最初のリーダーボードがリリースされて以来、このボードは急速に人気を博しました。このボードで上位ランクを獲得することは、規模の大小を問わず多くの開発者の目標となりました。モデルが一般的に強力になり、「スマート」になり、最初のリーダーボードの特定のテストに最適化されるにつれて、その結果はますます意味を失ってきており、そのため2番目のバリアントが作成されました。 

MetaのLlamaの新しい亜種を含む一部のLLMは、最初のリーダーボードでの高得点に比べて、新しいリーダーボードでは大幅にパフォーマンスが低下しました。これは、最初のリーダーボードのベンチマークのみでLLMを過剰にトレーニングする傾向に起因しており、実世界におけるパフォーマンスの低下につながっています。このパフォーマンスの低下は、超特異性と自己参照的なデータによるもので、AIのパフォーマンスが時間の経過とともに低下するという傾向に沿ったものです。これは、GoogleのAI回答が示したように、LLMのパフォーマンスはトレーニングデータと同程度であり、真の人工知能の実現にはまだまだ長い年月がかかることを改めて証明しています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

サニー・グリムはTom's Hardwareの寄稿ライターです。2017年からコンピューターの組み立てと分解に携わり、Tom'sの常駐若手ライターとして活躍しています。APUからRGBまで、サニーは最新のテクノロジーニュースを網羅しています。