1
ルトニック米商務長官は、アメリカのAIがディープシークを圧倒していると述べ、トランプ大統領のAI行動計画に感謝の意を表した。OpenAIとAnthropicは19の異なるベンチマークで中国のモデルを上回った。
iPhone上のDeepseekのロゴ
(画像クレジット:ゲッティ/ハーストックアート)

米国国立科学技術研究所(NIST)は、中国と米国のAIモデルの包括的なテストを完了しました。その結果、OpenAIとAnthropicのモデルが19の異なるベンチマークでDeepSeekを上回ったことが示されました。米国商務長官ハワード・ラトニック氏はXでこの結果を共有し、米国のAIイノベーションとインフラを加速させるとともに、同盟国や友好国にも導入を促すというドナルド・トランプ大統領のAI行動計画に感謝の意を表しました。

「報告書は明確です。DeepSeekは、特にサイバーとソフトウェアエンジニアリングにおいて大きく遅れをとっています。これらの弱点は単なる技術的な問題ではありません。外国のAIに依存することがいかに危険で近視眼的であるかを示しています」と、ルトニック長官は投稿で述べています。「敵対国にAIを制御させることは、我が国の安全保障にとって深刻なリスクとなります。商務省は、基準を設定し、イノベーションを推進し、アメリカの安全を守ることで、AI分野における米国のリーダーシップの継続を確保しています。」

NISTは商務省傘下の連邦機関であり、米国の国際産業競争力維持のため標準規格の開発や産業支援を行っており、この研究は新設されたAI標準イノベーションセンター(CAISI)の下で実施された。

このテストでは、R1、R1-0528、V3.1のDeepSeekモデル(今週リリースされたDeepSeekの新バージョン3.2ではない)を、OpenAIのGPT-5、GPT-5-mini、GPT-oss、AnthropicのOpus 4と19種類のベンチマークで競わせました。公開されているテストには、ソフトウェアエンジニアリングのSWE-bench VerifiedとBreakpoint、一般知識能力のMMLU-ProとGPQA、数学的推論のSMT 2025、PUMaC 2024、OTIS-AIME 2025数学コンテスト、ハイジャック攻撃耐性のAgentDojoフレームワークが含まれています。これに加えて、CCPの検閲などをテストするための独自のカスタム評価もカスタマイズして開発しました。検閲のための標準テストが存在しないためです。

全ての結果は69ページにわたる文書[PDF]にまとめられており、CAISIはOpenAIとAnthropicが全てのテストでDeepSeekを上回っていると述べていますが、特にソフトウェアエンジニアリングとサイバータスクにおいてその差は歴然としています。米国のAIモデルはDeepSeekを概ね20~80%上回り、運用コストも約35%低くなっています。また、DeepSeekは乗っ取りや脱獄が容易なため、意図しない動作をする可能性が高くなります。報告書ではまた、中国のモデルは偏りがあり、北京からのメッセージに関しては中国の方針に従っていると指摘されていますが、異なる結果をもたらす可能性のある他のAIベンチマークツールが存在することを念頭に置く必要があります。

にもかかわらず、DeepSeek R1は継続的に採用されており、CAISIは「これらのモデルの使用は、アプリケーション開発者、消費者、そして米国の国家安全保障にリスクをもたらす可能性がある」と述べています。さらに、この中国のAI企業は新しいモデルを継続的にリリースしており、今週初めにはDeepSeek-V3.2-Expがリリースされたため、これらのテストの一部は意味をなさなくなる可能性があります。

Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ジョウィ・モラレスは、長年のテクノロジー業界での実務経験を持つテクノロジー愛好家です。2021年から複数のテクノロジー系出版物に寄稿しており、特にテクノロジー系ハードウェアとコンシューマーエレクトロニクスに興味を持っています。