
GoogleはGeminiをリリースしました。同社はこれを「最大かつ最も高性能なAIモデル」と表現しています。この新しい大規模言語モデル(LLM)は、Ultra、Pro、Nanoの3つのサイズで提供され、データセンターからモバイルまで幅広く対応します。Geminiの最大の魅力は、その精度とパフォーマンス、そしてネイティブなマルチモーダル機能です。
Google CEOのサンダー・ピチャイ氏はブログ投稿でGeminiを紹介し、その主要な目標は「AIを誰にとってもより役立つものにすること」だと述べた。ChatGPTやGrokの進歩に関するニュースがメディアで大きく取り上げられる中、Googleは水面下でGeminiに多額の投資を行ってきた。ピチャイ氏によると、Geminiプロジェクトは「当社がこれまで取り組んできた科学技術における最大規模の取り組みの一つ」であり、Googleは「最高のツール、基盤モデル、そしてインフラ」に投資してきた。
Google CEOは、AIをめぐる変化のスピードと勢いを強調しました。「今や何百万人もの人々が、我々の製品全体で生成型AIを活用し、1年前にはできなかったことを実現しています」と彼は述べました。しかし、大きな力には大きな責任が伴うものであり、ピチャイ氏は大胆でありながら責任ある行動を取るという強いメッセージも発信しました。そのため、Geminiは安全性を確保しつつ、メリットの提供に注力していきます。
- Gemini Ultra — 非常に複雑なタスクに対応する、当社最大かつ最も高性能なモデルです。
- Gemini Pro — 幅広いタスクにわたるスケーリングに最適なモデルです。
- Gemini Nano — デバイス上のタスクに最も効率的なモデルです。
Googleはまた、検索大手の「Geminiとのお気に入りのインタラクション」の一部を紹介するビデオも公開した。
Google DeepMindのCEO兼共同創設者であるデミス・ハサビス氏も、Gemini発表のブログ記事に寄稿しました。ハサビス氏は、10代の頃にゲーム向けAIを開発していた経歴、その後神経科学研究者として活動し、DeepMindを率いる輝かしい経歴を振り返りました。ハサビス氏は、AIを単なるソフトウェア体験から、より専門的なヘルパーやアシスタントへと進化させることが最大の願いだと述べました。
ジェミニに関する話題や数々のデモンストレーションの多くは、そのマルチモーダル機能に集中しています。ジェミニは、この機能を実現するためにゼロから構築されました。そのマルチモーダル性とは、「テキスト、コード、音声、画像、動画など、さまざまな種類の情報を一般化し、シームレスに理解、操作、組み合わせることができる」ことを意味します。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
GoogleはGeminiのパフォーマンスを自慢している
GoogleはGeminiの機能とパフォーマンスに非常に注力しました。同社はブログで詳細なベンチマーク結果を公開し、Geminiが厳密にテストされ、幅広いタスクと推論において正確な結果を提供することを示しました。
Googleはまた、「Gemini Ultraは、LLM(法学修士)の採点に広く用いられている学術ベンチマークで90%のスコアを獲得したことから、「MMLU(大規模マルチタスク言語理解)において人間の専門家を上回る初のモデルだ」と自慢した。Googleは、MMLUは「数学、物理学、歴史、法律、医学、倫理学など57科目を組み合わせ、世界知識と問題解決能力の両方をテストする」と説明した。またGoogleは、Geminiは推論技術を用いて難しい質問に答える際により慎重に考えることで、結果に「大幅な改善」をもたらすと主張した。これはつまり、GoogleはGeminiが現代のLLMのライバルである多くのものほど幻覚に陥りにくいことを期待しているということだろう。
画像
1
の
2

上記のパフォーマンス表を見ると、Google Deepmindが新しいGeminiをOpenAIのGPT LLMと自信を持って比較していることがわかります。OpenAIのソリューションは、他のすべての挑戦者が必然的に評価される基準であり、Geminiはグラフ化されたAIベンチマークタスクにおいて非常に優れた結果を示したことがわかります。GPT-4はOpenAI LLMの最新かつ最も高性能なバージョンであることに留意してください。Googleは、「大規模言語モデル(LLM)の研究開発で広く使用されている32の学術ベンチマークのうち30」において、Geminiが圧倒的な勝利を収めたことを強調しました。
Google ブログでは、多数のドキュメントから洞察を提供したり、さまざまなメディア (テキスト、ビデオ、オーディオなど) を理解したり、高度なコーディングを行うなど、一般的な AI タスクに Gemini が使用されている様子を説明した概要とビデオも提供しました。
ジェミニは現在展開中
Google Geminiは現在、同社の製品およびプラットフォーム全体に展開されています。バード氏は本日から、「より高度な推論、計画、理解などを可能にする、Gemini Proの微調整版」を使用する予定です。さらに、170以上の国と地域で英語版も利用可能になります。
Gemini NanoはGoogle Pixel 8 Proでデビューします。レコーダー、G-Board、WhatsAppなどのアプリはまもなくGeminiに対応し、今後数か月でさらに多くのアプリが対応予定です。さらに、Geminiは検索(SGE)、広告、Chrome、Duet AIへの統合も準備中です。
マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることに情熱を注いでいます。