
GoogleによるGeminiハンズオン動画は、同社の新しいAI大規模言語モデル(LLM)発表の中でも最も印象的なものの一つでした。しかし、ブルームバーグがGoogleの広報担当者に取材したところ、動画はリアルタイムで録画されたものではないと認めました。さらに、音声プロンプトも使用されておらず、Geminiとの音声インタラクションは後から吹き替えられたものです。Googleはデモと同時にブログ記事も公開し、動画の制作過程を説明しています。
GoogleのCEO、サンダー・ピチャイ氏は木曜日にハンズオン動画を公開し、「Geminiの驚異的な機能を理解するには、実際に動作しているのを見るのが一番です」と述べた。動画のYouTube説明には、すべてが見た目通りではないというヒントが含まれていた。「このデモでは、レイテンシが削減され、Geminiの出力は簡潔にするために短縮されています」と脚注に記されている。
双子座とは何か(星座を超えて)についていくつか質問があります。双子座の根底にある素晴らしい能力を理解するには、実際にその能力が発揮されているのを見るのが一番です。ぜひご覧ください⬇️ pic.twitter.com/OiCZSsOnCc 2023年12月6日
しかし、この脚注は控えめな表現、あるいは真実から逸れたものと言えるかもしれない。動画は単に短縮されたわけではなく、録画中に実際のインタラクションはなかったのだ。Googleの広報担当者はブルームバーグに対し、ハンズオン動画は「映像の静止画とテキストによる指示」でまとめられたと述べている。つまり、Geminiは入力された指示とアップロードされた静止画にのみ反応したのだ。人間が話したり、絵を描いたり、物を見せたり、カップなどの物体で遊んだりする会話の流れは、デモ動画のために演出されただけのように見えた。
動画を振り返ってみると、スポークスマンの説明は、デモを初めて体験したときに得た自然な会話型アシスタントの印象を覆すものでした。
Google DeepMindの研究担当副社長兼ディープラーニング責任者であるオリオール・ヴィニャルズ氏が本日、「Geminiハンズオン」動画についてさらに詳しく説明しました。「この動画は、Geminiで構築されるマルチモーダルなユーザーエクスペリエンスがどのようなものになるかを示しています」とヴィニャルズ氏は述べ、「開発者にインスピレーションを与えるために制作しました」と続けました。このGoogle DeepMind副社長の投稿は、動画が「実写で、簡潔にするために短縮された」という主張を繰り返したため、多くの批判を浴びました。
「Geminiハンズオン」動画へのご関心をいただき、大変嬉しく思います。昨日の開発者ブログでは、この動画の作成にGeminiがどのように使われたかを詳しく説明しました。https://t.co/50gjMkaVc0Geminiに様々なモダリティ(今回は画像とテキスト)のシーケンスを与え、反応を確認してみました… pic.twitter.com/Beba5M5dHP 2023年12月7日
Googleの動画が、Googleの開発者たちにインスピレーションを与え、デモ動画で紹介されているGeminiをそのまま使えるようにしてくれることを願っています。もしそうでなければ、ハンズオン動画のデモと現実の乖離に、人々は少し騙された、あるいは騙されたと感じてしまうかもしれません。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることに情熱を注いでいます。