20
Microsoft Cortana が Siri や Google Now をどう改善するか

Windows Phone 8.1向けの新しいパーソナルデジタルアシスタントであるCortanaを、iPhone向けのAppleのSiriやAndroid向けのGoogle Nowに対するMicrosoftの回答、つまり、革新者ではなく追随者になるという同社の古い戦略のまた別の展開として片付けてしまいたくなるかもしれない。しかし、熾烈な競争が繰り広げられるモバイル分野では、模倣は高度な芸術であるということを忘れてはならない。例えば、Apple対Samsungの第1ラウンドと第2ラウンド、Microsoftのタブレットに対する当初の否定的な姿勢、Appleの小型タブレットに対する初期の否定的な姿勢、Apple Maps、Google Play Music、Apple iTunes Radioなどが挙げられる。

Cortanaは今後数ヶ月以内にWindows Phone 8.1の一部として出荷される予定で、これはMicrosoftが発表できるリリース時期としてはほぼ正確と言えるでしょう。Microsoftは、同社のBingプラットフォーム部門が開発したこの新技術を、同社の年次開発者会議であるBuildで発表およびデモンストレーションを行いました。参加者は、Cortanaをより深く体験し、MicrosoftがAppleやGoogleに挑む様子を聞く機会を得ました。

続きを読む: Windows Phone 8.1にCortanaが導入される

技術の派生や模倣の多くは、差別化を図るか、先行技術を基盤とするかのどちらかですが、差別化が必ずしも改善につながるとは限りません。フォーカスグループやマーケティングスライド、あるいは綿密に演出された発表では良い印象を与えるものでも、現実の冷徹な耳には届かないことがしばしばあります。

したがって、Cortanaには懐疑的になるのが賢明です。Cortanaは数週間は出荷されず、出荷された後もベータ版のままでしょう。2011年に登場したSiriと同じような状況でしょう。私自身のCortanaの短い使用経験は決して完璧とは言えず、MicrosoftのチームがCortanaから期待通りの成果を得られなかったのを目の当たりにしましたが、この製品は従来の製品とは一線を画し、かつその基盤を築いているように見えます。Cortana、そしてMicrosoftがCortanaに関して主張していることは、私に新たな目的を持ってSiriとGoogle Nowを再検討するきっかけを与えました。

確かに、IDCの2013年の推定によると、Windows Phoneの世界市場シェアはわずか3.3%(現在1.9%のBlackBerryを上回っているものの、iOSの15.2%やAndroidの78.6%を下回っている)に過ぎない。しかし、市場シェアは拡大している(Windows Phoneの出荷台数は2013年に90.9%増加し、第4四半期には46.7%増加)。Cortanaは、Windows Phoneへの移行者にパーソナルアシスタントの分野で自慢できる権利を与える可能性もある。Cortanaの成功がMicrosoftの新たな顧客獲得に十分かどうかは定かではないが、可能性がないわけではない。

マイクロソフトは、Cortanaを限定的にハンズオンテストに利用できるようにしただけでなく、報道関係者とアナリスト向けにBingプラットフォームの小規模なブレイクアウトセッションを開催し、Bingの幹部がCortanaについて熱く語りました。その後、私はMicrosoft Bingの検索担当ディレクターであるステファン・ワイツ氏にインタビューを行い、Cortanaの基盤となる技術について、そしてこの技術がいかに有望であるかを深く掘り下げて説明しました。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Bing が Cortana を支える仕組み
Cortana は、18ヶ月前、Microsoft の Windows Phone グループと Bing グループの共同作業として誕生しました。当時、Microsoft の自然言語グループに所属していた Michael Calcagno 氏が、Bing 情報プラットフォームのアーキテクトに就任しました。Bing サービスには、視覚認識(物理的な物体の認識)や推論機能など、Cortana の主要機能はすべて既に備わっていました。Microsoft は、それらを統合するプラットフォームを構築するだけでした。

マイクロソフトは以前、人、場所、物、そしてそれらの他のエンティティとの関係性を理解する技術であるエンティティデータベースを構築していました。同社はこの技術を「Satori」と名付けており、この技術によって、ユーザーが尋ねた質問に対する単純な答えだけでなく、その質問に関連するあらゆる情報を提供する検索結果を実現しています。

マイクロソフトは音声認識にも取り組んでおり、ディープニューラルネットワーク(DNN)を用いて、人間の脳が情報を処理する方法に基づいたパターン認識を実現しています。波形はビットに変換され、音声認識システムに送られ、自然言語処理によってユーザーの意図が推論されます。


Apple と Google もそれぞれ自然言語処理を行っていますが、各社ともその処理に何らかの知的財産を採用しています。

Cortanaでは、ほとんどの処理はクラウドで行われますが、音声認識と情報処理の一部はデバイス上で行われます。つまり、Cortanaへのクエリはデバイスとクラウドの両方に配信され、結果はデバイス上で統合されます。ワイツ氏によると、Cortanaの機能の一部は完全にオフラインで実行できます。

音声認識、DNNの活用、エンティティ理解、そして推論の組み合わせが、強力な方法で実現します。Cortanaは、ユーザーが話している内容を特定の領域へと解析します。デバイスの機能についてでしょうか?リマインダーについてでしょうか?カレンダーの予定についてでしょうか?そして、その領域内で、Cortanaは発話の意図を判断します。ユーザーは何をしたいのでしょうか?

マイクロソフトの分科会で浮かび上がった重要な差別化テーマの一つは、Cortanaが検索や音声アシスト検索から得られる知識ではなく、タスク完了というコンセプトに基づいて構築されている点だ。「私たちは検索モデルに打ちのめされ、タスク完了という概念は失われてしまった」とワイツ氏は述べた。さらに、検索は「[ウェブ]ページのための名詞ベースの検索システムへと進化した」と付け加えた。

タスクの完了、つまり物事を成し遂げるという概念は、Apple Siri が初めて登場したときもその基礎となっていました。

Cortanaはホーム画面にWindows Liveタイルとして表示されますが、Google Nowと同様に、デバイス検索機能も活用しています。Cortanaには、Microsoftが「プロアクティブ キャンバス」と呼ぶ、推測に基づいて情報を提供する機能と、クエリに応答する「リアクティブ キャンバス」が搭載されています。

Microsoft チームが指摘した重要な違いの 1 つは、Cortana が要求を理解し、情報を見つけていることをユーザーに確認することだ。つまり、単純な「OK」ではなく、状況に応じた確認プロンプトを出すということだ。

Cortanaは頻繁に音声でクエリ結果を返しますが、クラウドからレンダリングされたリッチなデータプレゼンテーションも提供します。Cortanaには音声だけでなくキーボードからも話しかけることができます。これもSiriとの大きな違いです。しかし、Siriと同様に、Cortanaにも個性的な機能(ジェン・テイラーが声を担当した『Halo』のパーソナルアシスタントをモデルにしています)があり、くだらない質問に対して皮肉たっぷりの返答をしたり、Siriと同様に会話重視のアプローチをとったりします。率直に言って、Microsoftはここで2011年のSiriの戦略を大いに参考にしています。

Cortana の 5 つの主な違い
1.) コンテキスト。Microsoftの Cortana がタスク完了にもたらす重要な機能の 1 つがコンテキストです。つまり、クエリから結果を取得し、その結果に関連する追加の質問をすることができます。

ワイツ氏が近くの美味しいレストランを検索するデモを行った際、Cortanaは評価と距離に基づいて三角測量を行いました。次に、結果セットの中にベジタリアン向けのレストランがあるかどうかを尋ねると、Cortanaは最初のリストのサブセットを返しました。この結果から、ワイツ氏はレストランの1つに関する情報(「最初のレストランまでどれくらいかかりますか?」や「2つ目のレストランを予約してください」など)を尋ねました。つまり、Cortanaはリストが提供されており、要求されている内容がそのリストに含まれていることを理解したということです。Cortanaは、結果ページの内容に合わせて要求の語彙を調整します。

Apple の Siri でこれを試してみたところ、2 番目のステップで停止し、近くのレストランの一覧からベジタリアン レストランを見つけるどころか、ベジタリアン レストランが見つかるどころか、「ベジタリアン」という単語を検索してしまいました。

だからといって、Siriが状況認識能力に欠けているわけではありません。Siriに最も近いレストランを尋ねると、距離順に並び替えてくれました。また、あるレストランの予約をSiriに頼んだところ(名前を呼んで予約しました)、Siriはそのレストランが予約を受け付けていないと判断し、自分で電話をかけるように指示してくれました。レストランのリストが表示されたら、Siriに「子供連れでも大丈夫ですか?」と尋ねることができます。上映中の映画を調べるときは、「ラッセル・クロウ出演」や「チ​​ケットを購入」などと続けて言えば、Siriは適切なルートをたどってくれます。

天気を尋ねて返事をもらった後、「ニューヨークはどう?」と尋ねると、Siriは私がまだ天気について話していることを察知し、答えてくれました。「今週末はどう?」と尋ねると、Siriは今後の週末の天気予報を教えてくれました。しかし、「ビッグサーはどう?」と尋ねると、Siriはビッグサーに関するウェブページを教えてくれ、と返答しました。Siriは、自分が最もよく聞く情報に最適化されているようです。

同様に、Google Now は既に知っている情報にもコンテキストを提供します。例えば、スペースニードルの写真を見せてほしいと頼んだ後、「高さはどれくらいですか?」と尋ねると、Google Now は「それがスペースニードルである」と認識します。しかし、ハリウッドサインの写真を見せてほしいと頼んだ後、「それはどこですか?」と尋ねると、スペースニードルへの道順が表示されました。近くのレストランのリストを見せてほしいと頼んだ後、「イタリアンはどうですか?」と尋ねると、近くのイタリアンレストランのリストが表示されました。レストランによっては、「メニューを見せて」と頼めば、メニューを表示してくれるものもあります。

もっと長い例のリストがなければ、Cortana がどれほど強力になるかを正確に判断するのはまだ難しいですが、すべてが約束どおりに機能すれば、ここでいくつかの有望な微妙な点が見え始めるでしょう。

2.) 推論。CortanaはGoogle Nowのようにデバイスからの信号をマイニングすることで、ユーザーの習慣、興味、優先事項をより深く理解します。ハードウェアレベルでは、位置情報、バッテリーの状態、動き(または動きがない状態)を把握し、それらから自宅や職場の場所を推測します。検索履歴を追跡し、カレンダーやメールの内容までも確認します。例えば、メール内のフライト情報に気付き、そのフライトを追跡するかどうかを尋ねるかもしれません。

これらの信号を取得するには、ユーザーが Cortana に許可を与える必要がありますが、Microsoft はこれが重要な違いであると考えています。

Siriも推論に基づくパーソナライゼーションをいくらか提供していますが、その範囲はやや限定的です。自宅と職場の場所はSiriが把握しますし、ユーザーがそれを伝えることもできます。例えば、Siriに「兄弟に電話をかけて」と頼むと、Siriは兄弟が誰なのかを尋ねるプロンプトを表示します。

Cortanaはさらに一歩先を行くことを約束しています。「弟にトラックを借りてもいいか尋ねるのを忘れないように」と頼めば、次回の弟とのやり取りで、どんなやり取りであってもリマインダープロンプトが表示されます。Siriに特定のイベント中に特定のリマインダーを送信するように指示する必要があります(例えば、「家に帰ったら弟に電話するのを忘れないように」など)。

Google Nowは、カスタマイズ可能なカード(通勤情報、フライトの遅延情報、予約情報、翻訳や通貨換算などの旅行支援カード、店舗チェーンなどのスマートリマインダー(特定の店舗に入った際に商品を購入するリマインダーを設定できる)など、現在数十種類あります)と、デバイス上で実行されているGoogleサービス(カレンダー、メール)から収集された信号や情報に基づく推論を組み合わせて使用​​します。これは非常に強力な組み合わせですが、カードは非常に強力である一方で、Google Nowの推論はCortanaほど高度ではないようです。

Cortanaは、Microsoft以外のサービスも含め、複数のサービスで動作します。例えば、Googleメールの内容を読み取ることができます。「Googleを全面的に使っている人にとって、Google Nowは魔法のツールです」とワイツ氏は述べました。Windows Phoneデバイスに同期されたもの(つまり、デバイス上に情報が存在するもの)があれば、Cortanaはそれを利用できると付け加えました。

3.) 透明性とカスタマイズ。透明性はCortanaの重要な特徴の一つであり、Microsoftが特に重視した点です。幹部たちは、Cortanaの全知性が不気味なものと誤解されることを決して許さないと決意しているようでした。Cortanaが自宅の場所だと推測した場合、ユーザーに確認を求めます。Microsoftが提供しているデバイスはユーザーがパーソナライズできるように設計されていないため、これらの確認がどの程度まで及ぶかは分かりませんが、Microsoftはすべての推測にはユーザーの承認が必要であることを示唆しました。

さらに、Cortanaはデバイスユーザーの「ノートブック」を搭載しており、これはCortanaが学習、推論、追跡した情報をまとめたものです。このコンセプトは、Microsoftの社員が実際にパーソナルアシスタントにインタビューを行い、彼らの仕事の強みについて尋ねた結果から生まれました。重要な発見の一つは、アシスタントがクライアントに関するあらゆる情報をノートブックに記録していたことです。

Windows Phone 8.1では、実際にノートブックにアクセスして情報を編集したり追加したりできます。これには、あなたの趣味、大切な場所、音楽の好み、リマインダー、設定、さらには「親しい友人」に関する情報も含まれます。

インナーサークルとは、親しい同僚、兄弟、友人など、あなたとある程度親密な関係にある人たちのことです。このインナーサークル機能は、携帯電話に保存されている情報、Peopleアプリ、Microsoft Lync、さらにはFacebookからも情報を取得します。ノートブックのインナーサークルエントリにアクセスし、関係やニックネーム(最大3つ)を設定できます。さらに、携帯電話の「静音時間」モードに、これらの人たちを許可することもできます(ただし、Facebookからインナーサークルに追加した人たちは除きます、とワイツ氏は言います)。 

Google NowはCortanaのノートブックと似たコンセプトを採用しています。個人設定、つまりデバイスやサービスにおけるGoogleの行動に関する判断に簡単にアクセスできます。多少の変更や追加は可能ですが、Cortanaと比べるとかなり制限されています。例えば、Google Nowでは重要な場所は「自宅」と「職場」の2つだけです。Cortanaでは、お気に入りの場所を手動で追加できます。

Google Nowでは、スポーツチームを追加したり、好みの交通手段を指定したりできますが、選択できるのは1つだけです。フォローする銘柄や、お気に入りのテレビ・動画ストリーミングサービス(Hulu、Amazon Prime、Netflixなど)も指定できます。その他、Google Nowには、Googleが推測したユーザーの興味関心を寄せ集めたリストが用意されていますが、Cortanaでは可能と謳われているように、推測リストに手動で追加することはできません。

4.)自動調整。Cortanaでは、ユーザーの意図を理解し、ユーザーの行動に基づいて自動調整するなど、舞台裏で多くの作業が常に行われています。例えば、音声検索で間違った結果が表示された場合(これは私たちの短いテスト中にも起こりました)、もう一度同じ質問をすると、Cortanaは間違いを認識します。そして、バックエンドでプラットフォームが調整を行います。 

あるいは、クエリがウェブ検索結果ページで終わってしまう場合、それはCortanaにとって、より正確な結果を適切に提供できなかったというシグナルとなる可能性があります。Cortanaは学習して調整し、次のクエリをより注意深く聞き取り、ユーザーが何を意図しているかを理解し、ユーザーが少し異なる方法で質問したと仮定します。ワイツ氏によると、Cortana/Bingのサービスは、より自動化された機械学習に加えて、間違いが特定の閾値に達した場合に、一定レベルの人間による、あるいは手動によるモデリングを組み合わせているとのことです。

ワイツ氏がCortanaの自己調整機能を説明するために挙げた例の一つは、美味しい「バーベキュー店」の場所を尋ねる質問でした。Cortanaは当初、これをレストランへの質問だと理解しませんでした。しかし、ワイツ氏の追加の質問に基づいて、Cortanaはすぐにその言葉を学習し、日常会話にその言葉を追加しました。

簡単なテストとして、Siriに「どれくらい寒いですか?」と尋ねてみたところ、Siriは天気を答えてくれました。Google Nowは質問の意味すら理解できませんでした。SiriとGoogle Nowの両方のサービスで「ジャケットを着るべきですか?」と尋ねたところ、どちらのサービスも天気を答えてくれました。つまり、これらのサービスはすべて、ある程度この課題に取り組んでいるということです。さらに、AppleとGoogleはどちらも、長年にわたり何億人もの顧客からサービス利用のフィードバックを受け、サービスの精度向上に役立ててきました。

Appleは、米国だけでなく、様々な言語(そしてその後方言も)の地域アクセントを理解できるようアルゴリズムを微調整しました。そうです、Siriはボストンアクセントかテキサスアクセントかに基づいて言語モデルを調整できます。また、Siriに名前の発音を教えることもできます。Siriモードに入り、小さな「?」ボタンを押すだけで、Siriから抽出できる様々な情報を驚くほど豊富なリストで表示し、さらに掘り下げることができます。上空を飛んでいる飛行機を尋ねたり、ルート沿いのガソリンスタンドを探したり、メッセージを音声入力したりすることも可能です。

これらすべてのサービスにとって役立つ機能の一つは、例えばマーチマッドネスが終わったらバスケットボールへの興味が薄れていくのをモニタリングし、それを情報ストリームから排除していく機能です。CortanaやGoogle Nowを使えば、特定のトピックに興味がなくなったことをシステムに手動で伝えることができます。

5.) Cortana API。MicrosoftはCortana APIも提供しており、開発者はCortana APIにアプリケーション内のデータベースやプロセスへの直接アクセスを許可できます。Weitz氏によると、アプリのWebサービスがディープコールに対応していれば、Cortanaに付与できるアクセス範囲はほぼ無制限です。CortanaはFacebookのステータスを確認できるだけでなく、特定のFacebook投稿を検索するようにCortanaに指示することも可能です。 

Windows Phone 8.1には新しいバージョンのSkypeが搭載されており、「[人の名前]を呼んで」とCortanaに話しかけると、Skypeにアクセスできます。Huluのキューにコンテンツを追加することも可能です。Cortanaのロールアウト対象アプリはごく少数(先ほど挙げたアプリに加え、FlixsterとTwitter)ですが、他のアプリも簡単なAPI呼び出しで簡単にこの機能を活用できるようになります。

Google は Google Now への API アクセスを提供していません。

AppleもSiri用のAPIを提供していませんが、Siriがサポートするアプリケーションやサービスは非常に充実しており、Facebook、Twitter、OpenTable(Siriはデバイス上のアプリの認証情報を使ってレストランの予約を行います)、Fandango、MLB、Yahooなどが含まれます。そうそう、MicrosoftのBingもお忘れなく。

フリッツ・ネルソンはTom's Hardware USの編集長です。