インテルはRealSenseで人間の知覚を模倣しようとしている

CPUで知られるインテルが、IoT（モノのインターネット）、RealSense、機械学習、さらには複合現実（MR ）についてより深く語るようになっていることは周知の事実です。同社のカンファレンス基調講演では、ドローンや同期ロボット、バーチャルで制作された音楽などが取り上げられることが多くなっています。これらはどれも楽しいものであり、もちろんビジネスにも繋がるものです。

インテルの研究開発ラボを訪れ、その基盤をもう少し詳しく見てみたところ、その大胆さに驚かされました。インテルの目標は人間の知覚システムを模倣することだと説明されました。センサー処理技術の詳細については説明されず、人間の生物学について教えられました。CPUのオーバークロックではなく、ニューロンのオーバークロックについて話をしました。

今回の講師を務めてくださったのは、インテルの知覚コンピューティング研究所のバイスプレジデント、アチン・ボーミック博士でした。IDFセッションでのプレゼンテーションと全く同じ、抑えきれない情熱と、非常に複雑なテーマを、それなりに複雑な説明で表現する彼の姿は、まさにその通りです。そして、いつも笑顔を絶やしません。おそらく、彼と彼のチームが取り組んでいる研究について、人々に理解を深めてもらう機会があるからでしょう。

Bhowmik 氏は生まれながらの教師です (世界中の数多くの大学で学んだことからもそれがわかるでしょう)。これは良いことです。なぜなら、私たちは彼が取り組んでいるテクノロジーについて学ぶべきことがたくさんあったからです (そして今も学んでいます)。私たちの質問に答えて、彼はすぐにホワイトボードに行き、マーカーと素早いパターニングで人間の視覚と知覚の仕組みを説明し始めました。

彼の研究室には、私たちの訪問に同席していた若い職員が数人いた。彼らが目を丸くして彼を見つめているのが見えた。「君たち、きっといつもこんな風に言われてるんだろうな」と冗談を言った。「いや、そんなことないよ」と一人がささやき返した。とにかく、ボーミック先生は教室の全員の注目を集めていた。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

カメラ：目で感じられる限り遠くまで

ボーミック博士が語ったように、カメラは記憶を保存するためのものでした。しかし、インテルはカメラを、私たちが周囲の世界を理解するのに役立つリアルタイムの視覚センサーと捉えています。

ボーミック氏は、人間の知覚システム、目と視覚野の関係、そして体の運動センサーについて語った。運動センサーとは、人が動くと蝸牛の近くにある前庭器官の液体が方向性を持って動き、その情報がニューロンに送られ、ニューロンがその運動信号を脳に送り、目で見ているものにマッピングするものである。

この情報が一致しないと、私たちは乗り物酔いになります。窓のない船に乗っているところを想像してみてください。動きは感じますが、見えません。多くの人が、これが乗り物酔いの原因となります。

インテルは、人間の目と前庭系の両方を模倣し、それらをマッピングしようとしています。「私たちはハードウェア企業です」とボーミック氏は言います。つまり、ハードウェア上で視覚皮質の抽象化を実現することが目標なのです。

もちろん、知覚とは単に見たものだけでなく、それをどのように解釈するかという点を反映するものです。したがって、Intelの考え方には当然、機械学習／人工知能の概念が含まれています。Bhowmilk氏は、例えば手のサンプルを何百万個も用意すれば知覚システムを訓練できるが、実際には何十億もの可能性があるので、ロボットやその他のセンサーデバイスは、プログラムされた理解を超えて、「見た」ものを学習し、適応する必要があると述べています。

ネットワークと知識のサンプルベースが深ければ深いほど良いのですが、ネットワークは常に学習し、成長し続ける必要があります。デバイス上の知識システムの場合、デバイスはネットワークにチェックインし、学習内容を共有し、他のシステムが学習した内容を収集します。

これも人間の生物学に似ています。人間の脳には数十億個のニューロンがあり、それらは相互につながり、絶えず進化しています。これらのニューロンは入力点であり、数万個の電気パルス（イオン）が単一の出力を生成します。入力パルスには重みが与えられており、興奮性のものもあれば抑制性のものもあります。子供が火を見ると、重みが加わって「触ると痛い」と知らせるのを想像してみてください。これらの重みがニューロンの発火の有無を決定し、休息や睡眠とともに、これらの重みは時間とともに強くなります。こうして私たちは進化するのです。

ハードウェアベースのセンサーシステムも同様です。RealSenseデバイスのカメラとモーションセンサーは、視覚情報とモーション情報の処理に特化したオンボードチップに入力を提供します。

ボーミック氏は、SiriやAmazon Echoなど、私たちが利用している学習システムの中には間違いを犯すものもあるが、人間らしさが感じられるため、私たちはそれを許してしまうと述べた。正確で精密であるべきコンピュータとは異なり、知覚システムは人間と同様に、時として不正確になることがある。また、インテルのCPU（汎用プロセッサー）は人工知能を実行するために作られていないとも述べた。

ボーミック氏はもう一つの生物学的な比較を挙げた。カメラは均一なピクセル密度を提供するが、人間の目はそうではない。目にはレンズと光受容体があり、光を電気信号に変換し、それが視覚野に送られる。画像は光軸を軸にして反転し、ピクセル密度が最も高い領域とピクセル密度が全くない領域が存在する。さらに、最周辺部には実際には色センサーが存在しない。（これはある意味で、中心窩レンダリングに似ている。）

二つの目は奥行きを知覚します。同じ世界を二つの異なる画像で捉えるのです。眼球の球形は、人間にとって最も最適化された形状です。角膜と水晶体は光を集光し、像を結び付けます。ここでも、センサーは目を模倣するように作られており、奥行き、ピクセルの色、そして空間における色の位置を捉えます。

もう一歩。これらの画像はすべてネットワークの学習に使用されます。数百万台の深度カメラセンサーがニューラルネットワークにデータを供給します。

RealSenseカメラ技術

これがIntelのRealSenseテクノロジーの根底にある考え方です。しかし、Intel RealSenseカメラには複数のバージョンがあります。

SR300はコード化光技術を採用し、Kinectの機能を実質的に小型化しています。コード化された赤外線パターン（空間内の各点に対応する8ビットのコード）を生成するMEMSレーザープロジェクターと、その反射パターンを捉える高速赤外線カメラで構成されています。ASICはこれをリアルタイムで処理し、各ピクセルの深度を計算します。

つまり、レーザーで生成された 2D 空間パターンがあり、IR カメラがそれを写真に撮り、チップが 3D ポイントクラウドの座標を計算し、色と深度をマップするためのキャリブレーションを実行します。

深度検知は赤外線で行われ、60fpsのカメラはRGBで撮影します。Intelによると、これは標準的な市販のカメラセンサーです。Bhowmik氏によると、ASICはカラーピクセルに3D座標をマッピングし、全体的なテクスチャマップを作成できます。

これはIntelの3Dスキャンアプリケーションで最もよく実証されています。試してみたところ、SR300は私の全身をスキャンしました。各フレームにはそのポイントの3D座標とカラー値が記録され、ASICがすべての深度とテクスチャをマッピングします。

RealSenseカメラの別バージョンであるR200は、より長距離（数十メートル）のセンサーを搭載し、ドローンなどの用途向けに設計されています。赤外線プロジェクター、赤外線カメラ2台、カラーカメラ1台、そしてプロセッサを搭載しています。

IntelがIDFで発表した、新型（実際にはまだ登場していない）R400シリーズもあります。ボーミック氏によると、このカメラはより長い距離と優れた奥行き品質を備えており、60HzでHDカラーをキャプチャできます。2台の赤外線カメラ、レーザープロジェクター、そして拡散板付き赤外線プロジェクターで構成されています。このカメラはわずかに異なる地点から写真を撮影し、それらの間のずれから両眼視差を計算し、その差を算出できるとボーミック氏は説明します。側面の周辺カメラは動きを検知します。

プロジェクト・アロイ

これらのセンサーの最も人気の高い用途の一つは、もちろんVRです。IntelはIDF16でProject Alloyを発表しました。Project Alloyの驚くべき点は、VRとARを融合させ、カメラを用いたインサイドアウト型6DoFトラッキングを実現した点です。Oculus（Constellation）やHTC（Lighthouse）のような外部センサーの制約を受けることなく、また犬のリーシュのようにワイヤーが絡まることも一切ありません。

実際の人間の体験を再現するという概念に戻りましょう。Alloyがその可能性を実現すれば、私たちは外部センサーで追跡される領域に限定されなくなります。ある意味では、仮想世界は現実世界と同じくらい無限に広がります。AlloyはRealSenseを介して物理世界を仮想世界に持ち込むことができるため、他のVRシステムの前庭機能の限界を再現（あるいは修正？）しています。HMDの中では、RealSenseが見ているものが見えるのです。

インテルがAlloyを「拡張現実（AR）」と呼ばない理由について、多くの人が疑問を抱いています。ボーミック氏は、ARでは現実世界に仮想世界を重ねるのに対し、VRでは現実世界を覆い隠して、ユーザーを全く別の世界へと連れて行くと説明しました。Alloyでは――インテルはこれを「融合現実（Merged Reality）」と呼んでいます――現実世界と仮想世界が、遮蔽されたHMDの中で一つに融合されます。インテルが提供したデモには、現実世界のオブジェクトが仮想世界で起こっていることと相互作用し、物理的な影響を与える様子などが描かれています。

ボーミック氏は固有受容覚について語った。これは、脳が知覚システムに自分の身体感覚を取り込むための方法だ。つまり、一定時間自分の手足が見えなくなると、潜在意識は不安になる。ボーミック氏によると、VRの中にいることが分かっていて、体験中に乗り物酔いを感じていなくても、時間が経つにつれて酔い始める可能性があるという。「何かが欠けているという動物的な本能」があると彼は言う。そのため、VRで自分の手足が見えるというのは非常に重要な機能だ。

本日発表された試作機Alloyは、カスタムメイドのR200 RealSenseカメラ2台と魚眼レンズカメラ2台を搭載しています。最終生産機ではR400カメラ1台が使用される予定です。Bhowmik氏によると、このチップにはASIC内の固定機能ハードウェアが含まれ、3Dポイントクラウドの計算とカラーマッピング、そしてタイムスタンプと同期処理のすべてを担当します。Intelはセンサープロセッサチップについては言及していませんが、6DoFトラッキングと、手の動きや衝突検知の処理を含むすべてのセンサーソフトウェアを実行します。もちろん、CPUとGPUも搭載されます。

IntelはProject Alloy（および/または他のVR HMDのイテレーションやバリエーション）の仕様をまだ明らかにしていないため、Project Alloyに関する残りの詳細のほとんどはすべて推測の域を出ません。これについては、すでに長々と説明しました。しかし、私たちが知っていることは、Intelが現在、ビジョンプロセッサとディープラーニング技術を開発する企業であるMovidiusを所有しているということです。IntelがProject Alloyで公言しているディープラーニング関連の目標は、すでにMovidiusのポートフォリオに存在しています。R400シリーズカメラのリリースが引き続き遅れているのは、IntelがMovidiusの技術を実装していることに関係していると思われます。

では、なぜこれが重要なのでしょうか？ XRとディープラーニングの融合が全く新しいタイプのパーソナルコンピューティングを予感させるからというだけでなく（それ自体が極めて重要ですが）、これらの技術を真剣に研究している多くの企業の一つがChipzilla自身だからです。つまり、これらは現時点ではニッチで周縁的な開発中の技術ですが、Intelはこれらが次世代のコンピューティングを支える未来を予見しているのです。

もしインテルの賭けが正しければ、アチン・ボーミック博士と彼のチームが知覚コンピューティング研究所で行っている研究は、ムーアの法則が技術史の書物における単なる一章となった後も、インテルをコンピューティングの重要な道筋にとどめておくことになるだろう。

更新、2016 年 12 月 9 日午前 10 時 40 分 (太平洋時間): 議論されているテクノロジーの説明をより正確にするために、テキストの一部を調整しました。

フリッツ・ネルソンはTom's Hardware USの編集長です。

Tips