マイクロソフトは、同社の音声認識技術が単語誤り率(WER)わずか5.9%を達成したと発表した。同社によれば、これは人間の筆記者が達成できる水準に近いという。
単語誤り率における歴史的な成果
同社はまた、DARPAが国家安全保障のために音声認識技術の研究を開始した1970年代初頭から、多くの人がこのマイルストーンを目指してきたと述べた。
「人間と同等のレベルに到達しました」と、同社の主任音声科学者である黄雪東氏は述べた。「これは歴史的な成果です。」
マイクロソフトは音声認識技術を着実に改良しており、先月は音声認識率6.3%を達成しました。これは今月達成した5.9%とそれほど変わりません。しかし、5.9%というマイルストーンは、人間が達成した音声認識率と同程度に低く、かつ企業が初めて達成したという点で、より大きな意義を持っています。
人間レベルのWERだが、達成方法は異なる
Microsoftが、この低いWER値を達成したことは確かに重要なマイルストーンだと指摘するのは正しい。しかし、CPUベンチマークが合計スコアを返すだけではチップの性能のすべてを語れないのと同様に、Microsoftが自社のソフトウェアと人間の筆記者を比較するために使用した「Switchboard」(SWB)ベンチマークも、そのすべてを語っているわけではない。
マイクロソフトの論文から引用した以下の表を見るとわかるように、人間と同社の自動音声認識(ASR)システムの全体的なWERは全く同じように見えますが、詳細に見るとかなり異なります。ASRシステムの削除率は人間に比べて大幅に低く、置換率では状況が逆転しています。
この場合の「置換」とは、録音を書き起こす際に単語が別の単語に置き換えられることを指します。「削除」とは、誤って単語が追加され、その後削除されることを指します。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
別の電話会話音声ベンチマークであるCallHome(CH)では、ASRシステムは人間よりも大幅に多くの置換と挿入を行いましたが、削除はより少ない結果となりました。しかし、全体的なWER(Written Err:訳注 ...
WER の同等性、真の人間的同等性ではない
単語の誤り率があらゆる点で同じだと仮定したとしても、機械の音声認識が人間のものと同等の精度であることを意味するわけではありません。機械が犯す単語の誤りの数が人間と同程度だとしても、機械は人間とは大きく異なる誤りを犯す可能性があります。したがって、たとえ誤り率が同じであっても、機械が書き起こした文章は、人間が書き起こしたものよりもはるかに分かりにくい可能性があります。
例えば、マイクロソフトの論文では、ASRシステムが「あーん」などの相槌(相手の発言を肯定する表現)と「えー」などのためらい(話し始める前に間を置く表現)を混同していることも指摘されています。人間はこれらの言葉が何を表しているのかを直感的に理解しているため、このような間違いは犯しません。
音声認識は進化し続けている
人間の音声認識も完璧ではありません。これはSwitchboardとCallHomeのベンチマークからも明らかです。機械学習ベースの音声認識は、実使用においてはまだ人間に匹敵するほどの性能ではないかもしれませんが、単語の誤り率が人間と同等になったという事実だけでも、音声認識ソフトウェアが人間と同等の性能に近づきつつある、あるいは音声認識において人間を凌駕しつつあることを示しています。
これらの最新の改良は、Cortanaなどの音声認識を活用したMicrosoftのサービスがより便利になり、使い勝手が向上することを意味します。Microsoftの最新の成果に加え、Googleが最近発表した人間に近いレベルの精度を持つ機械翻訳、人間とほぼ同等の音声合成、そして人間よりも優れた画像認識などは、機械が人間と私たちを取り巻く世界を真に理解し始めている時代が来ていることを示しています。
ルシアン・アルマスは、Tom's Hardware USの寄稿ライターです。ソフトウェア関連のニュースやプライバシーとセキュリティに関する問題を取り上げています。