75
Mozillaは「Common Voice」クラウドソーシングプロジェクトで音声認識技術の民主化を目指す

Mozilla Foundation は、音声認識アプリケーション用のオープンソース データ セットを構築するためのクラウドソーシング イニシアチブである「Common Voice」を立ち上げました。

音声制御の未来

多くのテクノロジー企業は、将来的にはほとんどのデバイスに音声制御が組み込まれると考えています。そのため、Apple、Google、Amazon、Microsoft、Baiduといった企業は、競合他社に先駆けて市場シェアを獲得するため、自社の音声制御AIアシスタントをできるだけ多くのデバイスに、そしてできるだけ早く搭載しようとしています。

Mozillaによると、この問題点は、音声制御技術が最終的に独自の技術とデータセットに支配され、スタートアップや学術機関に公開されない可能性があることです。一部の大企業が既に数十億ドル規模の収益を上げているため、スタートアップが大手企業に追いつくのは将来的に困難になる可能性があります。MozillaはCommon Voiceを通じて、音声認識技術の民主化を目指しています。

もう一つの問題は、大手テクノロジー企業が開発する音声認識システムが、英語や中国語といったごく一部の人気言語にしか対応していないことです。しかし、音声制御を必要とするデバイスの市場規模は、それらの言語を話す人口よりもはるかに大きいのです。Mozillaは、オープンソースプロジェクトを通じてこの状況を改善したいと考えています。

クラウドソーシング音声エンジン

Mozillaは、人々が文章を声に出して読む音声を1万時間以上収集し、後に他のボランティアによって正確性を検証したいと考えています。この録音数であれば、エンジンの精度は実稼働環境での使用に十分になるとMozillaは考えています。

録音の品質は重要ではありません。実際、Mozillaは様々な環境でテキストを読み上げることを提案しました。これは、サードパーティの開発者がオープンソースエンジンをあらゆる製品で利用できるようにすることを目指しており、この技術は現実世界の様々な環境でも動作できるほど高度化されるはずです。寝室で、バックグラウンドノイズのない環境でしか動作しないというわけではありません。

このクラウドソーシング戦略は、Google 翻訳が当初から採用してきたもので、最近では機械学習を使った翻訳に重点を置いていますが、翻訳された単語や文章を人間が「修正」することは依然として可能です。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Mozillaは、オープンソースのCommon Voiceデータベースを今年後半にリリースする予定だと発表した。

ルシアン・アルマスは、Tom's Hardware USの寄稿ライターです。ソフトウェア関連のニュースやプライバシーとセキュリティに関する問題を取り上げています。