43
百度の「Deep Voice 2」は次世代のリアルタイム音声合成技術を約束する

Baiduは、ニューラルテキスト読み上げ技術の次世代版となるDeep Voice 2を発表しました。新バージョンはDeep Voice 1と同じパイプラインをベースにしていますが、パフォーマンスが大幅に向上し、音声品質が大幅に向上しています。

ディープボイス1の改善

Deep Voice 1を使用していた当時は、音声ごとに約20時間のトレーニングが必要でした。しかし、改良されたDeep Voice 2テクノロジーでは、新しい音声を「トレーニング」するのにわずか30分しかかかりませんでした。

これにより、新しいシステムは数百種類の異なる音声やアクセントに対応できるようになります。例えば、多くの電子書籍リーダーアプリの「読み上げ」機能は、電子書籍を聴く際に様々な個性的な音声を選択できるため、より魅力的になるでしょう。

Deep Voice 2 テクノロジーは、さまざまな声に共通する特徴をすべてゼロから独自に学習し、それを模倣することができます。

「ディープボイス2は何百もの音声を学習し、完璧に模倣することができる」と同社はブログ投稿で述べた。

Baidu はいくつかのサンプルをオンラインにアップロードし、音声のかなり高い品質と、使用されているさまざまなアクセントを実証しました。

DeepMindの「Wavenet」を上回る

WavenetはDeepMindの「画期的な」技術であり、人間のような音声へのギャップを著しく縮めました。DeepMindのWavenetの平均オピニオンスコア(MOS)は、アメリカ英語では4.21でしたが、人間の場合は4.55でした。中国語では、WavenetのMOSは4.08でしたが、人間の場合は4.21でした。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

しかし、Wavenetは人間に近い音声品質を生成できる能力があるにもかかわらず、現時点では大きな欠点が一つあります。それは、動作に必要な計算リソースが非常に多いことです。Baiduによると、Wavenetのような技術では、数秒の音声を生成するのに数分以上かかる場合があります。また、BaiduのDeep Voice技術は、Wavenetのような他のモデルよりも最大400倍高速に音声を合成できると述べています。

Baiduは最近の論文で、Deep VoiceとDeep Voice 2のMOSスコアも公開しました。Baiduの技術は、高性能を実現するために音声品質を犠牲にしているように見えます。Deep VoiceはシングルスピーカーでMOSスコア2.05にとどまりましたが、新しいDeep Voice 2は2.96というスコアを獲得し、前世代機と比べて音声品質が44%向上しました。

しかし、ご覧の通り、Deep Voice 2の音声品質はDeepMindのWavenet技術と比べて大幅に低いスコアとなっています。Baiduは、数十層のWavenet(畳み込み)層を備えたハイブリッドDeep Voice技術の開発も検討していました。

音声品質はWavenetレイヤーを80層にすることで最大3.53MOSまで向上する可能性がありますが、Wavenetレイヤーをすべて使用することで速度がどの程度低下するかについては、Baiduは言及していません。Baiduは、今後ハイブリッドアプローチについてさらに調査する可能性があると述べています。

合成音声が支える未来

デジタルアシスタントの人気が高まった理由の一つは、機械学習の最新技術の進歩によってアシスタントが格段に賢くなったことに加え、人間の話し方に近づきつつあることにあります。その結果、様々なAIアシスタントとの会話がより簡単で、ぎこちなさが軽減されました。

Baiduは、音声が将来、コンピューターと対話する主要な手段の一つになると考えています。同社は、Deep Voiceなどの音声合成技術、最近発表されたDeep Speakerなどの話者識別技術、そしてエンドツーエンドの音声認識システムDeep Speech 2を通じて、その未来を実現するために尽力していると述べています

ルシアン・アルマスは、Tom's Hardware USの寄稿ライターです。ソフトウェア関連のニュースやプライバシーとセキュリティに関する問題を取り上げています。