88
DeepMindの「WaveNet」合成音声システムは1,000倍の効率化を実現

昨年、Google傘下の新設複合企業Alphabet傘下のDeepMindは、機械学習をベースとした新しい音声合成(TTS)システム「WaveNet」を発表しました。このシステムは合成音声の自然な音質を大幅に向上させましたが、重大な欠点が一つありました。それは、研究プロジェクト以外に使用するには計算負荷が大きすぎるという点です。

1 年後、DeepMind チームはシステムを 1,000 倍高速化することでこれを変更しました。つまり、Google アシスタントなどの消費者向け製品に使用できるほど効率的になったということです。

合成音声システムの旧モデル

これまで合成音声を生成する最良の方法は、連結型TTSシステムを用いることでした。このシステムでは、単一の音声作成者による高品質な録音のデータベースを使用します。録音は小さなチャンクに分割され、それらを結合または連結することで合成音声が生成されます。

TTSシステムが長年にわたり「ロボット的」な印象を与えてきたのも、この理由の一つです。このシステムは、新たな録音データベースを作成しない限り、簡単に変更したり改善したりすることはできません。そのため、合成音声の進歩も長年にわたり非常に遅れています。

もう一つの方法は、パラメトリックTTSシステムです。こちらはロボットのような音声のため、さらに普及していません。このシステムでは、合成音声が人間らしく聞こえるようにするための文法と口の動きのルールに基づいて、音声が完全に機械生成されます。

パラメトリックシステムは、他の類似の試みと同様に、固定されたアルゴリズムとパラメータで人間の複雑な動きや動作をプログラムすることが難しすぎたため、連結型TTSシステムほどうまく機能しませんでした。ディープラーニングがこれほど成功したのは、人間がプログラムしたアルゴリズムを不要にし、代わりに人間の行動を「学習」することで独自のパラメータを生成できるからです。

ニューラルネットワークベースのWaveNetモデル

WaveNet システムは機械生成の合成音声をベースにしていますが、固定パラメータを使用する代わりに、人間の音声サンプルの大規模なデータセットでニューラル ネットワークをトレーニングし、「人間のような」音声を生成する方法を自ら学習できるようにします。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

学習段階では、ニューラルネットワークは音声の基本構造、例えばどのトーンが連続しているか、どのトーンがよりリアルかなどを学習しました。その後、前のサンプルの特性を考慮しながら、一度に1つの音声サンプルを合成しました。その結果、自然なイントネーションに加え、唇を鳴らすような特徴も再現されました。

このアプローチは、より自然な響きの合成音声を生成するだけでなく、ニューラル ネットワークのトレーニングを微調整するか、より多くのデータと計算リソースを投入するだけなので、将来的に合成音声を改善するのがはるかに容易になるはずです。

新しいモデルには、簡単に変更して、混合データセットから任意の数の固有の音声を作成できるという利点もあります。

パフォーマンスが1,000倍向上

WaveNetはどれほど優れていたとしても、Googleのような企業でさえ、実世界のアプリケーションに導入することは不可能でした。そのため、DeepMindチームは、消費者向け製品に導入する前に、システムの性能を大幅に向上させる必要がありました。

従来のWaveNetでは、1秒間にわずか0.02秒の合成音声しか生成できませんでした。新しいWaveNetは1,000倍高速化し、1秒間に20秒間のさらに高品質な音声をゼロから生成できるようになりました。

新しい WaveNet は、サンプルごとに 16 ビットの解像度 (CD 品質の音楽に使用される解像度と同じ) で 24kHz のオーディオ サンプルを生成できますが、以前のシステムでは、サンプルごとに 8 ビットの解像度で 16kHz のオーディオ サンプルしか生成できませんでした。

人間のテスターに​​よると、新しいWaveNetは確かに高品質な音声を生成しています。新しいアメリカ英語Iの音声では、平均評価スコア(MOS)が以前のWaveNetの約4.2から新しいWaveNetでは約4.35に向上しました。人間の音声は4.67と評価されたため、理想にかなり近づいています。

DeepMindは、WaveNetシステムは複数の人間の音声データを用いて合成音声を学習することで、合成音声を柔軟に構築できる点も指摘しています。これにより、音声データセットが小規模であっても、高品質でニュアンス豊かな合成音声を生成できます。

新しいWaveNetはGoogleアシスタントで本番稼働を開始しており、Googleの新しいクラウドTPUチップで動作する最初のアプリケーションでもあります。ただし、現時点では英語と日本語のみがこの新技術を活用しているため、複数の言語の音声を学習するにはまだ時間が必要なようです。