86
Google翻訳、ニューラルネットワーク搭載の新システムで人間に近い精度を実現

Google 翻訳は今年 10 周年を迎え、同社は本日、最先端ニューラル ネットワーク トレーニング技術を活用して機械翻訳の品質記録を破る Google ニューラル機械翻訳システム (GNMT) を発表しました。

フレーズベース機械翻訳(PBMT)

10年前、Googleは当時最先端の機械翻訳の主要アルゴリズムとして「フレーズベース機械翻訳」(PBMT)を採用しました。しかし、それ以来、機械知能は大きく進歩し、Googleは技術の改良を続けてきました。

ニューラル機械翻訳(NMT)

数年前、Google は、入力文(別の言語に翻訳される文)と出力文(翻訳された文)間のマッピングを学習するために、リカレント ニューラル ネットワーク (RNN) を使い始めました。

入力文を複数のフレーズに分割し、それらを互いに独立して翻訳する PBMT 方式とは異なり、ニューラル マシン トランスレーション (NMT) 方式は入力文全体を処理します。

NMTが初めて使用された際、小規模なデータセットではPBMTと同等の精度を示しました。NMTの大きな利点は、翻訳システムを大幅に簡素化し、エンジニアリング設計上の選択肢が少なくなることでした。しかし、ニューラルネットワークベースの技術にははるかに多くの処理能力が必要であり、Googleは大規模なデータセットを扱う本番環境でNMTシステムを使用することができませんでした。

Google ニューラル機械翻訳(GNMT)

Googleの新しい論文「Googleのニューラル機械翻訳システム:人間翻訳と機械翻訳のギャップを埋める」では、大規模なデータセットでNMTを機能させるために同社が多くの課題を克服した方法について説明しています。また、Google翻訳の実稼働環境で使用できるほど高速なシステムをどのように構築したかについても説明しています。

Googleは、この新技術はより高速で効率的であるだけでなく、翻訳においてほぼ人間レベルのパフォーマンスを実現していると述べています。バイリンガルの翻訳者による評価では、複数の言語ペアにおいて翻訳エラーが55~85%削減されたと同社は述べています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

GNMTの仕組み

Googleは、中国語の文を英語に翻訳する例を用いて、新しいGNMT技術の仕組みを説明しました。この手法では、中国語の単語をベクトルとしてエンコードし、各ベクトルはそれまでに読み取られたすべての単語の意味を表します。

文全体が読み込まれると、デコーダーが起動し、一度に1つの英語の単語を生成します。翻訳プロセスでは、各ベクトルに異なる「重み」が与えられ、最も関連性の高いベクトルがデコードされます。

Google翻訳の中国語から英語への翻訳はGNMTを100%使用

Googleは、中国語から英語への翻訳(1日あたり約1,800万件)すべてに新しいGNMTシステムが使用されていると発表した。同社によると、これはオープンソースのTensorflowニューラルネットワークフレームワークとカスタムTPUチップの活用によって実現されたという。GPUと比較して桁違いに高い効率を約束するTPUは、このような大規模なデータセットを処理するのに十分な性能を備えているようだ。

Googleは、新しいGNMTシステムは完璧な翻訳には程遠く、人間なら決して犯さないような間違いを犯す可能性があると指摘した。例えば、一部の単語を完全に省略したり、固有名詞や珍しい単語を誤訳したりすることなどだ。また、システムが翻訳時に文全体を考慮するようになったにもかかわらず、文脈ではなく単語を単独で翻訳してしまう可能性もある。

中国語から英語への翻訳は、Google 翻訳がサポートしている 10,000 以上の言語ペアのうちの 1 つに過ぎず、同社は今後数か月かけてできるだけ多くの言語ペアをサポートするよう取り組む予定だと述べています。