13
英語のAI料金は他の言語より最大15倍安い
AIの頭が描かれたアメリカ国旗
(画像クレジット:Shutterstock (2177872151))

大規模言語モデル(LLM)に使用する言語は、そのコストに大きな影響を与え、英語圏とそれ以外の地域の間にAI格差を生み出す可能性があります。最近の調査によると、OpenAIなどのサービスがサーバーコストを測定し請求する方法により、英語の入出力は他の言語よりもはるかに安価で、簡体字中国語は約2倍、スペイン語は1.5倍、シャン語は15倍のコストがかかることが示されています。

アナリストのディラン・パテル(@dylan522p)が、オックスフォード大学が行った調査結果につながる写真をシェアしました。この調査によると、ビルマ語で書かれた文章をLLMに処理させると198トークンかかるのに対し、英語で書かれた同じ文章はわずか17トークンでした。トークンは、OpenAIのChatGPTやAnthropicのClaude 2などのAPIを介してLLMにアクセスする際にかかる計算能力コストを表しており、これはビルマ語の文章をLLMで処理させると、英語の文章の11倍のコストがかかることを意味します。

LLM推論のコストは、GPT-4や他の一般的なLLMの言語によって大きく異なります。英語が最も安価です。中国語は英語の2倍です。シャン語やビルマ語などの言語は15倍高価です。これは主にトークナイザーの仕組みによるもので、より多くのトークンを出力する必要があります。pic.twitter.com/Y7De09pb4w 2023年7月28日

AI企業がユーザー入力を計算コストに変換するトークン化モデルは、理想的とは言えない状況において、英語圏外の言語でアクセスされるモデルへのアクセスと学習コストがはるかに高くなることを意味します。これは、中国語などの言語が英語とは異なる、より複雑な構造(文法的または文字数的)を持っているため、トークン化率が高くなるためです。 

例えば、OpenAIのGPT3トークナイザーによると、「あなたの愛情」というトークンを誰かに贈る場合、英語ではトークン数は2ですが、簡体字中国語ではトークン数は8になります。これは、簡体字中国語のテキストがわずか4文字(你的爱意)であるのに対し、英語のテキストは14文字であるにもかかわらず当てはまります。Aleksandar Petrovらによるトークン化の公平性に関するページには、言語間の差異を確認できるグラフやツールが多数掲載されています。

OpenAI自身も、APIアクセスとChatGPTモデルの利用をどのように収益化しているかを説明した非常に分かりやすいページを公開しており、プロンプトごとのトークンコストをテストできるトークナイザーツールへのアクセスも含まれています。そこでは、1トークンは英語で約4文字、100トークンは約75単語に相当することがわかります。しかし、OpenAIが明確に述べているように、この計算は他の言語には適用できません。 

単語をトークンに分割する方法も言語に依存します。例えば、「Cómo estás」(スペイン語で「お元気ですか」)は5つのトークン(10文字)で構成されます。トークンと文字の比率が高いと、英語以外の言語でAPIを実装する際にコストが高くなる可能性があります。

オープンAI

AI関連のコストにおいて、英語の費用対効果に匹敵するものは実際には存在しません。例えば、中国語は出力1つあたりの必要トークン数で英語の2倍のコストがかかります。しかし、これは単にAI企業が(これまで)モデルの学習に使用してきた利用可能な学習データを反映しているに過ぎません。AIの爆発的な普及が世界にもたらした一つのことがあるとすれば、それは高品質な創発データ(人生の記録として生み出されるもの)がいかに価値あるものであるかを示したことでしょう。

画像

1

2

トークナイザーツール
トークナイザーツールをテストすると、韓国語の処理コストは英語よりも33%高くなることがわかりました(39トークン対26トークン)(画像提供:エックスフォード大学)

韓国語 vs 英語

オックスフォード ペーパーを通じて利用可能になったトークナイザー ツールを使用すると、言語間のトークン化コストを把握できます。

この問題は、AI企業が再帰学習、つまりAIモデルを自身の出力で学習させたいという願望と直接結びついています。もしそれが実現すれば、将来のモデルは、複雑でベースとなる学習データの入手が限られている他の言語と比較して、英語の費用対効果は同等となるでしょう。そして、そうなった場合、私たちが対処しなければならないのは、アルゴリズムへの偏見という悪循環だけではありません。現時点では、AIネットワークが自身の出力(合成データ)で5回以上学習すると、学習が狂ってしまうという研究結果も出ています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

問題をさらに複雑にしているのは、トークン化以外のコスト定量化方法も、結局は同じ問題に直面する可能性があることです。ビット数であれ文字数であれ、英語の実用性に勝る言語は存在しないようです。英語は本質的に高い「圧縮性」を持ち、より少ないトークン数で表現できるため、依然としてコストは低いと言えるでしょう。 

つまり、問題はモデルの収益化方法にあるのではなく、学習に用いられる技術とベースモデルの限界にあるということです。そして、この問題が複数の言語モデル、そのバージョンに影響を及ぼすことは驚くべきことではありません。結局のところ、それらはすべてほぼ同じように構築されているのですから。

大規模言語モデル(ChatGPTなど)や生成画像ネットワーク(Midjourneyなど)を実際に導入している企業のほとんどがアメリカに拠点を置いていることを考えると、この問題は予測可能なもののように思えます。利用コストの低減と高品質なデータの可用性の向上は、ある意味では当然のことです。

このコスト差により、既に多くの国が母語話者の法学修士(LLM)の育成と配置に向けた独自の取り組みを開始しています。中国とインドも既に同様の取り組みを行っており、両国とも英語を基盤としたAIネットワークが実現するイノベーションのスピードに追いつくために、自国の計画が必要だと主張しています。そして、そのペースは主にアクセスと研修コストによって制限されています。

誰もが可能な限り少ない費用で、可能な限り多くのことを実現したいと考えるのは当然のことです。そして、こうした動向は、ベース言語に応じたLLMのトレーニングと導入コストに直接影響を及ぼします。AIビジネスは非常に複雑で、その影響は広範囲に及ぶため、私たちはあらゆる小さな一歩を踏み出す際に細心の注意を払う必要があると言えるでしょう。

Francisco Pires 氏は、Tom's Hardware のフリーランス ニュース ライターであり、量子コンピューティングに関心を持っています。