
ChatGPTのような大規模言語モデル(LLM)の公開によってもたらされた雪だるま効果はまだ初期段階にあります。他のGPT(Generative Pre-Trained Transformer)モデルのオープンソース化と相まって、AIを活用したアプリケーションの数は爆発的に増加しています。そしてご存知の通り、ChatGPT自体も高度なマルウェアの作成に利用される可能性があります。
時が経つにつれ、応用法学修士(LLM)はますます増えていくでしょう。それぞれが特定の分野に特化し、特定の目的のために厳選されたデータで学習します。そして、そんなアプリケーションの一つが、ダークウェブ自体のデータで学習された形でリリースされました。韓国の開発者がDarkBERTと名付けたこのアプリケーションが登場しました。ダークウェブそのものの概要を紹介するリリースペーパーは、こちらのリンクからご覧いただけます。
DarkBERTは、2019年に開発されたAIアプローチであるRoBERTaアーキテクチャに基づいています。研究者たちは、2019年にDarkBERTから得られるパフォーマンスよりも高いパフォーマンスを実際に提供できることを発見し、ある種のルネサンスを迎えました。リリース時にはモデルが十分にトレーニングされておらず、最大効率をはるかに下回っていたようです。
モデルの学習にあたり、研究者たちはTorネットワークの匿名化ファイアウォールを介してダークウェブをクロールし、生データをフィルタリング(重複排除、カテゴリバランス調整、データ前処理などの技術を適用)してダークウェブデータベースを生成しました。DarkBERTは、このデータベースをRoBERTa Large Language Modelに入力することで実現しました。RoBERTa Large Language Modelは、独自の方言で記述され、高度にコード化されたメッセージを含むダークウェブの新しいコンテンツを分析し、そこから有用な情報を抽出できるモデルです。
英語がダークウェブのビジネス言語であると言うのは完全に正しいとは言えませんが、研究者たちは、英語は十分に特殊な言語であるため、特定の法学修士(LLM)を訓練する必要があったと考えています。最終的に、彼らの考えは正しかったのです。研究者たちは、DarkBERTが他の大規模言語モデルよりも優れた性能を発揮することを示しました。これにより、セキュリティ研究者や法執行機関はウェブの奥深くまで深く入り込むことができるはずです。結局のところ、ほとんどの活動はウェブ上で行われているのですから。
他のLLMと同様に、DarkBERTもこれで終わりではありません。さらなるトレーニングとチューニングによって、その成果は向上し続ける可能性があります。DarkBERTがどのように活用され、どのような知見が得られるかは、まだ分かりません。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
Francisco Pires 氏は、Tom's Hardware のフリーランス ニュース ライターであり、量子コンピューティングに関心を持っています。