
Alibaba Cloudのエンジニア兼研究者であるEnnan Zhai氏は、GitHubで研究論文を公開し、LLMトレーニングに使用されている同社のデータセンターの設計を明らかにしました。「Alibaba HPN:大規模言語モデルトレーニングのためのデータセンターネットワーク」と題されたこのPDF文書では、Alibabaが15,000基のGPUを相互通信させるためにイーサネットをどのように利用したかが概説されています。
一般的なクラウドコンピューティングでは、10Gbps未満の速度で、一貫性はあるものの小規模なデータフローが生成されます。一方、LLMトレーニングでは、最大400Gbpsに達する周期的なデータバーストが発生します。論文によると、「LLMトレーニングのこの特性により、従来のデータセンターで一般的に使用されている負荷分散方式である等コストマルチパス(ECMP)がハッシュ偏波に陥りやすくなり、トラフィックの不均一な分散などの問題が発生する」とのことです。
ホストあたり 8 基の GPU、データセンターあたり 1,875 台のホスト
Alibaba Cloudはデータセンターをホストに分割し、1つのホストには8基のGPUが搭載されています。各GPUには2つのポートを持つネットワークインターフェースカード(NIC)が搭載され、各GPU-NICシステムは「レール」と呼ばれます。ホストには、バックエンドネットワークに接続するための追加のNICも搭載されています。各レールは2つの異なるToRスイッチに接続され、1つのスイッチに障害が発生してもホスト全体に影響を与えないようにしています。
Alibaba Cloudはホスト間通信にNVlinkを採用していないにもかかわらず、ホスト内ネットワークには依然としてNvidia独自の技術を使用しています。これは、ホスト内のGPU間の通信にはより多くの帯域幅が必要になるためです。しかし、レール間の通信ははるかに遅いため、「専用400GbpsのRDMAネットワークスループット、つまり合計3.2Tbpsの帯域幅」は、ホストあたりPCIe Gen5x16グラフィックスカードの帯域幅を最大限に活用するのに十分すぎるほどです。
Alibaba Cloudは、51.2Tb/秒のイーサネットシングルチップToRスイッチも使用しています。これは、マルチチップソリューションはシングルチップスイッチに比べて不安定になりやすく、故障率が4倍も高くなるためです。しかし、これらのスイッチは高温になるため、市販のヒートシンクでは過熱によるシャットダウンを防ぐことができませんでした。そこで同社は、中央に柱を複数配置し、熱エネルギーをより効率的に伝導するベイパーチャンバーヒートシンクという革新的なソリューションを開発しました。
エンナン・ザイ氏と彼のチームは、今年8月にオーストラリアのシドニーで開催されるSIGCOMM(データ通信に関する特別利益団体)会議で、その研究成果を発表する予定です。AMD、Intel、Google、Microsoftを含む多くの企業がこのプロジェクトに関心を示すでしょう。主な理由は、これらの企業が協力して、NVlinkに対抗するオープンスタンダードの相互接続セットであるUltra Accelerator Linkを開発していることです。特に、アリババクラウドはHPNを8ヶ月以上使用しており、この技術は既に実証済みであるため、このプロジェクトには大きな関心が寄せられています。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
しかし、HPNには依然としていくつかの欠点があり、最大のものは配線構造の複雑さです。各ホストに9つのNICがあり、各NICが2つの異なるToRスイッチに接続されているため、どのジャックがどのポートに接続されているかを取り違える可能性が高くなります。とはいえ、この技術はNVlinkよりも手頃な価格であると考えられるため、データセンターを構築するあらゆる機関は設置費用を大幅に節約できます(特に、中国とのチップ戦争で米国が制裁対象としている企業であれば、Nvidiaの技術を回避できる可能性もあります)。
ジョウィ・モラレスは、長年のテクノロジー業界での実務経験を持つテクノロジー愛好家です。2021年から複数のテクノロジー系出版物に寄稿しており、特にテクノロジー系ハードウェアとコンシューマーエレクトロニクスに興味を持っています。