生成AI開発に最適なNVIDIA H200 Tensor コア GPU超高速マルチクラスタ導入秘話

今回は「AIでテクノロジーの未来を切り拓く」をテーマに行われたDell Technologies Forum Japan 2024での弊社講演についてのレポートをお届けします。
このセッションは「AI時代に向けて」というタイトルで、デル・テクノロジーズ株式会社と合同で行ったセッションとなりますが、今回のレポートではGMOインターネットグループが行った超高速マルチクラスタ構築の秘話にフォーカスしてお届けします。

スピーカープロフィール

  • GMOインターネットグループ株式会社 中村 槙吾

スピーカーは、GMOインターネットグループ新卒7年目になる中村 槙吾さんです。
主な業務は物理/OS/ミドルウェアにかけての構築や開発がメインとなりますが、実は彼は技術広報チームの兼務メンバーとしても活躍してくださっています。こういった社内外イベントでの登壇や、本ブログでも記事を執筆してくださっているので、宜しければ是非そちらもチェックしてみてください。

→記事一覧

本編その①-採用機種の紹介

「怪物襲来」として紹介された木箱に梱包されていたのが、今回サーバーマシンとして導入したデル・テクノロジーズの「PowerEdge XE9680」、その数なんと96台。そして、この機器に導入されているのがNVIDIA製の最新GPU H200です。FP8 TensorCore 3958TFLOPS の圧倒的な計算能力とTDP700Wという威力をもつこのH200が「PowerEdge XE9680」1台になんと8枚も搭載されているそう。また通信をつかさどるNICのスペックもスバ抜けていて、通常コンシューマー向けでは10Gb/sが一般的と言われるなか、何と400Gb/sを8枚搭載しているそう。

サーバーがモンスターマシンならなら対向のネットワーク機器もモンスターマシンです。
今回はNVIDIA製の800G×64Portというスペックの機器を導入しています。この超高速な帯域を使って実現できる技術が「Spectrum-X」になります。これはサーバーに搭載されているNICとGPU1つずつを紐づけて、複数のサーバー間で全てのGPUをインターコネクトするという技術です。この技術を使用することで大規模な学習や計算を効率よく行うことが可能です。
サーバからNICが8本、ネットワーク機器までのケーブルを長さを合わせると直線距離で40km・・・大阪市~京都市くらいの距離になりますね。

本編その②-導入の裏側

ここからは、導入の裏話をご紹介します。

①設置
高さが6U、重量が113.3kgにもなる「PowerEdge XE9680」これは5人家族向けの冷蔵庫と同重量だそう。人力でのラックマウントは危険が伴うため、電動のサーバーリフターを使用します。

②排熱
サーバー1台の消費電力は11,700W、これは電子レンジ700Wを16台同時に動かすくらいの電力です。これだけの電力を使うということは、それだけ放出する熱の量もすごいということなのですが、ここで私たちが行った施策は2点。排熱側の対向ラックに機器を設置しないこと、排熱側に風を上に吹き上げるフィンをつけて効率的な冷却を行っていることです。これらはCFDシミュレーションで解析され、効果をきちんと可視化し管理しています。

③騒音
これらをフル稼働させた際の騒音レベルは、なんと108db!自動車のクラクションとほぼ同じくらいの騒音レベルだそうで、作業をする際は防音イヤーマフが必需品です。

ここまでで、物理的施策が完了ですがOSレイヤーの設定が山のように残っています。特に今回はSpectrumXのような最新技術を使用するため、専用の設定や概念の理解、また今回のサービス向けに最適化するには?といった部分まで考慮する必要がありました。多くのリファレンスを読み、メーカー公式サポートのお力も借り、検証を終え、ようやく動かすことができました。

物理構築、機器設定、大変だったここまでの作業はもう不要です。

本編その③-新サービス「GMO GPUクラウド」について

GMOインターネットグループでは、生成AI開発や機械学習に最適化された業界最高峰のGPUクラウドのご提供準備を進めています。

サービスの特長としては

  • 大規模言語モデルの開発・研究者向けにGPUメモリ容量とメモリバス帯域幅を大幅に拡大・最適化した「NVIDIA H200 Tensor コア GPU」を国内最速提供
  • AIワークロード専用に設計された世界初のイーサネットファブリックであるSpectrum-Xを国内で初めて採用
  • GPUの性能をフルに発揮できる超高速/大容量ストレージであるDDNのストレージを採用
  • NVIDIAが提供する一元管理されたプラットフォームで幅広いソフトウェア、管理ツール、ワークロードなどを提供可能
  • クラスタシステムのための業界標準であるジョブスケジューラー「Slurm」を採用

ということで、最後はGMO GPUクラウドについてのご紹介でセッションを終えました。

本サービスは現在、トライアルも受付中です。詳しくは下記Webページをご覧ください。

GMO GPUクラウド https://www.gmo.jp/gpucloud

ブログの著者欄

デベロッパーリレーションズチーム

GMOインターネットグループ株式会社

イベント活動やSNSを通じ、開発者向けにGMOインターネットグループの製品・サービス情報を発信中

採用情報

関連記事

KEYWORD

採用情報

SNS FOLLOW

GMOインターネットグループのSNSをフォローして最新情報をチェック