アーパボー(ARPABLE)
アープらしいエンジニア、それを称賛する言葉・・・アーパボー
AIチップ

Vera Rubinとは?NVL72・Groq 3 LPX・AIデータセンターを図解【2026年版】

Vera Rubinとは?
最終更新:
※本記事は継続的に最新情報へアップデートしています。

GPUを1枚速くしても、もう足りない――NVIDIAが2026年に打ち出したVera Rubinは、そう宣言するAIデータセンター基盤である。

Vera Rubinは、Rubin GPU・Vera CPU・DPU・ネットワーク・冷却までを一体設計し、ラック全体を1台のAIスーパーコンピュータとして扱う。

読み方は一般に「ヴェラ・ルービン」または「ベラ・ルービン」。この記事では、Vera Rubinを「AI劇場」に見立て、なぜ今“GPUだけ速くしてもダメ”なのかを直感で理解できるように整理する。

2026年版のポイントは、もはやVera Rubin NVL72だけではない。Groq 3 LPXという低遅延推論アクセラレータラックが加わったことで、AIデータセンターは「計算する箱」から「低遅延でトークンを量産する劇場」へと、一段階シフトしつつある

✅ 先に結論

  • Vera RubinはGPU単体の名前ではなく、Vera CPU、Rubin GPU、NVLink 6、ConnectX-9、BlueField-4 DPU、Spectrum-6(Spectrum-X系Ethernet)、Groq 3 LPX、冷却設計まで含む統合AIデータセンター基盤です。
  • Vera Rubin NVL72は、72基のRubin GPUと36基のVera CPUを1ラックに統合し、ラック全体を1台のAIスーパーコンピュータのように扱う設計です。
  • Groq 3 LPXは、Vera Rubinプラットフォームの第7チップとして追加された低遅延推論アクセラレータラックです。 NVL72ラックに内蔵される部品ではありませんが、NVIDIAは両者を一体のAIスーパーコンピュータとして協調設計しています。
  • Vera Rubinの本質は「GPUを速くする」ことではありません。 主演であるGPUを待たせないよう、CPU、DPU、NIC、NVLink、Spectrum-6、冷却まで含めて劇場まるごと作り替えることです。

この記事の著者・監修者 ケニー狩野(Kenny Kano)

Arpable 編集部(Arpable Tech Team)
株式会社アープに所属するテクノロジーリサーチチーム。人工知能の社会実装をミッションとし、最新の技術動向と実用的なノウハウを発信している。
役職(株)アープ取締役。Society 5.0振興協会・AI社会実装推進委員長。中小企業診断士、PMP。著書『リアル・イノベーション・マインド』

Vera Rubinとは何か

Vera Rubinとは、AIの計算量爆発に対応するため、GPU単体ではなくラック全体を最適化するNVIDIAの次世代AIデータセンター基盤である。

Vera Rubinとは、NVIDIAが提唱する次世代AIデータセンター向けの統合プラットフォームです。Rubin GPUだけでなく、Vera CPU、NVLink 6、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6(Spectrum-X系Ethernet)、Groq 3 LPX、冷却設計までを含め、AIの学習・推論をラック単位で最適化する思想を指します。

Vera Rubinの読み方は「ヴェラ・ルービン」または「ベラ・ルービン」です。 名称は、暗黒物質の存在を示す観測で知られる天文学者Vera Rubinに由来します。NVIDIAの命名では、科学者名を次世代アーキテクチャに使う流れが続いており、Vera RubinはBlackwellの次を担うAIインフラ世代として位置づけられます。

従来のAIインフラは「どのGPUが速いか」に注目されがちでした。しかし、生成AIが長文脈化し、エージェントが検索・検証・再推論を繰り返すようになると、ボトルネックはGPUの演算性能だけではなくなります。

AIが賢くなるほど、モデルは途中メモを保持し、外部ツールを呼び、長い文脈を読み、何度も考え直します。そのたびに、メモリ、I/O、GPU間通信、ラック間通信、冷却、電力が詰まりやすくなります。

そこでVera Rubinは、GPUを単体で速くするのではなく、GPUを待たせる原因を、劇場まるごと取り除く設計へ踏み込みました。

AIが賢くなるほど「遅い・高い」と感じる理由

AIのボトルネックは、演算性能だけでなく、文脈・メモリ・通信・冷却・電力へ広がっている。

昔のAIは、短い質問に「一発で答える」タイプでした。ところが今のAIは、長文を読み、外部ツールを呼び、途中で考え直し、検証して、また考える存在になっています。

まるで、その場で台本を書き換えながら演じ続ける劇団のようなものです。

主演俳優であるモデルがどれほど賢くなっても、舞台裏の通路が狭ければ、俳優は待たされます。つまり、現在のAIインフラでは、GPUの演算力だけでなく、I/O、メモリ、KVキャッシュ、クラスタ通信、冷却、電力がまとめて性能とコストを左右します。

AIは「答える」から「考える」へ

Thinking AIやエージェントAIでは、推論が一発回答では終わりません。途中で仮説を作り、検索し、検証し、もう一度推論する。こうした処理では、途中メモである文脈やKVキャッシュが膨らみます。

すると同じGPUでも、計算する速さより、メモを捌く速さで詰まりやすくなります。

NVIDIAがVera Rubinで強調しているのは、まさにこの変化です。AI需要は急増する一方、チップ単体の性能向上だけでは追いつきません。だからこそ、Rubin世代ではラック全体の同時再設計に加え、Groq 3 LPXのような低遅延トークン生成専用ラックを組み合わせる発想へ踏み出しています。

※この先の比喩対応:主演=Rubin GPU段取り=Vera CPU・BlueField-4 DPU通路=NVLink・ConnectX-9・Spectrum-6劇場=NVL72ラック・AIデータセンター

Vera Rubin NVL72とは:ラック全体を1台のAIコンピュータにする

Vera Rubin NVL72とは、Rubin GPU 72基とVera CPU 36基を束ね、1ラックを巨大なAIスーパーコンピュータとして扱う構成である。

Vera Rubinを理解する近道は、階層構造で見ることです。最小単位はSuperchip、次にコンピュートトレイ、そしてNVL72ラック、最後にクラスタへ広がります。

つまり、Vera Rubinは「1枚のGPU」ではありません。小さなチームが集まり、楽屋棟になり、劇場施設全体へ拡大していく構造です。

Vera Rubin Superchipとは:最小チーム

Vera Rubin Superchipとは、Rubin GPUとVera CPUを近接させ、CPUとGPUの待ち時間を減らす最小計算ユニットです。

Superchipは、劇場で言えば、主演俳優と段取り係のマネージャーが同じ控室で一緒に動ける状態です。CPUが次の台本や段取りを先に整え、GPUが演算に集中できるようにします。


Vera Rubin Superchipの構成イメージ。Rubin GPUとVera CPUを束ねる最小ユニット
図:Superchip(最小チーム)のイメージ

コンピュートトレイとは:楽屋フロア

コンピュートトレイとは、複数のSuperchipを同居させ、サーバーノードとして扱う単位である。

複数のSuperchipが1枚のコンピュートトレイに同居します。劇場なら、いくつもの小チームが同じ楽屋フロアで支度し、出番の順番を待つ場所です。


Vera Rubinのコンピュートトレイのイメージ。複数のSuperchipを搭載する計算モジュール
図:コンピュートトレイ(楽屋フロア)のイメージ

NVL72ラックとは:72基のRubin GPUを一体運用する楽屋棟

NVL72ラックとは、72基のRubin GPUと36基のVera CPUを1ラックに収め、NVLink 6で一体運用する構成である。

NVL72は、1ラックにRubin GPU 72基とVera CPU 36基を収め、NVLink 6で棟内を一体化する設計です。ここまで来ると、個々のGPUの速さよりも、棟内の移動、つまりデータ移動をいかに詰まらせないかが勝負になります。


Vera Rubin NVL72ラックのイメージ。1ラックに72基のRubin GPUと36基のVera CPUが収まるラックスケール構成
図:NVL72ラック(楽屋棟)のイメージ

Vera Rubinクラスタとは:数百ラックのAI劇場施設

Vera Rubinクラスタとは、NVL72ラックを多数束ね、AIファクトリーとして大規模に運用する構成である。

ラックが数百〜数千本になると、劇場は“施設”になります。この規模では、主演俳優の実力よりも、施設の交通網、冷却、電力、保守体制が公演の成否を決めます。


Vera Rubinの大規模クラスタのイメージ。多数ラックを束ねたAIファクトリー
図:クラスタ(劇場施設)のイメージ

NVIDIAが定義する標準構成「Vera Rubin POD」は、40ラックで構成され、1,152基のRubin GPU、60エクサフロップス、10PB/sの総スケールアップ帯域を備えるAIファクトリーの基準単位です。クラウド事業者や大規模AI基盤では、このPOD単位で「どれだけのトークンを、どれだけ低コストに生産できるか」が投資判断の軸になります。

登場人物は7人:AI劇場を止めない役割分担

Vera Rubinの強さは、Rubin GPUだけでなく、CPU・DPU・NIC・NVLink・Spectrum-6に、2026年世代でGroq 3 LPXという低遅延推論ラックが加わり、7種類の専用チップが同じ脚本で動くことにある。

現行世代のAIデータセンターでは、主演俳優だけでは公演は成立しません。AI劇場を止めないためには、段取り役、搬入責任者、伝令、棟内通路、交通管制、そして低遅延推論を支えるトークン生成エンジンが必要です。


Vera Rubinの主要構成要素。Vera CPU、Rubin GPU、BlueField-4、ConnectX-9、NVLink 6、Spectrum-6の役割分担
図:CES 2026発表時点の6人構成。GTC 2026でGroq 3 LPXが第7チップとして加わり、Vera Rubinプラットフォームは7チップ構成へ拡張された。

Vera CPUとは:段取りを崩さない舞台付きマネージャー

Vera CPUとは、Rubin GPUを待たせないよう、データ供給や制御を担うNVIDIAのカスタムArm CPUである。

Vera CPUは、公演が詰まらないように「次の出番」と「次の台本」を前倒しで整える段取り役です。主演であるRubin GPUが一瞬でも待てば、劇場全体のテンポが落ちます。だからVera CPUは、観客に見えない場所で“遅れの芽”をつぶし続けます。

技術メモ(クリックで開く)

Vera CPUは、NVIDIAカスタムArm「Olympus」コアを中核に、LPDDR5X(SOCAMM)やNVLink-C2CによるCPU↔GPU接続を組み合わせ、データ供給の待ち時間を減らす設計です。重要なのは、CPUを単なる補助役ではなく、GPUを待たせないための段取り役として再設計している点です。

Rubin GPUとは:AI推論と学習を担う主演俳優

Rubin GPUとは、Vera Rubin世代のAI学習・推論を担う中心チップであり、HBM4と高密度演算でAI劇場の主役を務める。

Rubin GPUは、実際に演じ切る主演俳優です。ただし主演が強くても、台本が遅れ、合図がずれ、舞台転換が詰まれば名演は止まります。Rubinは「俳優の強化」と同時に、「共演と転換が詰まらない前提」で鍛えられた主演です。

技術メモ(クリックで開く)

Rubin GPUはHBM4を前提に、推論・学習のスループットを引き上げる世代です。特に長文脈推論では、演算性能だけでなく、メモリ帯域、GPU間通信、KVキャッシュの扱いが性能を左右します。

BlueField-4 DPUとは:舞台裏の搬入責任者

BlueField-4 DPUとは、データ移動・I/O・セキュリティなどの裏方作業を肩代わりし、GPUの待ち時間を減らすプロセッサである。

BlueField-4は、裏方の物流責任者です。長い会話や多段推論で増える「途中メモ」や中間結果を、必要な瞬間に運び、不要なら片づけます。主演が演技だけに集中できるよう、荷物運びと段取りの重い仕事を肩代わりします。

技術メモ(クリックで開く)

BlueField-4は、ストレージI/O、ネットワーク、セキュリティ、データ移動をオフロードするDPUです。AIデータセンターでは、GPUに計算だけを任せるために、裏方処理を専用プロセッサへ逃がすことが重要になります。

ConnectX-9 SuperNICとは:棟をまたぐ超高速の伝令

ConnectX-9 SuperNICとは、ラック間・ノード間の通信を高速化し、大規模AIクラスタの待ち時間を減らすネットワークインターフェースである。

ConnectX-9は、楽屋棟と楽屋棟の間を走る伝令です。大規模公演では、合図だけでなく台本の断片や検証結果が行き来します。ここが遅いと、主演は舞台で待つことになります。つまり伝令の速さは、公演のテンポそのものです。

技術メモ(クリックで開く)

ConnectX-9は、スケールアウトの終端として、高速Ethernetや低遅延通信を担います。分散学習や分散推論で頻発する同期通信の遅れを抑え、クラスタ全体の待ち時間を小さくする役割があります。

Vera Rubin世代では、Ethernet系のSpectrum-6 / Spectrum-Xだけでなく、Quantum-X800 InfiniBand系のスケールアウト構成も想定されています。ConnectX-9 SuperNICは、構成に応じてEthernet / InfiniBand系の高帯域ネットワークと組み合わせ、ラック外通信の待ち時間を抑える役割を担います。

NVLink 6とは、NVL72ラック内のGPU同士を高帯域・低遅延で接続し、ラックを一体のAIコンピュータとして扱うための技術である。

NVLink 6は、同じ棟の中だけを異常に太くする専用通路です。俳優がすぐ集まり、すぐ打ち合わせし、巨大な台本をひとつの体で回せます。棟の中が別世界になれば、連携の待ちが消えて、公演の回転数が上がります。

技術メモ(クリックで開く)

NVLink 6は、Rubin世代でGPU間通信をさらに強化する中核技術です。NVL72ラック全体を一体運用するには、GPU同士が高速にデータを交換できることが欠かせません。

Spectrum-6(Spectrum-X系Ethernet)とは:施設全体を回す交通管制つきシャトル網

Spectrum-6とは、Vera Rubin世代のAIクラスタ向けEthernetを最適化し、ラック間通信の渋滞を抑えるネットワーク基盤である。

Spectrum-6は、劇場施設全体のシャトルと交通管制です。ラックが増えるほど、速い道を増やすだけでは渋滞は解けません。どの道を優先し、どこで詰まりを逃がし、同じ電気代で運べる量を最大化するか。交通整理そのものが次の伸びしろになります。

技術メモ(クリックで開く)

Spectrum-6は、NVIDIAのAIクラスタ向けEthernet基盤であるSpectrum-X系の進化版として捉えると理解しやすいです。大規模な分散学習・分散推論では、単純な帯域だけでなく、遅延、輻輳制御、運用安定性が重要になります。

Groq 3 LPXとは:低遅延推論を担う第7のトークン生成エンジン

Groq 3 LPXとは、Vera Rubinプラットフォームの第7チップとして追加された低遅延推論アクセラレータラックであり、長文脈・高トークンスループット推論を支える第7の役者である。

Groq 3 LPXは、Vera Rubin NVL72ラックの中に内蔵される部品ではありません。NVL72ラックとは独立した別ラックとして並置しますが、NVIDIAは両者を一体のAIスーパーコンピュータとして協調設計しています。

劇場で言えば、主演俳優の演技を支える“高速な台詞送り専用チーム”です。Rubin GPUが長文脈や大規模推論のプレフィル、Attention計算の土台を支え、Groq 3 LPXがトークン生成の低遅延化、つまりデコード側のFFNやMoEエキスパート処理などを担う役割分担が想定されています。

これにより、AI劇場は単に大きくなるだけでなく、短い待ち時間で大量のトークンを生み出す方向へ進化します。

技術メモ(クリックで開く)

Groq 3 LPXは、LPUベースの低遅延推論アクセラレータラックとして位置づけられます。Vera Rubin NVL72と組み合わせることで、トリリオンパラメータ級MoEモデルや数十万トークン級の長文脈推論において、低レイテンシと高トークンスループットを狙う構成です。

HBM4・KVキャッシュ・外部メモリ:推論の作業机問題

長文脈AIでは、GPUの演算力だけでなく、途中メモをどこに置き、どう出し入れするかが性能を左右する。

ここは初心者に一番効く直感です。メモリを「作業机」に見立てます。机であるHBMは近くて速いが、容量は有限です。倉庫である外部メモリやストレージは大きいが遠い。

Thinking AIやエージェントAIは、途中経過のメモが増え続けます。机がメモで埋まると、演技は止まり、「倉庫に預ける→取りに行く」の往復が増えます。

この往復を現実的にするのが、BlueField-4やConnectX-9、Spectrum-6のような“物流”です。Rubinは、単に机を広げるだけでなく、机と倉庫の動線を作り替える方向へ踏み込みました。

Vera Rubinがもたらすメリット

Vera Rubinは、推論コスト・クラスタ拡張・冷却運用の3つの面で、AIデータセンターの現実問題を解こうとしている。

メリット1:推論の経済性を下げ、できることを増やす

NVIDIAはVera Rubin NVL72について、Blackwell比で最大4倍の学習性能、最大10倍の推論性能/ワット、トークンコスト1/10というメッセージを打ち出しています。

さらにGroq 3 LPXと組み合わせた構成では、トリリオンパラメータ級モデルに対して最大35倍のトークン生成能力、最大10倍の収益機会を示しています。

※いずれもNVIDIAの公称値であり、実環境での効果はモデル構成、クラウド契約、電力・冷却条件、推論方式によって変わります。

ここで大事なのは数字そのものより、これまで高すぎて諦めた使い方が現実になることです。

  • 長文の社内規程・契約書を全部読ませて考えさせる
  • 検索→検証→再推論を回すエージェント運用を部署横断で回す
  • 同じ電力枠・同じラック数で、処理できる仕事量を増やす

メリット2:クラスタが大きいほど効く

小さな構成では多少の渋滞は我慢できます。しかし数百ラック規模になると、渋滞は収益そのものを削ります。

Vera Rubinは、棟内のNVLink、棟間のConnectX-9やSpectrum-6、裏方処理のBlueField-4を含めて、止まらない劇場を狙っています。

メリット3:冷却と保守まで含めて運用の地獄を減らす

Vera Rubinは「速い」だけでなく「回しやすい」に踏み込みます。AIデータセンターでは、電力と冷却が性能と同じくらい重要です。

高密度ラックを安定して動かすには、チップだけでなく、液冷、温水冷却、保守性、ケーブル削減、稼働率まで含めて考える必要があります。現場では、止まらないことが、そのまま収益性につながるからです。

実務ではどう捉えるべきか

Vera Rubinは、GPU調達の話ではなく、AIファクトリー全体の設計思想として捉えるべきである。

企業がVera Rubinを見るとき、単に「新しいGPUが出た」と捉えると本質を見誤ります。実務で見るべきなのは、次の4点です。

Vera Rubinを実務で評価する4つの視点
評価軸 見るべきポイント 実務上の意味
推論コスト コスト/トークン、トークン/ワット エージェント運用や長文脈AIをどこまで日常業務に使えるかを左右する
通信設計 NVLink 6、ConnectX-9、Spectrum-6 GPUを増やしたときに、通信待ちで性能が落ちないかを決める
裏方処理 BlueField-4 DPU、I/O、セキュリティ GPUを演算に集中させ、運用の複雑さを抑える
運用制約 電力、冷却、保守性、ラック密度 理論性能ではなく、実際に何時間・何か月止めずに回せるかを決める

AI時代のインフラ選定では、GPUのカタログ性能だけでなく、どれだけ低コスト・低電力・低遅延でトークンを生み続けられるかが重要になります。

まとめ

Vera Rubinは、AIの主演を速くするだけでなく、主演を待たせない劇場を作るための設計思想である。

Vera Rubinを一言で言うなら、AIの主演が止まらないよう、劇場まるごと作り替える設計図です。

AIが「答える」から「考える」へ進むほど、勝負はGPU単体ではなく、データの動線、メモリの置き場、棟内外の交通、冷却と保守へ移ります。Rubinは、その裏方の詰まりをラック単位で潰しにいくアプローチです。

そして2026年版で重要なのは、Vera Rubin NVL72だけではありません。Groq 3 LPXという低遅延推論アクセラレータラックが第7チップとして加わったことで、AIファクトリーは「大量に計算する場所」から、低遅延で大量のトークンを生み続ける劇場へ進化しようとしています。

  1. Vera RubinはGPU単体ではなく、AIデータセンター全体の統合プラットフォームである。
  2. Rubin GPU、Vera CPU、BlueField-4、ConnectX-9、NVLink 6、Spectrum-6、Groq 3 LPXが役割分担してAI劇場を止めない。
  3. AIが賢くなるほど、勝負は「計算性能」から「1円・1ワットあたりのトークン生成量」へ移る。

専門用語まとめ

Vera Rubin
NVIDIAの次世代AIデータセンター向け統合プラットフォーム。Rubin GPU、Vera CPU、NVLink、DPU、ネットワーク、冷却、Groq 3 LPXまで含む設計思想。
Rubin GPU
Vera Rubin世代の中心となるGPU。AI学習・推論の演算を担う主演俳優に相当する。
Vera CPU
Rubin GPUを待たせないための制御・データ供給を担うNVIDIAのカスタムArm CPU。
NVL72
72基のRubin GPUと36基のVera CPUを1ラックに統合するラックスケール構成。NVLinkでラック内を一体化する。
Groq 3 LPX
Vera Rubinプラットフォームの第7チップとして追加された低遅延推論アクセラレータラック。NVL72と並置・連携し、長文脈・高トークンスループット推論を支える。
Spectrum-6
Vera Rubin世代のAIクラスタ向けEthernet基盤。Spectrum-X系の進化版として、ラック間通信の低遅延化と安定化を担う。
HBM
GPU近傍に置かれる超高速メモリ。AI推論では作業机のような役割を持ち、長文脈化で重要性が増す。
KVキャッシュ
LLM推論中の文脈や途中メモを保持する仕組み。長文脈や多段推論では容量と出し入れ速度が性能を左右する。
DPU
データ移動、ストレージI/O、セキュリティなどの裏方作業を肩代わりする専用プロセッサ。
AI Factory(AIファクトリー)
AIモデルを作り、推論で価値を生み続ける生産設備としてデータセンターを捉える考え方。

よくある質問(FAQ)

Q1. Vera Rubinの読み方は?

A1. 一般には「ヴェラ・ルービン」または「ベラ・ルービン」と表記されます。NVIDIAの次世代AIデータセンター基盤を指す名称で、天文学者Vera Rubinに由来します。

Q2. Vera RubinはGPUの新製品名ですか?

A2. GPU単体の名前ではありません。Rubin GPUを中核に、Vera CPU、NVLink、DPU、ネットワーク、Spectrum-6、Groq 3 LPX、冷却まで含む統合プラットフォームです。

Q3. Vera Rubin NVL72とは何ですか?

A3. Rubin GPU 72基とVera CPU 36基を1ラックに統合し、NVLink 6で一体運用するラックスケール構成です。1ラックを巨大なAIコンピュータのように扱う発想です。

Q4. Groq 3 LPXはVera Rubinに内蔵されていますか?

A4. NVL72ラックに内蔵される部品ではありませんが、Vera Rubinプラットフォームと共同設計された第7チップとして公式に位置づけられています。NVL72と並置・連携し、低遅延のトークン生成を支えます。

Q5. なぜネットワークやDPUが重要になるのですか?

A5. Thinking AIやエージェントAIでは、文脈や中間結果の出し入れが増え、GPUが待たされる時間がボトルネックになるからです。DPUや高速ネットワークは、その待ち時間を減らす裏方です。

Q6. 初心者が最初に覚えるべき要点は?

A6. Vera Rubinは「主演であるGPUを速くする」より、「主演を待たせない劇場を作る」話だと捉えると理解しやすくなります。

参考文献 / 出典

更新履歴

  • :初版公開。初心者向けに、Vera Rubinを「AI劇場」の比喩で解説。
  • :2026年版として全面改稿。Vera Rubin NVL72、Groq 3 LPX、Rubin GPU、Vera CPU、Spectrum-6、Vera Rubin POD、読み方、AIファクトリー視点、関連記事クラスターを反映。
ABOUT ME
ケニー 狩野
ケニー狩野(Kenny Kano)は、AI社会実装・技術経営・ITコンサルティングを専門とする経営者・監修者。株式会社ベーネテック代表、株式会社アープ取締役、一般社団法人Society 5.0振興協会 AI社会実装推進委員長。早稲田大学大学院理工学研究科修了後、キヤノンで国内外の開発や中国・インド・オーストラリアを含むオフショア案件を牽引。独立後はAI社会実装支援に従事し、Arpableで人工知能・先端技術分野の記事を約2年間で約300本監修。中小企業診断士、PMP、ITコーディネータ。著書『リアル・イノベーション・マインド』。実務と経営を橋渡しする。