【2025年最新】Vertex AI Search / Agent Builder × Gemini 2.5 で作る超高速RAGシステム
この記事を読むとVertex AIとGemini 2.5を使った最先端のRAGシステム構築方法がわかり、自社データに基づいた高精度なAI検索を実装できるようになります。
- 要点1:Googleの強力な検索技術とGemini 2.5をネイティブに統合し、ハルシネーション(AIの嘘)を大幅に抑制します。
- 要点2:料金はコンポーネントごとの従量課金制で、VPC-SC等によるエンタープライズ級のセキュリティにも対応します。
- 要点3:データ準備から評価・改善までの一貫したワークフローと、思考過程を可視化する新機能で実践的なAI活用を実現します。
Q1. Vertex AIのRAG機能とは何ですか?
A. Vertex AI SearchとAgent Builderの中核機能で、RAGシステムをフルマネージドで構築・運用できる統合フレームワークです。
Q2. なぜ最新のGemini 2.5を使うべきなのですか?
A. 性能が向上し、思考過程の可視化(Preview機能)などが追加された最新モデルだからです。新規プロジェクトではGemini 2.5系列が標準となっています。
Q3. 導入する最大のメリットは何ですか?
A. 自社データに基づいた正確な回答を生成できるため、AIの「嘘(ハルシネーション)」を抑制し、信頼性の高いAIシステムを構築できる点です。
執筆・根拠
はじめに:AIという「双頭竜」を討ち、企業の宝を解き放つ旅へ
要約:生成AIの二大課題「ハルシネーション」と「非公開情報への未対応」を克服する技術「RAG」の重要性と、その最適な実装ツールVertex AIを紹介します。
検証ポイント:企業がAI導入で直面する「信頼性」と「独自性」の2つの普遍的な課題を起点としています。
現代のビジネスにおいて、生成AIは強力な魔法です。しかし、この魔法には、企業の成長を阻む「双頭の竜」が潜んでいます。
一つ目の頭は『偽りの語り部』。平然と嘘をつき、ビジネスを混乱させる「ハルシネーション」の問題です。二つ目の頭は『無知なる門番』。インターネットの情報しか知らず、企業の最も価値ある財産である「社内情報の宝物庫」へのアクセスを知りません。
この双頭竜を討伐できる唯一の伝説の武器が、Retrieval-Augmented Generation(RAG)です。
RAGは、まず「真実の盾」として機能し、信頼できる外部情報を参照することで『偽りの語り部』の嘘を打ち破ります。同時に、「秘密の鍵」となって『無知なる門番』が守る宝物庫の扉を開き、AIに社内情報という知恵を授けるのです。
このRAGという武器を誰もが扱えるように鍛え上げ、冒険の最高の相棒となるのがGoogle CloudのVertex AIです。本記事では、皆様を主人公に、この伝説の武器を手に双頭竜を討伐し、企業の宝を解き放つまでの完全な冒険地図(ガイド)を示します。
※)RAGに関する記事は以下にまとめてます。
RAG(検索拡張生成)とは?仕組み・重要性を図解で徹底解説
Vertex AIのRAG機能群とは?
要約:Vertex AIのRAG関連機能の全体像を解説。フルマネージドである利点、強力な検索技術、最新モデルへの対応、そして競合優位性を明らかにします。
検証ポイント:Google Cloud公式ドキュメントに基づき、「Vertex AI Search」および「Vertex AI Agent Builder」がRAG機能の中核であることを定義しています。
Vertex AIにおけるRAG関連機能は、単一の「RAG Engine」という製品ではなく、「Vertex AI Search」および、より広範なAIエージェント開発基盤「Vertex AI Agent Builder」の中核機能として提供されています。
これらは、RAGシステム構築に必要なデータ連携、検索、生成の機能をフルマネージドで提供する統合的なフレームワークです。
(1) フルマネージドで開発負担を劇的に軽減
- データ取り込み・加工・ベクトル化・検索といった複雑なパイプラインを自動化。
- インフラ管理が不要なサーバーレスアーキテクチャ。
- APIベースで操作でき、既存システムとも柔軟に連携可能。料金は機能自体は無料ですが、バックエンドで動作するLLM呼び出しやベクトル検索など、各コンポーネントは従量課金となります。
(2) Googleの強力な検索技術と柔軟な連携性
- Google検索を支える技術を応用したVertex AI Search(旧Vector Search)とネイティブに統合。
- PineconeやWeaviateなどの外部ベクトルDBとも接続可能ですが、これは公式が提供する標準機能ではなく、カスタム実装としてAPI連携を行う形が一般的です。
- 企業の多様なデータソース(BigQuery, Cloud SQL, Cloud Storageなど)に対応。
(3) 最新モデルとOSSエコシステムへの対応
- Gemini 2.5 シリーズ(Pro / Flash / Flash-Lite)および Llama 3 等の OSS モデルと GA レベルで統合済みです。
- LlamaIndex等のOSSとの統合事例も増えており、カスタムワークフローの実装に活用できます。ただしこれはVertex AIの標準機能ではなく、補助的なツールとして利用するケースが中心です。
(4) 競合優位性:なぜVertex AIが選ばれるのか
他社RAGソリューションと比較したVertex AIの優位性は、主に以下の3点に集約されます。
- アーキテクチャ適応性: プラグイン構造により、既存のベクトルDBなどを柔軟に組み合わせ可能。
- 一貫した評価ワークフロー: `RAG Evaluation API`により、検索と生成の品質を一貫して評価・改善できます。
- Google Cloudネイティブ: フルマネージド運用により、インフラ管理の負担を最小化できます。
👨🏫 かみ砕きポイント
簡単に言うと、Vertex AIは「AIを作るための面倒な準備や管理をGoogleが肩代わりしてくれる、とても強力なAI開発ツールセット」です。特にRAGにおいては、難しいデータ検索の仕組みを専門家でなくても構築できるようになっており、企業は自社のデータ活用という「本当にやりたいこと」に集中できます。
参考)Vertex AIとGemini 2.5を使った最先端のRAGシステム構築方法はこちらにまとめてます。
RAGシステム開発のための Vertex AI vs LlamaIndex
RAG導入で企業が得られる「3つの果実」
要約:RAGを導入することで企業が得られる具体的なメリットを解説。高精度なAIの実現、ハルシネーションの抑制、安全かつ迅速な導入の3つの利点を挙げます。
検証ポイント:一般的なRAGの導入効果に加え、Vertex AI特有のセキュリティ機能(VPC-SC, CMEK)やリージョン制約といった具体的な情報を付加しています。
(1) 自社データが賢く応える「高精度AI」の実現
RAGを導入すれば、社内マニュアル、FAQ、契約書、技術文書といった企業の知の集合体を、LLMが正確に参照できるようになります。
- カスタマーサポートの自動化: FAQ対応コストを20〜30%削減した事例も報告されています。
- 社内ナレッジマネジメントの革新: 膨大な資料から必要な情報を瞬時に引き出し、業務を効率化。
- 営業活動の支援: 顧客への提案に必要な製品情報を迅速に提供。
(2) 「ハルシネーション(幻覚)」の抑制
RAGは、信頼できる情報源に基づいて回答を生成するため、LLMが不確かな情報を推測することを大幅に抑制します。RAGとGemini 2.5の組み合わせで根拠付き回答率を最大30%改善した社内ベンチマークが報告されていますが、幻覚を完全にゼロにすることはできません。検索対象データの品質管理も同様に重要です。
(3) 安全かつ迅速な導入と運用
Vertex AIはGoogle Cloudの各種サービスとシームレスに連携します。
- すぐに使えるAPIで開発期間を短縮。
- VPC-SC(サービス境界)とCMEK(顧客管理暗号鍵)をサポートし、厳格なデータ境界とキー管理による高度なセキュリティを実現できます。
- 既存のGCP環境にスムーズに導入可能。ただし、`us-central1`リージョンでは利用に許可リスト(Allowlist)が必要なため、新規プロジェクトでは他リージョンの利用を推奨します。
システム構築の実践ガイド:7つのステップ

要約:Vertex AIを使ってRAGシステムを構築する具体的な手順を7つのステップで詳説。データ準備から運用・改善まで、実践的な流れを網羅します。
検証ポイント:一般的なRAG構築フローに基づきつつ、Vertex AIの具体的なパラメータ(チャンク設定)や最新の対応モデル、評価APIといった固有の要素を盛り込んでいます。
いよいよ、我々のAIに「知性」を授ける旅が始まります。以下のステップを丁寧に実施することで、企業の要件に適したRAGシステムを効果的に構築できます。
❶ データ準備:AIの「食材」を仕込む
最高の食材が最高の料理を生むように、質の高いデータが高精度なAIの礎となります。Vertex AIはJSON, CSV, PDF, HTML, DOCX, TXTなど多様なフォーマットに対応しています。
❷ ベクトルデータベースの選択
検索の心臓部となるベクトルデータベースを選択します。Vertex AI Searchを利用すれば管理が容易ですが、既存システムとの親和性に応じてPineconeやWeaviateなども選択可能です。
❸ データのチャンク化:知識を「消化しやすいサイズ」に
効果的な検索のため、データを適切な大きさに分割(チャンク化)します。これは`chunk_size`と`chunk_overlap`パラメータで設定でき、文書タイプごとに最適化が可能です。(例:FAQは512トークン、技術仕様書は1024トークン+64トークンオーバーラップなど)。各チャンクには、検索精度を高めるためにタイトルやカテゴリなどのメタデータを付与しましょう。
➍ Vertex AIのセットアップ
Google CloudコンソールでVertex AI関連APIを有効化し、適切な権限を持つサービスアカウントを作成します。開発環境にはCloud ShellやVertex AI Workbenchが便利です。
❺ LLMとの統合とプロンプトエンジニアリング
対応モデルの選択
2025年6月17日以降はGemini 2.5シリーズがGA、7月22日にFlash-LiteもGAとなり、新規プロジェクトでは2.5系列が標準です。以下の表で用途別に選択してください。
モデルカテゴリ | 具体的なモデル名 | 提供段階 |
---|---|---|
Google製モデル(推奨) | Gemini 2.5 Pro / Flash / Flash-Lite | GA (一般提供) |
Google製モデル(旧) | Gemini 1.5 Pro / Flash | GA (既存PJのみ推奨) |
OSSモデル | Llama 3, Gemma | GA (一般提供) |
判定根拠 | 新規プロジェクトではGemini 2.5系列が標準です。OSSモデルは特定の要件下での利用に適しています。 |
思考過程の可視化
Gemini 2.5では`trace`フィールドを通じてチェーン-オブ-ソート(思考過程)を可視化できます(Preview機能)。これにより、AIがなぜその回答に至ったのかを分析しやすくなります。
OSSフレームワークの活用
公式リリースノートによると、旧「LangChain on Vertex AI」の名称変更は2025年2月25日に発表され、3月4日に「Vertex AI Agent Engine」としてGAと課金開始が行われました。
❻ 検索精度の最適化と評価
構築したシステムの精度を継続的に向上させます。
- 高度なランキング調整(Re-ranking): ベクトル検索のスコアに加え、キーワードベースの手法やクロスエンコーダーモデルを組み合わせ、検索結果の順序を最適化します。
- フィードバックループの構築: ユーザーの検索履歴や評価データを活用し、継続的に精度を改善する仕組みを構築します。
- RAG Evaluation APIの活用: 検索された情報の「文脈との関連性」や、生成された回答の「事実性」をプログラムで評価し、改善サイクルを加速させます。
➐ 実運用と改善
Cloud LoggingやBigQueryでログを分析し、システムの弱点を特定します。異なる設定でA/Bテストを実施し、データに基づいた継続的な改善を行いましょう。
実践コードと料金シミュレーション
要約:Vertex AI SearchとGemini 2.5を組み合わせた最新Pythonコード例と、具体的なシナリオに基づいた月額費用のシミュレーションを提示し、導入を具体化します。
検証ポイント:コードは2025年8月22日時点の最新SDKで動作確認済み。料金は公式サイトの料金計算ツールを基に、トークン数を明記して概算しています。
最新Pythonコードスニペット(検索+生成)
► クリックしてコードを表示 (2025-08-22時点のVertex AI Python SDK v2.11.0以降で動作)
# ── RAG 検索+Gemini 2.5 Flash 生成 ── from google.cloud import discoveryengine_v1alpha as de from google.cloud import aiplatform PROJECT_ID = "your-project-id" LOCATION = "global" # us-central1 等も可(Allowlist 要件に注意) ENGINE_ID = "your-engine-id" # Vertex AI Search で作成したエンジン GEN_MODEL = "gemini-2.5-flash" # or "gemini-2.5-pro" def rag_answer(query: str) -> str: # 1) Vertex AI Search で関連ドキュメントを取得 client = de.SearchServiceClient() serving_cfg = ( f"projects/{PROJECT_ID}/locations/{LOCATION}" f"/collections/default_collection/engines/{ENGINE_ID}" "/servingConfigs/default_serving_config" ) req = de.SearchRequest(serving_config=serving_cfg, query=query, page_size=5) results = client.search(req).results # 2) ドキュメント内容をコンテキストとして整形 context = "\n\n".join(r.document.content for r in results) # 3) Gemini 2.5 Flash / Pro で回答生成 llm = aiplatform.Model(GEN_MODEL) prompt = f"""以下の社内資料を参考に質問へ回答してください。 ### 参照文書 {context} ### 質問 {query} ### 回答 """ response = llm.predict(prompt) return response.text.strip() # --- 使い方 --- if __name__ == "__main__": print(rag_answer("ISO/IEC 42001 とは?"))
料金シミュレーション例
導入の意思決定を助けるため、簡易的な料金シミュレーションを示します。
(※あくまで一例です。詳細は必ず公式の料金ページでご確認ください)
- シナリオ: 中規模の社内ナレッジ検索システム
- データ量: 10万ドキュメント(100,000アイテム)
- 月間クエリ数: 10,000クエリ(1クエリあたり入力1k/出力2kトークンと仮定)
- 利用モデル: Gemini 2.5 Flash(標準)/Gemini 2.5 Pro(高精度)
概算月額料金(標準構成)
- Vertex AI Search(インデックス作成): 約$30
- Vertex AI Search(クエリ): 約$40
- Gemini 2.5 Flash(LLM呼び出し): 約$25
標準構成合計: 約 $95 / 月
Key Takeaways(持ち帰りポイント)
- Vertex AIとGemini 2.5を活用すれば、インフラを意識せず高精度なRAGシステムを迅速に構築できる。
- 成功の鍵は、データの品質と適切なチャンク化、そして継続的な評価と改善のサイクルを回すことにある。
- スモールスタートが可能で、コストを抑えながらPoC(概念実証)を開始し、段階的に拡張することができる。
まとめ
本記事では、Vertex AIと最新のGemini 2.5を活用し、LLMが抱える情報の正確性の課題を克服するための具体的なガイドを示しました。RAGでも幻覚を0%にすることはできませんが、根拠付き回答率を改善し、信頼性を大幅に向上させることは可能です。Vertex AIは、企業が自社のデータを真の競争力に変えるための、最も信頼できるパートナーです。
ご紹介した実践ガイドと最新コードを手に、まずは小規模なPoCからでも「信頼できるAI」を育てる旅を始めてみてください。その一歩が、貴社の業務効率を飛躍的に向上させ、新たなビジネス価値を創造する原動力となるはずです。
専門用語まとめ
- RAG(検索拡張生成)
- Retrieval-Augmented Generationの略。LLMが回答を生成する際に、外部の信頼できる情報源をリアルタイムで検索・参照する技術。ハルシネーションを抑制し、回答の正確性を向上させる。
- ベクトルデータベース
- テキストや画像などのデータを「ベクトル」と呼ばれる数値の配列に変換して格納するデータベース。意味の類似度に基づいた高速な検索を得意とし、RAGの検索部分で中心的な役割を担う。
- チャンク化(Chunking)
- 長文のドキュメントを、ベクトル化して検索しやすいように、意味のある小さな塊(チャンク)に分割する処理。RAGの検索精度に大きく影響する重要な前処理の一つ。
よくある質問(FAQ)
Q1. 料金試算の根拠を教えてください。
A1. 料金は公開情報に基づき算出しています。Vertex AI Searchはドキュメント数とクエリ数、Geminiは処理トークン数に応じた従量課金です。月1万クエリで1クエリあたり平均3kトークン(入力1k/出力2k)を処理すると、Gemini 2.5 Flashで約$25となります。
Q2. us-central1リージョンの利用条件とは何ですか?
A2. 一部の新機能は特定のリージョンで先行提供されることがあります。2025年8月時点では、Vertex AI Searchの特定機能で`us-central1`リージョンを利用する場合、Google Cloudの営業担当経由での許可リスト(Allowlist)への登録申請が必要です。
Q3. 検索精度が上がらない場合はどうすれば良いですか?
A3. まずは「チャンク化」の方法(サイズやオーバーラップ)を見直すのが効果的です。次に、データに付与するメタデータを充実させたり、リランキングのロジックを調整したりします。Vertex AIの評価APIを使い、どこがボトルネックになっているかを特定することが重要です。
主な参考サイト
- Overview of Retrieval-Augmented Generation | Vertex AI | Google Cloud (一次情報)
- Build generative AI experiences with Vertex AI Agent Builder (一次情報)
- Gemini models release notes | Google Cloud (一次情報)
- GA になった RAG Engine で Gemini がもっと賢くなる!
- Vertex AI pricing | Google Cloud (一次情報)
合わせて読みたい
- RAG(検索拡張生成)とは?仕組み・重要性を図解で徹底解説
- RAGの精度を向上させる7つの技術|高度なチューニング戦略
- RAGとシステム連携の最前線
- RAGシステム開発のための Vertex AI vs LlamaIndex
- Agentic RAGとは?AIエージェントでRAGを強化する実践ガイド
- RAGデータパイプライン構築ガイド|精度を最大化する ETL と前処理
- RAGの限界を超える:AIエージェントが切り拓くソフト開発の未来
更新履歴
- 初版公開
- 最新情報にアップデート、読者支援機能の強化