【2024年】RAGの精度向上に関する最新事情

【2024年】RAGの精度向上に関する最新事情

RAG（Retrieval Augmented Generation）は、大規模言語モデル（LLM）による生成能力とデータベースによる検索機能を組み合わせた革新的な技術です。

この手法により、正確かつ豊富な情報提供が可能になりました。しかし、RAGの真の力を引き出すには、検索精度の向上が不可欠です。
本記事では、RAGの検索精度を向上させるための具体的な方法と最新の研究成果について詳しく解説します。

Table of Contents

データの準備

1. クレンジングとフォーマット統一の重要性

RAGシステムの構築において、最も重要なステップの一つがデータの準備です。多くの企業や組織が既存のファイルをそのままデータベースに登録しようとしますが、これは精度向上の観点から見ると結果的に非常に困難な道筋を選択したことになります。

データのクレンジングとフォーマット統一は、RAGシステムの精度向上に不可欠です。

不要な空白や特殊文字の削除、文字コードの統一などの基本的なクリーニングを行う。
日付や数値のフォーマットを統一し、一貫性のあるデータ構造を作る。
テキストの正規化も重要で、略語や専門用語の統一、大文字小文字の調整などを行う。
重複データの削除や欠損値の適切な処理も必要である。

これらのプロセスを経ることで、システムがデータを正確に理解し、効率的に処理できるようになります。
結果として、RAGシステムの検索精度と回答品質が大幅に向上し、ユーザーにより価値のある情報を提供できるようになります。

2. 構造化データの必要性

RAGの検索精度を高めるには、データを構造化する必要があります。特に推奨されるのがQA形式のデータ構造です。これにより、LLMがより適切な情報を抽出し、回答を生成しやすくなります。しかし、多くの顧客から以下のような反論を受けることがあります：

「手持ちのファイルをそのまま使いたい」
「データ加工しないといけないなら前と一緒」
「他社は出来ると言っていた」

これらの反論に対しては、丁寧な説明が必要です。データの構造化が検索精度向上に直結することを、具体的な例を挙げながら説明することが重要です。

3. QAデータの優位性

最近の研究結果からも、QAデータの優位性が明らかになっています。
『Meta Knowledge for Retrieval Augmented Large Language Models』という論文では、単純にドキュメントを分割して検索対象のデータベースにするのではなく、メタデータやQA形式に変換することで精度が大幅に向上すると主張しています。

Q/A形式の他にもタイトル/本文形式等も有効だとの指摘がありますので、現場にマッチした方法で且つ極力汎用的で強力な方法を選択されるとよいでしょう。

引用した論文の骨子を紹介します。

「Meta Knowledge for Retrieval Augmented Large Language Models」の論文は、大規模言語モデル（LLM）の性能を向上させるための新しいRetrieval Augmented Generation（RAG）手法を提案しています。この手法の主な特徴は以下の3点です：

QAとメタデータによる情報抽出の改善：
文書からQA形式の情報とメタデータを抽出することで、より構造化された知識を作成します。これにより、LLMが必要な情報をより効率的に利用できるようになります。
Qとメタデータサマリによる検索の効率化：
質問（Q）とメタデータのサマリーを使用して検索を行うことで、より関連性の高い情報を効率的に取得できます。これにより、検索精度が向上し、LLMへの入力情報の質が改善されます。
クエリ拡張による検索精度の改善：
ユーザーの質問を拡張し、より詳細な検索クエリを生成することで、検索精度をさらに向上させます。

この手法の有効性は、複数の評価指標（再現率、精度、特異性、網羅性、深さ、関連性）を用いて検証されています。結果として、従来のRAG手法と比較して、全ての指標で改善が見られました。

特に、QAとメタデータの抽出、メタデータサマリの使用、クエリ拡張を組み合わせた手法が最も高いパフォーマンスを示しました。この研究は、LLMの応用範囲を拡大し、より信頼性の高い情報提供を可能にする点で重要です。特に、最新情報や専門知識が必要な分野での活用が期待されます。また、この手法はコスト効率も高く、様々なドメインに適用可能であるため、今後のRAG研究や実用化に大きな影響を与えると考えられます。

最新の研究成果：GraphRAGとReranking

RAGの検索精度向上に関する最新の研究成果として、GraphRAGとRerankingという二つの手法が注目を集めています。

1. GraphRAG

GraphRAGは、従来のRAGモデルを拡張し、グラフ構造を活用して検索精度を向上させる手法です。この手法では、ドキュメント間の関係性をグラフとして表現し、より文脈に即した情報検索を可能にします。例えば、あるトピックに関連する複数のドキュメントが存在する場合、GraphRAGはそれらの関連性を考慮して最適な情報を抽出します。これにより、単純なキーワードマッチングよりも高度な検索が可能となり、より適切な回答生成につながります。

2.Reranking

Rerankingは、初期の検索結果をさらに精緻化する手法です。
通常のRAGモデルでは、初期検索で得られた結果をそのまま使用しますが、Rerankingでは、これらの結果を再評価し、より適切な順序に並べ替えます。

具体的には、LLMを使用して各検索結果の関連性をスコアリングし、最も適切な情報を優先的に使用します。
この手法により、ノイズの多いデータセットでも高精度な情報抽出が可能になり、生成される回答の質が大幅に向上します。

構造化データの自動生成：現状と課題

構造化データの自動生成は、RAGの検索精度向上において最重要テーマの一つですが、現時点では実用的な段階に達していません。
特に日本の場合、IRデータに図表を多用する文化があり、これらを自動的に構造化テキストに変換することは非常に困難です。

現在のベストプラクティスは、ナレッジのデータ形式を意識した管理・運用です。
具体的には、QA形式やタイトル/本文形式でデータを作成し、メタデータを付与することが効果的です。
これは一見遠回りに見えますが、現時点では最も効率的なアプローチとなります。

また、生成AIを活用してメタデータの生成や分類、アノテーションを行うことで、データの整理と品質向上を図ることができます。
さらに、複数のデータソースを組み合わせることで、より正確な現状把握が可能になります。

このように、人間の介入を前提としつつ、AIの支援を受けながら段階的にデータの構造化と品質向上を進めていくことが、現時点での最適な戦略と言えるでしょう。

生成の最適化：プロンプトエンジニアリング

RAGシステムの精度向上には、検索（Retrieval）だけでなく、生成（Generation）の最適化も重要です。ここで鍵となるのがプロンプトエンジニアリングです。

自社の特性や要件に合わせてRAGシステムを最適化するには、システムプロンプトなどのプロンプトエンジニアリングが不可欠です。多くのRAGツールベンダーが自社用のプロンプトフォーマットを提供していますが、これらを基に個別要件に合わせたプロンプトを作成する必要があります。

さらに、より高度な精度向上を目指す場合、パワハラプロンプトの手法が効果的です。
パワハラプロンプトは、AIの出力に対して厳しい評価とフィードバックを繰り返し行う手法です。具体的な改善点を指摘し再回答を求めることで、回答の質を段階的に向上させます。
ただし、過度に厳しいフィードバックは逆効果になる可能性があるため、建設的な指摘が重要です。適切に活用することで、RAGシステムの回答品質を大幅に向上させ、ユーザーにより価値ある情報を提供できます。

プロンプトエンジニアリングのスキルがなくても、「パワハラプロンプト」と呼ばれる手法を使うことで、効果的にプロンプトを最適化できます。この手法は以下のステップで構成されています：

基本プロンプトの作成: ベンダーが提供するテンプレートを基に、60-70点程度の自社用プロンプトを作成します。
繰り返しの改善: 生成された回答を評価し、不適切な部分や改善が必要な箇所を特定します。
具体的な指示: 特定された問題点に対して、具体的かつ厳格な指示をプロンプトに追加します。例えば、「この部分は絶対に含めないこと」「必ずこの形式で回答すること」などの指示を与えます。
テストと評価: 修正したプロンプトで再度生成を行い、結果を評価します。
繰り返し: 満足のいく結果が得られるまで、このプロセスを繰り返します。

この「パワハラプロンプト」手法を通じて、プロンプトエンジニアリングの専門知識がなくても、徐々に高品質なシステムプロンプトを作成することができます。

結論：継続的な改善と最適化の重要性

RAGの検索精度向上は、一朝一夕には達成できません。データの構造化、最新技術の導入、そしてプロンプトの最適化など、多面的なアプローチが必要です。また、技術の進歩は日進月歩であり、常に最新の研究成果や手法に注目し、システムに取り入れていく姿勢が重要です。

最後に強調したいのは、RAGシステムの構築と運用は継続的なプロセスだということです。初期段階で完璧なシステムを作り上げることは難しいですが、日々の運用とフィードバックを通じて、徐々に精度を向上させていくことが可能です。

RAGは強力なツールですが、その真価を発揮するには適切な準備と継続的な最適化が不可欠です。本記事で紹介した戦略と技術を参考に、皆様の組織に最適なRAGシステムの構築を目指してください。

以上

筆者プロフィール：
ケニー狩野（中小企業診断士、PMP、ITコーディネータ）
キヤノン(株)でアーキテクト、プロマネとして多数のプロジェクトをリード。
現在、株式会社ベーネテック代表、株式会社アープ取締役、Society 5.0振興協会評議員ブロックチェーン導入評価委員長。
これまでの知見を活かしブロックチェーンや人工知能技術の推進に従事。趣味はダイビングと囲碁。
２０１８年「リアル・イノベーション・マインド」を出版。