・
社内情報に詳しいAIチャットボットを作ろうと思ってRAG(検索拡張生成)を導入したものの、期待した回答を得られず、嘘の回答(ハルシネーション)も多くて使えないと感じていませんか?
DX推進担当者としてRAGを試してみた結果、正答率が低く、結局は人の手による確認・修正に時間を費やしている…というケースは少なくありません。
RAGは、社内マニュアルや顧客情報といった独自データを参照し、LLMの回答精度を向上させる画期的な技術ですが、それだけでは実用的レベルに達しないことがあります。
その真価を発揮するには、RAGの各プロセスで「回答精度」を向上させる工夫が必要です。
この記事では、RAGの精度が出ずに悩んでいる担当者の方へ向けて、具体的な精度改善テクニックを解説します。
この記事を読めば、自社のRAGを「使えないAI」から「頼れる業務パートナー」へと変えるための具体的な次の一歩が見つかるはずです。
RAGを使う前に、どんな物なのかを知っておきましょう。
RAGの基礎を知ることで、自社にあったテクニックを選びやすくなります。
RAG(Retrieval-Augmented Generation:検索拡張生成)とは、大規模言語モデル(LLM)が回答を生成する際に、社内文書や業務マニュアルといった独自の外部データベースの情報を参照する技術です。
インターネット上の情報しか知らないLLMに対し、RAGは社内限定の専門的な知識を与える「カンニングペーパー」のような役割を果たします。
これにより、機密情報を守りつつ、ハルシネーション(AIが事実と異なる情報を生成する現象)を抑制し、自社の業務に即した高精度な回答が可能になります。
やみくもに施策を打っても、RAGの精度はなかなか向上しません。
RAGの仕組みを知り、その上で自社のRAGの課題となっている根本的な原因を見極めることが重要です。
RAGの改善策を選ぶ際は、以下の順で各ポイントをクリアできているかを確認してみてください。
まずは、ここでご紹介するテクニックを一覧でご紹介します。
ここでは、RAGの精度改善に有効なテクニックを、目的別にご紹介します。
実際に多くの企業が直面する課題と、それを乗り越えるテクニックを交えながら解説します。
一言でいうとどんなテクニック?
AIが参照するデータを掃除して、ノイズをなくす手法
主な特徴
【ここがポイント】
当初、社内規定PDFをそのまま投入したところ、レイアウト崩れによるノイズで正答率が伸び悩みました。
データクレンジング処理を徹底しただけで、基本的な質問への回答精度が向上したため、地味ですが、効果を確かに実感できた工程です。
また、クレンジングは、定期的に行うことで精度アップのポイントになることもわかりました。
こんな人におすすめ
一言でいうとどんなテクニック?
文書をAIが理解しやすい意味のある塊に分割する手法
主な特徴
【ここがポイント】
最初は単純に500文字で区切っていたため、重要な規定の途中で文脈が途切れ、回答が不正確になりがちでした。
意味の区切りで分割し、オーバーラップを設定したことで、複雑な問い合わせでも文脈を踏まえた回答ができるようになりました。
毎回データをチャンク化することは手間になりますが、RAGの精度を上げるために、その手間をかける価値があると思います。
こんな人におすすめ
一言でいうとどんなテクニック?
参照する情報をAIが理解しやすいMarkdown形式などの構造化したデータにする手法
主な特徴
【ここがポイント】
社内の複雑な料金表に関する質問の正答率が低くて壊滅的でした。
これをシンプルなMarkdownの表形式に変換したところ、正答率がアップ。
Markdownを使って、少し文章を装飾するだけでAIの理解度が上がることに驚きました。
AIも人のように、わかりやすい資料を用意してあげることが重要だと痛感した事例です。
こんな人におすすめ
一言でいうとどんなテクニック?
データに「タグ」を付けて、検索精度と情報鮮度を管理する手法
主な特徴
【ここがポイント】
「古い規定を参照して間違った回答をしてしまう」という致命的な問題がありましたが、更新日のメタデータを活用して最新情報のみを検索対象にすることで解決。
ファイルのプロパティをそのまま利用したメタデータでも、回答の信頼性が一気に高まり、現場からの評価が変わりました。
データベースに資料を保存する前にタグ付けという手間は増えますが、情報の更新頻度が高い環境では十分に試す価値があると思います。
こんな人におすすめ