・
社内情報に詳しいAIチャットボットを作ろうと思ってRAG(検索拡張生成)を導入したものの、期待した回答を得られず、嘘の回答(ハルシネーション)も多くて使えないと感じていませんか?
DX推進担当者としてRAGを試してみた結果、正答率が低く、結局は人の手による確認・修正に時間を費やしている…というケースは少なくありません。
RAGは、社内マニュアルや顧客情報といった独自データを参照し、LLMの回答精度を向上させる画期的な技術ですが、それだけでは実用的レベルに達しないことがあります。
その真価を発揮するには、RAGの各プロセスで「回答精度」を向上させる工夫が必要です。
この記事では、RAGの精度が出ずに悩んでいる担当者の方へ向けて、具体的な精度改善テクニックを解説します。
この記事を読めば、自社のRAGを「使えないAI」から「頼れる業務パートナー」へと変えるための具体的な次の一歩が見つかるはずです。
RAGを使う前に、どんな物なのかを知っておきましょう。
RAGの基礎を知ることで、自社にあったテクニックを選びやすくなります。
RAG(Retrieval-Augmented Generation:検索拡張生成)とは、大規模言語モデル(LLM)が回答を生成する際に、社内文書や業務マニュアルといった独自の外部データベースの情報を参照する技術です。
インターネット上の情報しか知らないLLMに対し、RAGは社内限定の専門的な知識を与える「カンニングペーパー」のような役割を果たします。
これにより、機密情報を守りつつ、ハルシネーション(AIが事実と異なる情報を生成する現象)を抑制し、自社の業務に即した高精度な回答が可能になります。
やみくもに施策を打っても、RAGの精度はなかなか向上しません。
RAGの仕組みを知り、その上で自社のRAGの課題となっている根本的な原因を見極めることが重要です。
RAGの改善策を選ぶ際は、以下の順で各ポイントをクリアできているかを確認してみてください。
まずは、ここでご紹介するテクニックを一覧でご紹介します。
ここでは、RAGの精度改善に有効なテクニックを、目的別にご紹介します。
実際に多くの企業が直面する課題と、それを乗り越えるテクニックを交えながら解説します。
一言でいうとどんなテクニック?
AIが参照するデータを掃除して、ノイズをなくす手法
主な特徴
【ここがポイント】
当初、社内規定PDFをそのまま投入したところ、レイアウト崩れによるノイズで正答率が伸び悩みました。
データクレンジング処理を徹底しただけで、基本的な質問への回答精度が向上したため、地味ですが、効果を確かに実感できた工程です。
また、クレンジングは、定期的に行うことで精度アップのポイントになることもわかりました。
こんな人におすすめ
一言でいうとどんなテクニック?
文書をAIが理解しやすい意味のある塊に分割する手法
主な特徴
【ここがポイント】
最初は単純に500文字で区切っていたため、重要な規定の途中で文脈が途切れ、回答が不正確になりがちでした。
意味の区切りで分割し、オーバーラップを設定したことで、複雑な問い合わせでも文脈を踏まえた回答ができるようになりました。
毎回データをチャンク化することは手間になりますが、RAGの精度を上げるために、その手間をかける価値があると思います。
こんな人におすすめ
一言でいうとどんなテクニック?
参照する情報をAIが理解しやすいMarkdown形式などの構造化したデータにする手法
主な特徴
【ここがポイント】
社内の複雑な料金表に関する質問の正答率が低くて壊滅的でした。
これをシンプルなMarkdownの表形式に変換したところ、正答率がアップ。
Markdownを使って、少し文章を装飾するだけでAIの理解度が上がることに驚きました。
AIも人のように、わかりやすい資料を用意してあげることが重要だと痛感した事例です。
こんな人におすすめ
一言でいうとどんなテクニック?
データに「タグ」を付けて、検索精度と情報鮮度を管理する手法
主な特徴
【ここがポイント】
「古い規定を参照して間違った回答をしてしまう」という致命的な問題がありましたが、更新日のメタデータを活用して最新情報のみを検索対象にすることで解決。
ファイルのプロパティをそのまま利用したメタデータでも、回答の信頼性が一気に高まり、現場からの評価が変わりました。
データベースに資料を保存する前にタグ付けという手間は増えますが、情報の更新頻度が高い環境では十分に試す価値があると思います。
こんな人におすすめ
一言でいうとどんなテクニック?
「意味」と「言葉」の両方で検索する「いいとこ取り」な手法
主な特徴
【ここがポイント】
キーワード検索では、言葉が一致する情報しか拾えず、類義語の情報が漏れていました。
一方で、専門用語が多い社内文書では、ベクトル検索だけだと「雰囲気は似ているが意味が違う情報」を拾いがちでした。
これらの課題を解決するのがハイブリッド検索です。
ハイブリッド検索を導入したことで、キーワードに一致する条件で絞り込みつつ、関連情報も広く拾えるようになり、データベースから質問に関連度が高いチャンクを抽出できるようになりました。
その結果、回答の精度も向上して実用的なRAGに近づけることができて本当によかったです。
こんな人におすすめ
一言でいうとどんなテクニック?
検索結果をより質問の意図に近い順に並べ替える賢い整頓術
主な特徴
【ここがポイント】
データベースから検索結果が10件ヒットしても、本当に重要なのは、その中の1〜2件ということもあります。
ハイブリッド検索でせっかく質問の意図に合うチャンクを抽出できても、チャンクの優先順位が間違っていると、精度が下がってしまいます。
リランキングは、抽出されたチャンクを、より高性能なモデルを使ってリランキングしてくれるため、LLMが迷うことなく的確な回答を生成できるようになりました。
LLMが参考にするチャンクの優先度を変えるだけで、回答の「安定感」が増すことを実感した一例です。
こんな人におすすめ
一言でいうとどんなテクニック?
日本語や自社の専門用語による文章を数値化する「翻訳機」(ベクトル化)を導入する手法
主な特徴
【ここがポイント】
海外製の埋め込みモデルでは、日本語特有の微妙なニュアンスや社内用語の理解が不十分でした。
日本語特化モデルに変更したことで、質問とデータベースのベクトル(数値)化したデータが一致しやすくなりました。
類似した言葉や言葉の裏にある意図を汲み取った検索が可能になり、回答精度が高まったことでメンバーの満足度向上に繋がったと思います。
こんな人におすすめ
一言でいうとどんなテクニック?
AIへの指示の出し方を工夫して、性能を最大限に引き出すテクニック
主な特徴
【ここがポイント】
「AIは使えない」と言っていたメンバーに、プロンプトのコツを共有したところ、翌日から的確な回答を引き出せるようになりました。
LLMに出す指示を変えるだけで回答も精度が変わり、AIの性能だけでなく、使い手のスキルも精度に直結することを実感しました。
人もAIも指示が曖昧な場合は、求める結果を得ることが難しくなることは一緒ですね。
もしLLMへの指示が抽象的なら、どのように回答を作成するのかを丁寧に指示してあげてくださいね。
こんな人におすすめ
一言でいうとどんなテクニック?
AI自身が「どうすれば最適な回答ができるか」を考えて行動する自律型の手法
主な特徴
【ここがポイント】
これまでのLLMは、決められた手順しか実行できない「指示待ち君」でした。
しかし、自律型のLLMが登場したことで、質問に対してどのように回答するかを自分で考えて行動できるようになりました。
Agentic RAGは、そうした自律型のLLMを利用し、まるで人間のように試行錯誤してくれる自律型アシスタントです。
曖昧な質問に対しても、逆質問をしたり、多角的に調査したりしてくれるため、回答の質が変わったことを実感できました。
また、Agentic RAGに質問を繰り返すたびに、質問者自身も本当に知りたいことがわかるので、ユーザーの満足度向上に繋がっていると思います。
こんな人におすすめ
一言でいうとどんなテクニック?
RAGの性能を「数値」で測定し、改善の道筋を可視化する手法
主な特徴
【ここがポイント】
ここまでに解説したテクニックでは、「なんとなく良くなった」という感覚的な改善を感じられました。
ただ、どの程度改善したかを数値化できない点にモヤっとした感覚もあったんです。
評価フレームを取り入れたことで、測定できないものを効率的に改善するのは難しいことを痛感しました。
評価フレームを取り入れたことにより、どの施策がどれだけ精度向上に貢献したかが一目瞭然になり、PDCAサイクルをスムーズに回せるようになりました。
こんな人におすすめ
RAGの精度改善テクニックは、構造を理解して、基礎から改善することが重要です。
どれだけ高性能なモデルを導入しても、参照元になるデータがわかりにくければ、精度の改善は限定的です。
一方で現状のままでも、参照元データをクレンジングし、構造化データにするといった基本的な改善だけで検索精度が改善すれば、回答の精度を向上させることができます。
データクレンジングだけで精度を担保できれば、それ以上のコストをかける必要がなくなります。
そのため、RAGの構造を理解した上で、順々に改善を図ることが重要です。
また、各プロセスで改善テクニックを取り入れる際は、一般的に複数を組み合わせることで効果を感じやすくなります。
RAGの構造をもとに改善を図った後で、予算に余裕があるときは、9番目にご紹介したAgentic RAGのような次世代のテクニックを取り入れることがおすすめです。
単なる情報検索の域を超え、真の業務パートナーになるはずです。
Yoomは、さまざまなSaaSツールと連携することで、業務を自動化できるサービスです。
例えば、チャットツールとChatGPTなどのAIツールをYoomで連携すると、チャンネルに来た質問に対する回答を自動で作成して返答できます。
あらかじめ参照元となるデータを提供しておけば、簡単な質問に対して疑似的なRAGを作成することが可能です!
[Yoomとは]
RAGを「使えないAI」から「頼れる業務パートナー」へ変えるには、回答精度の向上が重要です。
この記事では、【データ品質】【利用するLLMや検索技術】【継続的改善や新技術の導入】の観点から、具体的な10の改善テクニックを紹介しました。
改善を行うときは、まずデータクレンジングやチャンク分割といったデータ品質の向上から始めてみてください。
次に、ハイブリッド検索やリランキング、埋め込みモデルの最適化で回答の安定性を確保できたら、Agentic RAGなどの新しい技術を取り入れます。
最後は、地味ですが継続的な改善サイクルを回します。
このステップが、回答の精度をアップし、使えるRAGの維持に繋がることを忘れないでくださいね。