小さく始めるRAG:社内資料検索を“まず動かす”手順
社内資料検索(RAG)をゼロから始める人向けに、最小構成で動かす手順を整理。ベクトル・埋め込み・検索精度の考え方、つまずき回避までまとめました。

小さく始めるRAG:社内資料検索を“まず動かす”手順

社内資料が増えるほど、「探す時間」が静かに膨らみます。

フォルダは整理してあるのに、なぜか見つからない。あるあるです。

解決の方向は、検索で当てて、回答で整える。RAGはこの役割分担が得意です。

持ち帰れるもの

  • RAGを最小構成で動かす手順(Step1〜6)
  • 精度を上げる調整ポイント(3つ)
  • 権限・安全面で詰まりやすい所の回避策

結論:RAGは「社内検索+要約」の強化版

RAG(Retrieval-Augmented Generation)は、ざっくり言うと「検索で当てた資料を材料にして、回答を作る」仕組みです。

やりたいこと 普通の検索 RAG
欲しい資料に辿り着く できる(キーワード次第) できる(似た表現にも強い)
要点だけ読みたい 自分で読む 要点を整えて返す
「この条件ならどれ?」 比較が大変 条件に沿って整理しやすい
根拠が欲しい 引用箇所を探す 引用候補を一緒に出せる

イメージ

図書館で本を探す(検索)→必要なページに付せんを貼る(抽出)→付せん部分だけを並べて説明する(回答)。この流れを仕組みにしたのがRAGです。

RAGが向く場面/向かない場面

向く 理由
資料が散らばっている 検索で拾ってまとめられる 規程・手順書・議事録・提案書
似た質問が繰り返される 回答の型が作れる 「申請の条件」「例外の扱い」
「根拠付き」で答えたい 引用元を添えやすい 「どこに書いてある?」

向かない(もしくは工夫が必要)

  • 資料がほぼ無い、または最新がチャットの口頭だけ
  • 権限が複雑で、閲覧制御ができない状態
  • 「正解が常に変わる」運用(更新フロー未整備)

最小構成:まず動かすための部品

最初から全部盛りにすると、止まりやすいです。最小構成はこの4つだけ。

部品 役割 ひとことで
資料(テキスト化) 検索の対象 PDFやドキュメントを文字にする
分割(チャンク) 検索しやすくする 長文を小さく切る
埋め込み(ベクトル化) 「意味で検索」する 近い内容を近くに置く
検索+回答 拾って整える 根拠を材料に回答を作る

最初のゴール

「3つの質問に、根拠つきで答えられる」まででOKです。最初から全社対応を狙うと、権限とデータ整備で止まりがちです。

手順:Step1〜6(小さく始める)

Step やること 成功の目安
1 範囲を決める(資料20〜50本) 「この箱だけ」って言える
2 質問を集める(10個) 同じ質問が混ざってる
3 資料をテキスト化して整える 見出し・段落が残る
4 分割(チャンク)を作る 1チャンクが長すぎない
5 埋め込み→検索(上位5件) 関係ある資料が混ざる
6 回答を作る(引用つき) 根拠と結論がセットで出る

Step2の10質問が大事

精度は「質問」で決まります。質問が集まると、評価もしやすくなります。

よくある失敗(最初に避けたい)

  • 資料を全部入れようとして、前処理で止まる
  • 質問が無いまま作って、精度の判断ができない
  • 引用なしの回答にして、社内で信用されない

精度が上がる3つの打ち手

打ち手 効く理由 やること
① チャンクの切り方を調整 根拠が“まとまり”で拾える 見出し単位で切る/短すぎを避ける
② 検索結果の本数を増減 材料不足/ノイズ過多を調整できる 上位3→5→8で比較
③ 「不明」を言える回答ルール ハルシネーションが減る 根拠が弱いときは追加質問にする

精度が伸びる順番

チャンク → 検索本数 → 回答ルール。先にこの順で触ると、改善が分かりやすいです。

安全と権限:社内で止まりやすいポイント

ポイント なぜ止まる? 先に決めること
閲覧権限 検索で見えてはいけない資料が混ざる 対象範囲を部門・共有フォルダに限定
更新 古い資料が残り続ける 更新日・版の管理ルール
機密 入力/出力に社外秘が混ざる 匿名化・対象外カテゴリの定義

安全側の着地

最初は「公開範囲が明確な資料」だけで作ると、合意が取りやすいです。完成してから広げる方がスムーズです。

コピペOK:RAG用プロンプト(回答/引用/不明時)

回答プロンプト(根拠つき)

あなたは社内ドキュメントの案内役です。次の「参照テキスト」だけを根拠に回答してください。

条件:根拠が足りない場合は推測しないで「不明」とし、追加で確認すべき質問を3つまで出してください。

出力:①結論(短く)②根拠(引用を2つまで)③次アクション(確認/手順)

質問:[ここに質問]

参照テキスト:[検索で拾ったチャンクを貼る]

引用の出し方(短く)

参照テキストから、質問に直接関係する一文を最大2つ抜き出してください。抜き出した後、その一文を根拠にして結論を1〜2行で書いてください。

不明時の返し(安全版)

参照テキストだけでは確定できない場合は、結論を出さずに「不明」と書いてください。

その代わり、確認すべき資料の種類(例:規程/手順書/FAQ)と、確認質問を3つ出してください。

質問と回答

質問:社内検索があるのに、RAGは必要?

回答:検索は「見つける」、RAGは「見つけた後に整える」が得意です。資料を読む時間が重い職場ほど相性が良いです。

質問:最初から全社の資料を入れた方が良い?

回答:最初は範囲を切る方が現実的です。権限と更新が整ってから広げる方が、社内での信用が早く積み上がります。

質問:精度が低い時、どこを触ればいい?

回答:チャンクの切り方→検索本数→回答ルールの順で触るのが分かりやすいです。先に「質問10個」で評価軸を作ると改善が見えます。

まとめ

  • RAGは「検索で当てて、回答で整える」仕組み
  • 最初は資料20〜50本+質問10個で小さく始める
  • 精度はチャンク→検索本数→回答ルールの順で上げる
  • 権限と更新ルールを先に決めると止まりにくい

記事一覧へ

次の記事へ