Dibell

生成AIの成否はモデルでなくデータで決まる——「意味の層」を建てる7工程

Articles are currently available in Japanese only.

生成AIプロジェクトの成否を分けるのは、どのモデルを選ぶかではありません。データ整備です。前回までで、約9割が成果に至らない構造、自社の現在地、社内データの棚卸しを見てきました。今回はいよいよ、AIが参照する土台——本シリーズで言う「意味の層」——を実際に建てる工程です。

最初に土台が精度を決めることを、一つの事実で確かめます。あるエンタメ企業は、社内文書を検索して回答に接地させる仕組み(RAG)と前処理の改善で、誤答率を約25%から2%以下に下げたと公表しています。ここで変わったのはボットの画面(UI)ではなく、正本の収集・索引化・検索という土台の側でした。

ただし誠実に線を引きます。この事例の基盤は本シリーズが主に扱う環境とは別ですし、これを「意味の層の構築事例」と読むのは本記事側の解釈で、その企業が「意味の層」という枠組みで説明しているわけではありません。さらに——規制産業の仕様書を対象に、こうした土台づくりの効果を数値で示した成功事例は、現時点の公開情報では見当たりません。だからこそ、後述の工程7(測定)を内蔵して進みます。

道具の制約を先に知る——「容量は大きいのにファイルは10個」

工程に入る前に、道具の制約を一つ直視します。多くのカスタムAIアシスタント(社内ボット)には、読み込ませる知識ファイルの個数上限(広く知られる目安で最大10ファイル程度・時点により要確認)があります。「一度に扱えるテキスト量は大きいのに、ファイルは10個まで」という矛盾に、製造業や法務の現場は必ずぶつかります。一つの業務の規程が、数ページ単位の数十個のPDFに分かれて保存されているのが普通だからです。

回避策は、小さな文書を意味のまとまりで結合することです。そしてこの制約は、むしろ教育的でもあります。10個に収めるには、正本を選び、結合の単位を考え、目次を整理せざるを得ない——それはこれから述べる工程の縮小版だからです。制約の数値は変わっても、「AIが読みやすい形に整える規律」は残ります。

意味の層を建てる7工程

公式ドキュメントや研究で共通して挙げられる定石をまとめると、意味の層づくりは次の7つの工程になります。

  1. 正本(SSoT)の一元化——散在する文書から「これが正」を一意に定め、参照先を一本化する。最大のつまずきは、どの版を正とするかを決める権限の不在。これは技術判断でなく業務判断で、現場の合意なしにIT部門が決めると形骸化します。
  2. メタデータスキーマの設計——「これは何の文書か」を機械可読な属性にして、検索の前段で絞り込めるようにする。必須は6属性(文書種別・対象・所管・作成日・有効期限・版数)程度から小さく始め、測定結果が要求したときだけ増やす。
  3. タクソノミー(分類体系)の設計——組織自身の語彙で「棚」を作る。現場が「過去トラ」と呼ぶものの正式名が分かる用語対応表を併せて作るのが肝。完璧な分類より「8割が迷わず置ける」粗さで出発します。
  4. セマンティックタグ付け——スキーマと分類を文書群に一貫して付与する。自動抽出で下処理し人手で検収。ただし機密区分タグだけは自動化に頼らず、オーナーの明示判断を必須に(これが後のアクセス制御の入力になります)。
  5. チャンク戦略——文書を検索単位に分割する際、意味のまとまりを壊さない。原則は「1チャンク=1トピック」。とくに表と条項を途中で切らないこと。表が割れると行と列の対応が失われ、もっともらしい誤答の温床になります。
  6. 旧版の自動排除(Tombstone)——改訂で効力を失った旧版を、検索対象から機械的に外す。

ここが規制業界で決定的に重要なので、書籍の一節を引きます。

古い基準を自信を持って答えるAIは、答えないAIより危険である 『生成AIの内製化』第4章

  1. 評価セット(Ground Truth)運用——「なんとなく良くなった」を「測定された品質」に変える。質問・参照箇所・模範解答の3点セットをまず20〜50問用意し、定期的に正答率と根拠提示率を測る。誤答は原因別(正本・タグ・チャンク・プロンプト)に分類し、該当工程へ差し戻す。

工程は番号順に着手しますが、一度きりの直線ではありません。運用が始まれば、7(測定)の結果が2〜6(設計)の見直しに戻る循環になります。

規制業界の勘所——「旧版排除」が第一の砦

規制の厳しい申請業務では、わずかな書類の矛盾が数ヶ月の手戻りや高額な損失に直結します。そんな業務で、AIが改正前の解釈や旧い社内規格を答えに紛れ込ませたら、それは「検索が不便」では済まず、申請の欠陥そのものになります。

だから本記事は安全を二段構えで設計します。第一の砦は意味の層に——そもそも旧版が検索結果に現れないTombstone運用(工程6)。最後の砦は業務フローに——人間が原文を最終確認する仕組み(次回以降のテーマ)。よくある失敗は「最新版フォルダ」への回帰です。フォルダの移し替えという人手運用は繁忙期に必ず破綻するので、版の状態は**場所でなく属性(メタデータ)**で表し、除外を検索側で自動化します。場所は人が間違えますが、属性に基づく機械的な除外は間違えません。

なお評価セット(工程7)の基準づくりは外注してはいけない内製領域です。「この問いには、この条項を根拠に答えるのが正解」という線引きは業務知識の塊で、外部ベンダーには肩代わりできません。実行基盤(採点の自動化)は外の手を借りてよい、という区別です。

まとめ——事実・解釈・使い方

  1. 【事実】 精度はUIでなく土台で決まる(誤答率25%→2%以下の企業事例)。一方、規制産業の仕様書での同種の定量事例は現時点で確認できない。
  2. 【本記事の解釈・整理】 土台=「意味の層」を、7工程(正本→メタデータ→分類→タグ→チャンク→旧版排除→評価)の循環として建てる。事例を「意味の層の構築」と読むのは本記事側の解釈、と明示。
  3. 【使い方】 全社一斉でなく1領域で7工程を一巡して型を作り、横展開。規制業界では旧版排除を第一の砦に、評価基準は内製で持つ。

モデルは買えます。ツールも買えます。しかし、文書ができたその瞬間から、社内の知識がAIの読める形に整っていく習慣は買えません。次回は、その習慣を現場で回す「AIに優しいデータ」の運用ルールを扱います。

Let's start with a conversation

We support you across DX — centered on AI agent design, workflow automation, and AI product development. Not sure where to begin? That's the perfect time to reach out.