前回は、社内文書を「AIが参照できる土台=意味の層」に変える7つの工程を見ました。あれはすでにある文書を整える話でした。けれど文書は毎日新しく生まれます。生まれた瞬間の文書が、はじめからAIの読みやすい形になっていれば、後でまとめて整え直すという最も高くつく作業は二度と発生しません。
今回は、そのための**現場の運用ルール「AIに優しいデータ」**です。難しい技術ではなく、文書作成の小さな習慣の話です。そして本シリーズの主張からすると、この習慣こそが内製化の実体でもあります。
なぜ「作り方」でAIの精度が変わるのか
生成AIが社内文書を読むとき、つまずく原因の多くは、モデルではなく文書の作り方にあります。人間の目には問題なく見える表やPDFが、機械にとっては「読めない」「意味が壊れている」ことがよくあるのです。
代表的な「あるある」を挙げます。
- Excelのセル結合——人には見やすくても、結合セルは「行と列の対応」を壊します。AIはどの値がどの項目のものか分からなくなり、表を読み違えます。
- スキャン画像だけのPDF——テキスト層のない画像PDFは、検索にも抽出にも乗りません。そのまま正本にすると、その文書は意味の層から丸ごと脱落します。
- 擬似表——スペースや改行で見た目だけ整えた「表のようなもの」は、構造が復元できず、パラメータと条件の対応を誤らせます。
- 旧版の放置——古い版が検索結果に混ざると、AIは旧い基準を堂々と答えます。前回触れたとおり、これは「答えないAI」より危険です。
いずれも、人間同士なら文脈で補えるズレです。しかしAIは補えないまま、もっともらしく間違えます。
文書が生まれる瞬間に効く10のルール
これらを防ぐのは、難しいことではありません。文書を作る・保存するときの10のルールに集約できます。
- Excelのセル結合を使わない(行列の対応を壊さない)
- スキャン画像だけのPDFを正本にしない(テキスト層を必須に)
- ファイル名に「文書種別・対象・日付(YYYYMMDD)・版数」を入れる(名前が属性の一次情報源になる)
- 1ファイル1主題にする(議事録に仕様変更を埋め込まない)
- 見出しスタイル(章・節)で構造化する(見出しが分割の自然な境界になる)
- 表は表として作る(画像貼り付け・擬似表を避ける)
- 改訂時は旧版に「旧版」マークを付け、正本の置き場から外す(旧基準の混入を防ぐ)
- 保存先は正本の置き場のみ(個人フォルダ・メール添付を正本にしない)
- 機密区分を文書に明記する(区分がアクセス制御の入力になる)
- 文書オーナー(更新責任者)を明記する(鮮度確認・改訂・評価更新の宛先が定まる)
特別なシステムは要りません。多くは「いつもの作り方を少し変える」だけです。
定着させる3つの作法
ルールは、配っただけでは根づきません。定着には作法があります。
第一に、新規文書から適用する。過去文書の遡及は、前回触れた「最初に選んだ1領域」に限定し、全社一斉の「過去文書大掃除」は計画しません(必ず挫折します)。
第二に、ルールの理由を因果で伝える。たとえば「セル結合をやめて」は見た目の話ではなく、「結合があるとAIが表を取り違え、結果あなたの部署への回答がずれる」という因果で伝えます。理由が腹落ちしないルールは守られません。
第三に、遵守を測り、精度と並べて見せる。新規文書のルール遵守率を月次でサンプリングし、AIの正答率と同じ画面に並べます。「ルールが守られた月ほど正答率が上がる」と数字で見えること以上に、現場が自分から規律を回したくなる材料はありません。反対に、遵守率は高いのに正答率が伸びないなら、犯人はルールではなく土台の設計だ——という見極めも、この2本の数字から始まります。
まとめ——事実・整理・使い方
- 【事実/技術的背景】 セル結合・画像PDF・擬似表・旧版混在は、いずれもAIの読み取りや検索を壊す既知の要因。
- 【本記事の整理】 それを「文書が生まれる瞬間に効く10ルール」と「定着の3作法」に落とす。ルールの選び方・優先順位は本記事側の実務的な整理です。
- 【使い方】 新規から適用・理由を因果で伝える・遵守率と正答率を並べて測る。過去文書の一斉大掃除はやらない。
モデルは買えます。ツールも買えます。
モデルは買えるが、この規律は買えない。ここが内製化の本丸である。 『生成AIの内製化』第4章
文書ができた瞬間から、社内の知識がAIの読める形に整っていく——その習慣こそ、外からは調達できない内製化の核心です。