Dibell

「便利になった」では予算は取れない——生成AIのROIと成果の測り方

導入から数ヶ月後の経営会議。「現場からは便利になったという声が多く聞かれます」と報告すると、返ってくるのはたいてい一言です。「で、いくら効いたの?」

別の部門はこう報告します。「対象業務の検索は1回平均10分が4分になり、年換算で約780時間を生み出しました。根拠の提示率は94%、機密の事故はゼロ。あらかじめ決めた基準を超えたので、来期は隣の領域へ広げる提案です」。どちらに予算が付くかは、聞くまでもありません。両者の差は努力でも成果でもなく、測る設計を最初に入れたかどうかだけです。今回は、その仕組みの作り方です。

測定を「最初から」組み込む3つの理由

測定を「報告のための事務」と思っている限り、測定は始まりません。最初から組み込むべき理由は3つあります。

第一に、出発点の数字は後からでは取れない。「検索が60%速くなった」と言うには、導入する前の検索時間が記録されている必要があります。走り出した後で「前はどれくらい?」と尋ねても、返るのは美化された記憶です。だから以前に紹介した「ペインの見積もり(どれだけの頻度で・何分・間違えると何が起きるか)」を、初戦選びと導入前の計測の両用として先に取っておきます。その数字が、半年後に語るすべての効果の土台になります。

第二に、測定は品質を守る装置でもある。評価用の問題集を毎月回していれば、精度の落ち込みは「なんとなく」より先に数字として見えます。測らない運用は、計器を見ない飛行に近い。

第三に、測定は約束の通貨である。

測れない計画は、成功しても証明できず、失敗しても学べない。 『生成AIの内製化』第8章

成果が出ない多くの組織は、失敗したのではなく、成否を判定できない形で走り始めただけです。測定とは、未来の自分たちに「判定の権利」を残す行為。その権利を放棄した計画に、経営が次の予算を渡す理由はありません。

なお「測定にもコストがかかる」という反論には、設計で答えます。ベースラインは診断の副産物、正答率・根拠提示率は品質管理の副産物、要レビュー率はHuman-in-the-Loop記録の副産物、利用率は監査ログの副産物——専用作業として新たに発生するのは、タイムスタディ数十サンプルと月次集計(自動化可)だけ。測定が重い組織は、たいてい測定を最後に後付けしています。

KPIは「効率」と「品質」の2軸で組む

KPIは2系統で組みます。効率・財務系(時間とカネで経営に語る)と、品質・定着系(仕組みが健全に使われているか)。前者だけだと品質の崩れに気づけず、後者だけだと経営に語れません。

  • 効率:検索時間短縮率(前後比較)、年間創出工数(短縮時間×件数×人数×12、金額は×単価)、外部委託・問い合わせ削減。
  • 品質:正答率(評価セットの月次採点)、根拠提示率(出典が付いた割合)、未回答率(「該当なし」と正しく言えた割合)、要レビュー率(人間が修正・破棄した割合)。
  • 定着・統制:月次アクティブ利用率(配布数でなくログの実利用)、満足度、シャドーAIインシデント0件

3つだけ注意があります。①利用率はアカウント発行数で測らない(配布は実績ではない)。②根拠提示率と未回答率は規制産業の生命線——正答率が高くても根拠を示せない回答は業務フローに乗りません。③KPIは三層で読む——最下層「システムの健全性」(正答率・根拠提示率)、中間層「業務の変化」(短縮率・利用率)、最上層「経営の言葉」(年間創出工数・金額)。下が崩れて上だけ良い数字は続きません。

初戦の3ヶ月は欲張らず、5指標——検索時間の短縮・利用率・正答率・根拠提示率・機密事故ゼロ——に絞ります。重くて止まるより、軽くて続くほうがずっと良い。

換算の作法も一つだけ。使いやすくなると件数は増えるので、件数を揃えて比較します。「月100時間が43時間になった」と単純に引くのでなく、「同じ件数を旧方式なら108時間・新方式なら43時間、差し引き月65時間の創出」と数える。分母と分子を揃える——これが甘い資料は驚くほど多いのです。

ベンチマークの正しい使い方——憧れと目標を分ける

他社の数字は強力ですが、使い方を誤ると自分の首を絞めます。公開事例には、社内規格の確認が「1回5分→1分(80%短縮)」、報告書素案が「80時間→20時間」、全社規模で「年間数十万時間の削減」といった値があります。これらを引くときの規律は4つ。

  1. 目標と実績を区別する——「年間70〜80万時間」のような目標値と、公表された実績値を混ぜて引用した資料は、見る人が見れば一発で信用を失います。
  2. 体制の差を割り引く——高い短縮率の多くは大企業の専任体制の成果。だから初期目標は保守的に50〜70%短縮に置きます。
  3. 測定方法の差を意識する——自己申告かログかタイムスタディかで、数字の意味は変わります。
  4. 憧れと目標を切り分ける——他社事例の正しい使い道は、目標を決めることではなく「この道の先に、ここまで到達した会社が現に在る」と示す実現可能性の裏づけです。目標は自社の出発点から積み上げる。他社の頂上をそのまま初年度の目標に据えた計画は、届かずに信頼を失うか、数字の取り方を歪めて達成を装うか、のどちらかに陥ります。

規制産業に固有の「誤りコスト削減」は、防げた事故が観測できないという厄介さがあるので、ニアミス件数(旧版を検索から弾いた回数など)と過去実績との対比で代理測定します。金額化は無理にしない——件数と実例のほうが経営に刺さります。

経営への提示——数値の規律が予算を呼ぶ

最後は、集めた数字を経営に届ける技術です。経営の関心は技術の精度そのものではなく、突き詰めれば3点です——①約束は守れたのか、②リスクは抑えられているのか、③次に投資する価値はあるのか。

数値規律は3つ。すべての数字に出典と基準日を付す/予測と実測を峻別する(調査会社の「精度が最大◯%向上」はアナリストの予測。自社の実測と並べない)/他社数値は前提条件付きで引く。一見地味になりますが、その地味さこそ「この部門の数字は信用できる」という、審査での最強の資産です。誇張は一度しか使えませんが、信用は複利で効きます。

提示は5部構成で。①ベースライン(導入前)②実績(ダッシュボード)③差分の意味(年間換算・金額概算+但し書き、品質・統制の健全性)④学び(CAUTIONだった項目と打ち手を隠さない)⑤次の投資(横展開かコーパス移行か・必要額・何を測って何ヶ月後に再判断するか)。とくに④は格を決めます。「利用率が未達」とだけ書けば言い訳ですが、「利用率は全体で3割ほどだが、部門差が激しい。よく使う部門は6割を超える一方、ある部門は1割に届かない。後者は文書側のAI-Ready度が低かったのが要因で、来期は『整備を先に行う領域』として組み直す」と書けば、それは失敗の弁明ではなく、診断力の証明になります。

そして数字に一つだけ物語を添える——現場の一言と、できれば実演を。人は数字で納得し、目撃で動きます。数字ばかりの資料は退屈で、物語ばかりの資料は怪しい。その両方が揃った提案は、そうそう負けません。

まとめ——事実・整理・使い方

  1. 【事実】 測定可能な効果を示せない組織が約9割。最大ROIはバックオフィス自動化から生じるという調査(MIT NANDA 2025)もある。公開事例の短縮率(1回5分→1分等)は実在する。
  2. 【本記事の整理】 KPIは効率×品質の2軸+三層構造、ベンチマークは到達可能性の証明として使う、提示は数値規律×5部構成——という型に落とす。閾値・レンジの置き方は本記事側の整理です。
  3. 【使い方】 ベースラインは最初に取る/利用率はログで/予測と実測を分ける/学びを隠さない。初戦は5指標に絞る。

「で、いくら効いたの?」に即答できる数字を、最初の設計で仕込んでおく。それが、生成AI内製化を「便利でした」で終わらせず、次の投資につなげる分かれ目です。

まずは、お話を聞かせてください

AIエージェント設計、業務の自動化、AIプロダクト開発を中心に、DX全般を伴走支援します。何から始めればいいか分からない、その段階からお気軽にご相談ください。