測ることは、考えることの代わりにならない

「測定できなければ改善できない」という考え方は、現代社会に深く入り込んでいる。歩数、睡眠時間、体重、血圧、学力テスト、偏差値、売上、KPI、PV、論文引用数、GDP、信用スコア、AI の評価指標。生活、仕事、研究、政策、健康、教育は、さまざまな数字を通じて理解され、比較され、管理されている。数字は便利である。変化を記録できる。過去と現在を比べられる。複数の対象を同じ尺度に並べられる。目標を立てられる。問題が起きている場所を見つけやすくなる。

この便利さは、単なる錯覚ではない。体温を測れば発熱に気づける。血圧を測れば循環器系のリスクを早く見つけられる。売上を見れば事業の変化を把握できる。PV を見れば、どの記事が多く読まれたかを知ることができる。学力テストは、少なくとも特定の問題に対する正答状況を示す。研究論文の引用数は、その論文がどれだけ他の研究から参照されたかを示す。数字は、現実の一部を見える形にする。

しかし、ここで一つのずれが生じる。数字は現実の一部を見えるようにするが、現実全体を示すわけではない。体温は体調のすべてではない。血圧は健康のすべてではない。売上は事業価値のすべてではない。PV は文章の価値そのものではない。テストの点数は学びの全体ではない。引用数は研究の意味そのものではない。数字は対象を理解するための入口になるが、対象そのものではない。

MIT Technology Review Japan の記事「測るほどに見えなくなる——『数値化』で失うもの」は、この問題を自己数値化の経験から論じている。歩数や睡眠スコアのような数値は、自分の状態を理解する助けになるはずだった。ところが、測定が続くうちに、自己理解が深まるのではなく、目標に届かなかったという否定的感情や、外部指標への依存が強まることがあると指摘されている[1]。ここで起きているのは、単に「数字を見ると疲れる」という心理的な問題ではない。自分の状態を理解するための指標が、いつのまにか自分を評価する基準になり、さらに自分が従うべき目標へ変わってしまうという転倒である。

この転倒は、歩数や睡眠スコアに限らない。組織を評価する KPI、研究を測る引用数、社会を測る統計、教育を測る偏差値、AI を評価するベンチマークにも同じ構造がある。最初は、複雑な対象を理解するために数字を使う。次に、その数字で対象を比較する。やがて、その数字を上げることが目的になる。最後には、数字に表れない価値が見えなくなる。問題は、数字があることではない。数字が、判断材料の位置から、価値そのものの位置へ移動することである。

本稿の中心命題は明確である。指標は、複雑な現実を扱うために必要な代理表現である。ここでいう代理表現とは、対象そのものの代わりに用いられる表現のことである。地図は土地そのものではないが、土地を移動する助けになる。体温は身体そのものではないが、体調を判断する材料になる。KPI は仕事そのものではないが、業務の一部を確認する手がかりになる。指標もこれと同じである。

したがって、指標を使うこと自体は誤りではない。指標を捨てればよいわけでもない。問題は、代理表現を現実そのものと取り違えることである。指標を判断材料として使うことは有効である。しかし、指標を価値そのものとみなし、数字を上げることを目的にしたとき、人間の判断、制度の運用、AI による最適化は、同じ種類の誤りへ向かう。本稿では、この誤りがどのように生じるのかを、個人の自己管理、組織の評価、制度の設計、AI の最適化へ順に広げて確認する。


1. 人間は、複雑な世界をそのまま扱うことはできない

最初に確認すべきなのは、指標そのものを悪者にしても何も分からないという点である。人間は、複雑な世界をそのまま把握することができない。街そのものを頭の中に完全に入れることはできないので、地図を見る。身体の状態を直接すべて知ることはできないので、体温、血圧、血液検査の結果を見る。学習の過程を丸ごと比較することはできないので、テスト結果を見る。経済活動全体をそのまま観察することはできないので、統計を見る。これらはすべて、対象そのものではなく、対象を理解するために切り出された表現である。

この切り出しは、人間の認知にとって不可欠である。現実は、多くの要素が同時に動く。身体であれば、体温、血圧、睡眠、疲労、食事、運動、気分、病歴、生活環境が関係する。仕事であれば、作業量、難易度、判断の質、納期、顧客との関係、保守性、チームへの影響が関係する。研究であれば、論文数、引用数、問いの独自性、方法の妥当性、長期的な影響、教育への波及が関係する。これらを毎回そのまま扱おうとすれば、比較も記録も判断も難しくなる。

そこで人間は、複雑な対象の一部を選び、扱いやすい形に変える。これが指標である。指標は、現実の一部を抽出し、比較可能な形にしたものである。歩数は歩いた量を数える。睡眠時間は眠っていた長さを記録する。テストの点数は、特定の問題に対する正答状況を示す。売上は、一定期間に成立した取引の金額を集計する。引用数は、ある論文が他の文献で参照された回数を数える。どれも、対象の全体ではなく、対象の一側面を取り出している。

自己数値化、いわゆる Quantified Self も、この流れの中にある。これは、自己を経験や感覚だけで捉えるのではなく、歩数、睡眠、心拍、摂取カロリー、作業時間などのデータから理解しようとする試みである。自己追跡の社会学を論じた Deborah Lupton は、自己数値化を、個人が身体や生活をデータとして記録し、解釈し、管理しようとする実践として整理している[2]。この実践は、身体や生活を雑に扱うものではない。むしろ、感覚だけでは見落としやすい変化を見えるようにする点では有効である。

たとえば、本人は「最近あまり歩いていない気がする」と感じていても、実際の歩数を見れば、週のどこで活動量が落ちているかが分かる。眠れていないと思っていても、睡眠記録を見れば、就寝時刻が遅いのか、中途覚醒が多いのか、睡眠時間そのものが短いのかを分けて考えられる。仕事が忙しいと感じていても、作業時間や割り込み回数を記録すれば、単に作業量が多いのか、集中を妨げる要因が多いのかを切り分けられる。数字は、曖昧な感覚を検証する材料になる。

しかし、ここで注意しなければならない。記録されたデータは、生活そのものではない。Gary Wolf が「The Data-Driven Life」で示した自己計測の構想は、生活をデータとして記録することで、経験だけでは見えにくい自己の傾向を知ろうとするものだった[3]。この構想の意義は、主観を否定することではなく、主観だけでは気づきにくい反復や変化を見えるようにする点にある。だが、見えるようになったものは、あくまで記録可能な一部である。

歩数は、歩いた回数や移動量を示す。しかし、なぜ歩いたのか、歩いているときに何を考えていたのか、身体に痛みがあったのか、気分が軽くなったのか、無理をしていたのかまでは示さない。睡眠時間は、眠っていた長さを示す。しかし、翌朝に回復感があったのか、不安で浅く眠っていたのか、生活上の事情で眠れなかったのかまでは十分に表さない。仕事の件数は、処理した量を示す。しかし、その仕事が簡単だったのか、複雑な判断を伴ったのか、将来の保守性を高めたのか、むしろ後で問題を生む処理だったのかまでは示さない。

対象 指標が見えるもの 指標だけでは見えにくいもの
歩行 歩数や移動距離を比較できる。 疲労、痛み、目的、気分、歩いた環境は十分に表れない。
睡眠 時間や中途覚醒の傾向を記録できる。 主観的な回復感、生活上の不安、翌日の文脈は残りにくい。
仕事 件数、時間、売上、処理量を集計できる。 判断の難しさ、将来の保守性、説明責任、チームへの影響は落ちやすい。
研究 論文数や引用数を数えられる。 問いの独自性、長期的意義、誤用の有無、教育への波及は見えにくい。

この表が示すのは、指標が無意味だということではない。指標には射程があるということである。射程とは、その指標がどこまでを見ているかという範囲である。歩数は活動量の一部を見る。睡眠時間は休息の一部を見る。売上は事業活動の一部を見る。引用数は研究が参照された量を見る。どれも有用である。しかし、どれも対象全体を代表するわけではない。

この点を誤ると、指標はすぐに過大評価される。数字があると、そこには客観性があるように見える。比較表に並べられると、対象同士を公平に比べているように見える。グラフになると、変化の意味まで分かったように見える。しかし、数字が客観的に記録されていることと、その数字をどう解釈すべきかは別の問題である。指標は対象の一部を安定して示すことができるが、その一部が全体にとってどのような意味を持つかは、別途判断しなければならない。

既稿「見た目でどこまで判断してよいのか」では、見た目を情報として扱いつつ、それを結論にしてはならないと整理した[4]。これは指標にもそのまま当てはまる。見た目は判断材料になるが、対象の本質そのものではない。同じように、数字は判断材料になるが、価値そのものではない。重要なのは、指標を使うことではなく、指標が何を見ていて、何を見ていないのかを意識することである。

この章で確認したいのは、指標は必要であるが、指標は現実そのものではないということである。人間は複雑な世界を扱うために、対象を切り出し、記録し、比較可能な形にする。その作業なしに、健康管理も、教育評価も、事業運営も、研究評価も、政策判断も成り立たない。しかし、切り出されたものは、切り出されなかったものを同時に失っている。次に問うべきなのは、指標が何を保存し、何を捨てるのかである。


2. 指標は現実の一部を保存し、一部を捨てる

前章では、指標が複雑な対象を扱うための入口であり、同時に対象全体ではないことを確認した。ここでさらに問うべきなのは、指標が何を残し、何を落とすのかである。歩数、睡眠時間、テストの点数、GDP は、それぞれ活動量、睡眠の長さ、正答状況、経済活動の一部を見える形にする。しかし、それらは歩いた目的、気分、回復感、学びの背景、無償労働、地域差、生活実感までは十分に残さない。

つまり、指標とは、現実の一部を保存し、別の一部を捨てる仕組みである。これは欠陥ではなく、指標の本質である。地図は土地のすべてを描かない。路線図は実際の地形や距離を正確に再現しない。成績表は学習者のすべてを記録しない。GDP は社会生活の全体を表さない。どの表現も、目的に合わせて現実を圧縮している。圧縮するから役に立つ。だが、圧縮するから失われるものもある。

ここで重要なのは、失われたものが重要でないとは限らないという点である。地図に描かれていない道端の雰囲気が、実際の移動では重要になることがある。成績表に表れない粘り強さが、長期的な学習では重要になることがある。売上に表れない信頼関係が、事業の継続性を支えることがある。指標から落ちたものは、存在しないのではない。指標の形式では残らなかっただけである。

C. Thi Nguyen は「Value Capture」において、複雑で微妙な価値が、測定しやすい外部指標へ置き換えられる危険を論じている[5]。この議論で重要なのは、価値が完全に消えるわけではない点である。むしろ、価値の一部だけが指標として残る。そして、その一部が価値全体を代表するかのように振る舞い始める。健康の一部である歩数が、健康そのもののように扱われる。研究の一部である引用数が、研究価値そのもののように扱われる。教育の一部である点数が、学びそのもののように扱われる。

たとえば、健康は血圧、血糖値、体重、睡眠時間、運動量と無関係ではない。これらは健康を考えるうえで重要な材料である。数値を無視すれば、病気の兆候を見落とすことがある。生活習慣の変化にも気づきにくくなる。したがって、健康を考えるときに数値を使うことは有効である。

だが、健康はそれらの数値の合計ではない。体調、生活環境、病歴、年齢、仕事、家族、本人が何を無理なく続けられるかも関係する。同じ歩数でも、余裕を持って歩いた場合と、体調不良を押して無理に歩いた場合では意味が違う。同じ睡眠時間でも、安心して眠れた場合と、不安の中で浅く眠った場合では意味が違う。数値化できる部分があることと、価値全体を数値へ還元できることは同じではない。

価値 指標化されやすい要素 失われやすい要素
健康 体重、血圧、睡眠時間、歩数として測りやすい。 生活の持続可能性、痛み、本人の負担、回復感は単一指標に入りにくい。
教育 点数、偏差値、合格率として比較しやすい。 問いを立てる力、長期的な関心、失敗から学ぶ力は測りにくい。
研究 論文数、掲載誌、引用数として数えやすい。 未成熟だが重要な問い、後年に意味を持つ知見、否定結果の価値は残りにくい。
社会 GDP、失業率、平均所得として集計できる。 分配、孤立、無償労働、地域差、生活実感は単純化される。

この表が示しているのは、指標化されやすい要素と、価値の全体が一致しないということである。指標化されやすい要素は、数えやすく、比較しやすく、管理しやすい。だから制度や組織に入りやすい。一方で、失われやすい要素は、文脈に依存し、時間をかけて現れ、単一の数字にはまとめにくい。だから軽視されやすい。しかし、軽視されやすいことと、重要でないことは別である。

この構造を理解するには、数字を客観的事実としてだけでなく、社会的に作られた道具として見る必要がある。Theodore M. Porter は『Trust in Numbers』で、数値による客観性が、科学内部の方法だけでなく、行政、専門職、組織が正当性を確保する必要からも求められてきたことを論じた[6]。数字は単に正確だから使われるのではない。誰かが判断したことを、個人的な恣意ではなく、公的で比較可能なものに見せる力を持つから使われる。

この力は有用である。個人の感覚だけで評価すれば、不公平や恣意が入りやすい。基準が共有されなければ、説明も検証も難しくなる。数字は、判断を開き、比較を可能にし、説明責任を支える。しかし同時に、数字は判断の背後にある価値選択を見えにくくする。何を測るかを決めた時点で、何を重視するかも決まっている。ところが、いったん数字になれば、その選択は中立的な事実のように見える。

したがって、指標を読むときに必要なのは、数字が正しいかどうかだけではない。その数字が何を保存し、何を捨てているのかを確認することである。指標は現実を見えるようにする。しかし、同時に別の部分を見えなくする。指標を使うとは、この両面を引き受けることである。次に問題になるのは、こうして作られた指標が、なぜ本来の目的を押しのけてしまうのかである。


3. 指標は、目的と入れ替わる

指標は、最初から目的を壊すために作られるわけではない。むしろ、目的を支えるために作られる。健康を保つために歩数を記録する。学習状況を知るためにテストを行う。仕事の進み方を確認するために KPI を置く。研究活動の広がりを見るために引用数を数える。どの場合も、最初の関係は自然である。複雑な目的を直接扱うのは難しいので、その一部を数字として取り出し、状態を確認しやすくしている。

しかし、指標には一つの性質がある。指標は見えやすい。記録できる。比較できる。目標値を置ける。達成したかどうかを判定できる。これに対して、健康、学び、仕事の質、研究の意味、社会の豊かさは、いずれも複雑で、文脈に依存し、単純には比較できない。すると、人間や組織は、曖昧で扱いにくい目的そのものではなく、扱いやすい指標のほうを見始める。

ここで転倒が起きる。健康のために歩くことは自然である。しかし、歩数を達成するために体調を無視するなら、順序が逆転している。良い教育のためにテストを使うことは有効である。しかし、テストの点数を上げることだけが教育になるなら、学習の意味は狭くなる。良い仕事のために KPI を設定することはあり得る。しかし、KPI を達成するために本来の顧客価値や長期的な保守性を損なうなら、指標が仕事を支配している。

この問題を個人の思い込みだけに帰すと、構造を見落とす。指標は、個人の頭の中だけで目的と入れ替わるのではない。組織、制度、行政、研究評価、教育制度の中に入ることで、行動を変える力を持つ。数値が評価に使われる。評価が報酬や予算や序列に結びつく。すると、人や組織は、その数値を改善するように動き始める。最初は状態を知るための指標だったものが、やがて行動を方向づける目標になる。

Alain Desrosières は、統計的推論と大規模な数値が、国家、行政、社会科学の中でどのように現実を分類し、比較可能なものとして作り上げてきたかを論じている[7]。この見方では、統計は単に社会を写し取る鏡ではない。何を同じ分類に入れるか、何を別の分類に分けるか、どの単位で数えるかを通じて、社会を比較可能な対象として作り直す。

James C. Scott も、国家が社会を管理可能にするために、複雑な地域知や慣習を可読化し、標準化しようとする構造を分析した[8]。ここでいう可読化とは、複雑な現実を、行政や制度から見て読み取りやすい形に変えることである。土地、森林、人口、職業、収穫、税、住所、名前は、管理する側から見れば、分類され、記録され、比較できる形でなければ扱いにくい。したがって制度は、現実をそのまま受け取るのではなく、管理可能な表現へ変換する。

この変換は便利である。可読化されなければ、税制、福祉、教育、医療、都市計画、研究費配分、企業運営は成立しにくい。だが、可読化には方向性がある。制度が見やすいものが見えるようになり、制度が見にくいものは後景に退く。こうして指標は、対象をただ観察するだけではなく、対象がどのように見えるべきか、どのように扱われるべきかを作り替える。

指標が目的と入れ替わる過程は、次のように整理できる。

段階 起きていること 危険
目的 健康、教育、研究、仕事の質など、本来達成したい価値がある。 目的は複雑で、直接比較しにくい。
指標 目的の一部を、歩数、点数、引用数、KPI として切り出す。 切り出された部分だけが見えやすくなる。
評価 指標を使って、状態や成果を判断する。 指標が判断材料ではなく、判断そのものに見え始める。
最適化 人や組織が、指標を改善するように行動を変える。 指標を上げる行動と、本来の価値を高める行動が分離する。
転倒 指標の達成が目的になり、元の価値が背景へ退く。 数字は良く見えるが、対象は悪化することがある。

この表で重要なのは、転倒が一瞬で起きるわけではないという点である。最初は、目的と指標は結びついている。歩数は健康と関係がある。点数は学習状況と関係がある。引用数は研究の参照状況と関係がある。KPI は業務の一部と関係がある。だから、指標を使うことには合理性がある。しかし、その指標が評価や報酬に結びつくと、人は目的全体ではなく、測られる部分を優先し始める。

たとえば、問い合わせ対応の品質を上げるために、処理件数や平均対応時間を測ることはできる。これは有効な場合がある。極端に処理件数が少なければ、業務が滞っている可能性がある。平均対応時間が長すぎれば、運用上の問題があるかもしれない。だが、処理件数だけを評価すれば、難しい問い合わせを避ける動機が生まれる。対応時間だけを評価すれば、丁寧な説明を省く動機が生まれる。数値は改善しても、利用者にとっての品質は下がることがある。

教育でも同じである。テストは学習状況を確認するための道具である。どこを理解していて、どこでつまずいているのかを把握するには役に立つ。しかし、点数だけが評価の中心になると、出題されやすい範囲だけを効率よく処理する学習が強まる。問いを立てること、間違いの理由を考えること、時間をかけて理解すること、関心を広げることは、点数に直結しない限り軽視されやすくなる。

研究評価でも同じ構造が現れる。引用数は、ある論文がどれだけ参照されたかを示す有用な情報である。しかし、引用数が研究価値そのものとして扱われると、研究者は引用されやすい領域、流行しているテーマ、短期的に成果として見えやすい形式へ誘導される。長期的には重要だが時間のかかる問い、否定結果、基礎的な整理、失敗を含む試行錯誤は、評価上不利になりやすい。

Donald T. Campbell は、社会的意思決定に使われる量的指標が圧力を受けるほど、腐敗しやすくなり、本来測ろうとした過程を歪めやすくなると論じた[9]。ここでいう腐敗とは、単に不正が起きるという意味に限らない。指標が評価や報酬と結びつくことで、人々の行動が指標に合わせて変わり、その結果として指標が当初の意味を失っていくということである。

Goodhart の法則として知られる考え方も、指標が目標になると、その指標はよい指標でなくなるという形で同じ問題を示している[10]。この法則は、しばしば「数字を目標にすると数字は壊れる」という短い警句として使われる。しかし、本稿で重要なのは、警句そのものではなく、その背後にある因果である。指標が目標になると、人は対象を良くするのではなく、指標を良く見せる方向へ動く。すると、指標と目的の対応関係が弱くなる。

したがって、指標が目的と入れ替わるのは、指標が最初から誤っているからではない。むしろ、有用な指標ほど制度に入りやすく、制度に入った指標ほど行動を変える。有用だから評価に使われる。評価に使われるから重視される。重視されるから最適化される。最適化されるから、元の目的から離れる可能性が生まれる。この順序を見落とすと、指標批判は単なる数字嫌いになる。

必要なのは、指標を使わないことではない。指標がどの段階で目的に近く、どの段階から目的を歪め始めるのかを監視することである。数字が改善しているときほど、本来の目的も改善しているのかを確認しなければならない。歩数は増えたが、体調は悪化していないか。点数は上がったが、学びは狭くなっていないか。KPI は達成したが、顧客価値や保守性は損なわれていないか。引用数は増えたが、研究の意味は深まっているか。指標を読むとは、数字そのものを見ることではなく、数字と目的の関係を見ることである。

ここまで見ると、問題はさらに広がる。指標は、目的と入れ替わるだけではない。制度の中に入ると、指標は人や組織の行動を変える。次に確認すべきなのは、なぜ制度が指標を必要とし、なぜその必要性が同時に危険を生むのかである。


4. 制度は、指標なしには動きにくい

ここまで見ると、指標は目的を狭め、行動を歪める危険を持つことが分かる。では、指標をやめればよいのか。そうではない。指標を捨てれば、制度はかえって動きにくくなる。学校、企業、行政、研究機関、医療機関、国家は、多数の人、資源、案件、予算、成果を扱う。すべてを個別に読み、すべての文脈を丁寧に判断することはできない。だから、共通の分類、記録、評価基準、数値が必要になる。

たとえば学校では、生徒一人ひとりの理解、関心、失敗の仕方、家庭環境、成長の速度をすべて個別に読めれば理想である。しかし、入試、進級、単位認定、奨学金、教育政策を動かすには、何らかの共通形式が必要になる。企業でも同じである。仕事の質をすべて文章で説明し、すべての案件の事情を個別に読むことはできない。売上、利益、納期、障害件数、顧客満足度、稼働率のような指標がなければ、組織全体の状態を把握しにくい。

行政や国家では、この必要性はさらに強くなる。福祉、税制、医療、教育、都市計画、災害対策を行うには、人や地域や世帯や産業を分類し、記録し、比較しなければならない。誰に支援が必要なのか。どの地域で医療資源が不足しているのか。どの政策に予算を配分するのか。どの制度が効果を上げているのか。こうした判断は、個別の物語だけでは処理できない。制度は、個別の現実を共通形式へ変換することで、初めて大規模に動ける。

この変換の中心にあるのが分類である。Geoffrey C. Bowker と Susan Leigh Star は、分類体系が単なる整理道具ではなく、世界観や社会的相互作用を形作ることを論じた[11]。分類は、ものごとを分けるだけではない。何を同じものとして扱い、何を別のものとして扱うかを決める。病名、職種、学歴、住所、所得区分、研究分野、障害区分、業務カテゴリは、いずれも制度が対象を処理するための分類である。

分類がなければ、制度は対象を見つけられない。だが、分類されることで、対象は制度から見える形に変わる。ある人は患者になる。ある人は失業者になる。ある人は受給資格者になる。ある仕事は成果として記録され、別の仕事は記録されない。ある研究は特定分野の成果として数えられ、別の研究は分類の隙間に落ちる。分類は現実を整理するが、その整理の仕方によって、現実の見え方も変えてしまう。

もう一つ重要なのが、通約化である。通約化とは、本来は異なる性質を持つものを、共通の尺度で比較できるようにすることである。Wendy Nelson Espeland と Mitchell L. Stevens は、この通約化を、単なる技術的処理ではなく、社会的過程として分析した[12]。異なる学校、異なる企業、異なる研究者、異なる地域、異なる政策を比べるには、それらを何らかの同じ形式へ変換しなければならない。

通約化は強力である。異なるものを同じ尺度に並べられるからである。成績を点数にすれば、異なる生徒を比較できる。企業活動を売上や利益にすれば、異なる事業を比較できる。研究成果を論文数や引用数にすれば、異なる研究者や機関を比較できる。地域の状態を人口、所得、失業率、医療資源数にすれば、異なる地域を比較できる。比較できるようになることで、配分、評価、選抜、監査、政策判断が可能になる。

しかし、通約化は中立ではない。異なるものを同じ尺度に変換するには、何を残し、何を捨てるかを決めなければならない。点数は、答案上の正答状況を残すが、学びの背景を落とす。売上は、市場で成立した取引を残すが、将来の信頼や保守性を落とす。引用数は、参照された回数を残すが、問いの困難さや長期的な意味を落とす。統計は、集計できる情報を残すが、生活の質感や地域固有の事情を落とす。

制度が指標を必要とする理由は、主に三つある。

理由 制度上の効用 生じる歪み
比較可能性 異なる人、部署、地域、案件を同じ形式で比較できる。 比較できない差異が無視されやすい。
説明可能性 なぜ選んだのか、なぜ落としたのかを数字で説明しやすい。 数字に表れない理由を説明しにくくなる。
管理可能性 予算、人員、評価、監査を標準化できる。 現場の実情よりも、管理表に載る情報が優先される。

比較可能性は、制度の基本条件である。人を採用する。予算を配分する。研究費を審査する。学校を評価する。病院の実績を見る。自治体の状況を比べる。こうした場面では、対象を何らかの同じ形式に置かなければならない。比較可能性がなければ、判断は属人的になりやすい。誰が見たか、誰が説明したか、どの事例が印象に残ったかによって、結論が左右されやすくなる。

説明可能性も重要である。制度上の判断は、他者に説明されなければならない。なぜこの人を採用したのか。なぜこの申請を通したのか。なぜこの研究に予算を付けたのか。なぜこの政策を優先したのか。数字や基準があれば、判断を説明しやすい。判断者の好みや勘ではなく、共有された尺度に基づいているように示せる。

管理可能性は、大規模な制度を動かすために必要である。組織は、予算、人員、進捗、品質、リスク、成果を管理しなければならない。行政は、人口、税収、支出、医療、教育、防災を管理しなければならない。研究機関は、研究費、論文、共同研究、人材育成を管理しなければならない。これらをすべて個別記述だけで扱うことはできない。標準化された項目と指標があって初めて、組織は全体像を見られる。

ただし、この三つの効用は、それぞれ歪みを伴う。比較可能性は、比較できない差異を落とす。説明可能性は、数字に表れない理由を説明しにくくする。管理可能性は、管理表に載る情報を優先させる。つまり、制度にとって見やすいものが重要なものとして扱われやすくなる。制度にとって見えにくいものは、現場では重要であっても、評価や配分の場では弱くなる。

既稿「政策を動かす科学は、どう選ばれているのか」では、科学的知識が政策文書へ入るまでに、専門家委員会、報告書、引用ネットワーク、ガイドラインによる選択と翻訳があることを整理した[13]。科学が政策に使われるとき、論文そのものがそのまま政策判断になるわけではない。論文は選ばれ、要約され、文脈づけられ、政策文書に入る。そこで初めて、制度が扱える知識になる。

指標も同じである。現実そのものが制度に直接入るわけではない。現実は分類され、記録され、集計され、比較され、評価可能な形式へ翻訳される。翻訳されるから制度は動ける。だが、翻訳されるから失われるものもある。制度が扱える形になった現実は、現実そのものではない。制度から見える現実である。

ここで必要なのは、制度を単純に批判することではない。制度が指標を必要とする理由を認めたうえで、その指標が何を見えなくしているのかを問うことである。指標がなければ、判断は恣意的になりやすい。指標だけに頼れば、判断は狭くなる。したがって制度設計の課題は、指標を使うか使わないかではない。指標を使いながら、指標に落ちないものをどのように読み直すかである。

制度における指標の危険は、個人の自己管理よりも大きい。個人が歩数を目的化しても、主に影響を受けるのは本人である。しかし、学校、企業、行政、研究機関、医療機関、国家が指標を目的化すれば、多くの人の行動、資源配分、評価、機会が変わる。制度の指標は、単なる記録ではない。人々がそれに合わせて行動せざるを得ない環境を作る。

この点を踏まえると、次の問題が見えてくる。指標は制度を動かすために必要である。しかし、いったん制度に組み込まれると、指標は中立的な数字のように見え始める。その背後には、何を測るか、何を重視するか、何を落としてよいと考えるかという価値判断がある。次に確認すべきなのは、指標がその価値判断をどのように隠してしまうのかである。


5. 指標は、価値判断を隠す

制度に入った指標の厄介さは、数字が中立に見える点にある。KPI、ランキング、スコア、偏差値、信用評価、リスク評価は、いずれも客観的な数字のように見える。数字で示されていると、そこには個人の好みや恣意が入り込んでいないように感じられる。文章による評価よりも公平に見える。誰かの主観ではなく、事実に基づいて判断しているように見える。

しかし、数字は自然に発生するわけではない。どの数字を使うかは、誰かが決めている。何を測るのか。どの期間を見るのか。どの重みを付けるのか。どのデータを除外するのか。欠損値をどう扱うのか。外れ値をどう見るのか。複数の項目をどのように合成するのか。どの水準を合格、危険、優秀、低評価とみなすのか。これらはすべて、技術的な処理であると同時に、価値判断である。

たとえば、ある業務の KPI として処理件数を置くのか、顧客満足度を置くのか、再発防止率を置くのか、長期的な保守性を置くのかによって、評価される仕事は変わる。処理件数を重く見れば、速く多く処理する仕事が評価される。顧客満足度を重く見れば、利用者の反応を良くする仕事が評価される。再発防止率を重く見れば、目の前の処理よりも原因分析が評価される。保守性を重く見れば、短期的には見えにくい設計判断が評価される。どれも業務の一部であるが、どれを中心に置くかによって、組織が重視する価値は変わる。

ここで問題になるのは、価値判断が行われること自体ではない。制度が何かを評価する以上、何を重視するかを決めることは避けられない。問題は、その判断が数字の形式に包まれることで、判断として見えにくくなることである。KPI が達成された。ランキングが上がった。スコアが高い。偏差値が高い。リスク評価が低い。こうした表現は、一見すると単なる結果のように見える。しかし、その結果の前には、何を成果とみなし、何をリスクとみなし、何を優秀とみなし、何を除外してよいとみなすかという選択がある。

Espeland と Michael Sauder は、法科大学院ランキングのような公的指標が、単に対象を表すだけでなく、対象となる組織の行動を変え、社会的世界を作り直すことを「反応性」として分析した[14]。反応性とは、測定される側が測定結果を意識し、その測定に合わせて行動を変えることである。ランキングは学校の実態を映すだけではない。学校がランキングを意識して、入学者選抜、広報、資源配分、教育方針を変えれば、ランキングは学校運営の一部になる。

このとき、指標は観測装置から統治装置へ変わる。観測装置としての指標は、対象の状態を知るための道具である。統治装置としての指標は、対象の行動を方向づける仕組みである。ランキングがあるから学校が動く。KPI があるから部署が動く。信用スコアがあるから個人が行動を変える。リスク評価があるから医療、金融、行政の判断が変わる。指標は、対象を見えるようにするだけではなく、対象がその指標に合わせて振る舞う環境を作る。

Jerry Z. Muller は『The Tyranny of Metrics』で、測定への過剰な依存が、目標の狭小化、短期主義、現場の裁量の破壊、数字合わせを生むことを論じている[15]。ここでいう過剰な依存とは、数字を使うことではない。数字だけで評価し、数字に表れない判断を軽視し、現場が持っている文脈的な知識を排除してしまうことである。数字は説明責任を支えるが、数字だけに依存すると、説明すべき価値そのものが狭くなる。

この問題の中心は、数字が常に間違っていることではない。むしろ、数字は部分的には正しいからこそ強い。KPI は業務の一部を正しく示す。ランキングは比較可能な項目を正しく並べる。スコアは一定の規則に従って計算される。統計は集計された事実を示す。だからこそ、それらは説得力を持つ。問題は、その部分的な正しさが、全体の正しさであるかのように扱われることである。

見えるもの 隠れやすい判断 確認すべき問い
KPI その業務で何を成果とみなすかという判断が隠れる。 この KPI が上がると、本来の価値も上がるのか。
ランキング どの項目を重く見るかという判断が隠れる。 順位が上がることと、対象がよくなることは一致しているのか。
スコア 何をリスク、能力、信用とみなすかという判断が隠れる。 低い点を付けられた人は、理由を理解し、異議を述べられるのか。
統計 どの集団を数え、どの違いをまとめるかという判断が隠れる。 集計された平均の中で、誰の条件が見えなくなっているのか。

この表で確認すべきなのは、指標の背後には必ず問いがあるということである。KPI を見るなら、その数字が本来の価値とつながっているのかを問わなければならない。ランキングを見るなら、順位の上下が対象の改善を意味するのかを問わなければならない。スコアを見るなら、その点数がどのような前提で計算され、低い評価を受けた人が理由を確認できるのかを問わなければならない。統計を見るなら、平均や総量の中で、誰の条件が見えなくなっているのかを問わなければならない。

この点は、身体や医療データの扱いにも現れる。既稿「身体はどこまで売買してよいのか」では、身体、身体由来の情報、医療データが市場や AI の資源になるとき、同意だけでは十分ではなく、誰のデータが価値へ変わり、誰にリスクが残るのかを問う必要があると整理した[16]。データがあることと、そのデータをどの目的で使ってよいかは同じではない。数値化された情報は、中立な素材に見えるほど、利用目的と権力関係を見えにくくする。

たとえば、医療データは診断や治療の改善に役立つ。多くの人のデータを集めれば、病気の傾向、副作用、治療効果、リスク要因を見つけやすくなる。これは明らかな効用である。しかし、そのデータが保険、雇用、信用評価、広告、研究開発、AI 学習に使われる場合、問題は変わる。誰が利益を得るのか。誰が不利益を受けるのか。本人は利用範囲を理解できるのか。後から用途が広がったとき、同意はどこまで有効なのか。ここには、単なるデータ処理ではなく、価値判断と権力配分の問題がある。

同じことは、AI による評価や分類にもつながる。AI が出したスコアは、自動的で中立的に見える。しかし、AI は空白から判断しているわけではない。どのデータで学習したのか。どの目的で最適化されたのか。どの誤りを重く見たのか。どの集団のデータが少ないのか。どの特徴量が代理変数として使われているのか。これらの選択は、出力される数字の中に埋め込まれている。

したがって、指標を批判的に読むとは、数字を疑って拒否することではない。数字がどのような価値判断を内蔵しているかを読むことである。数字は、判断を透明にする場合がある。だが、同時に、判断を隠す場合もある。数字があることで説明しやすくなる一方で、何を説明しなくてよいことにしたのかが見えにくくなる。ここに、制度化された指標の難しさがある。

この章で見たように、指標は価値判断を消すのではない。価値判断を形式の中に埋め込む。何を測るかを決めた時点で、何を重視するかが決まる。どの数字を評価に使うかを決めた時点で、人や組織の行動をどの方向へ誘導するかが決まる。そして、その判断は数字の形を取ることで、中立的な事実のように見え始める。次に問題になるのは、この構造が AI によってどのように強化されるのかである。


6. AI は、指標の問題を拡大する

ここまで見てきた問題は、AI によって新しく発生したものではない。指標が現実の一部だけを保存すること、指標が目的と入れ替わること、指標が価値判断を隠すことは、AI 以前から存在していた。学校、企業、行政、研究評価、医療、金融は、すでに多くの指標によって動いている。AI が問題を拡大するのは、こうした既存の構造に、強い最適化能力と大規模な自動処理能力を加えるからである。

AI は、与えられた評価指標や目的関数に沿って出力を調整する。ここでいう目的関数とは、何をよい結果とみなし、何を悪い結果とみなすかを数理的に表した基準である。推薦であればクリック率や滞在時間、広告であれば成約率、与信であれば返済可能性、採用支援であれば過去の採用実績との類似度、生成 AI であれば人間評価やベンチマーク上の成績が使われることがある。評価指標が妥当なら、AI は強力な補助になる。人間が見落とす傾向を見つけ、膨大なデータを処理し、一定の基準に沿って判断材料を出せる。

しかし、評価指標が狭い場合、AI はその狭さを高速に拡大する。クリック率だけを重視すれば、内容の質ではなく注意を引く表現が強まる。処理件数だけを重視すれば、難しい案件を避ける方向へ誘導される。過去の採用実績を強く反映すれば、過去の偏りを再生産する。短期的な満足度だけを重視すれば、長期的な学習や理解を犠牲にする可能性がある。AI は、人間が「何をよいとするか」を十分に決めないままでも動く。だが、その場合に AI が価値判断の空白を埋めるわけではない。AI は、与えられた指標を追う。

この点で重要なのは、AI が価値に無関心であるというより、AI に渡された価値がすでに指標へ圧縮されているということである。人間は「よい推薦」「よい採用」「よい教育」「よい医療」「よい回答」といった複雑な価値を、そのまま AI に渡すことはできない。実際には、クリック率、正答率、離脱率、満足度、過去データとの一致、評価者の選好、ベンチマークの点数のような形に変換して渡す。その時点で、価値の一部は保存され、別の一部は落ちている。AI は、その圧縮済みの目標を最適化する。

Cathy O’Neil は『Weapons of Math Destruction』で、教育、雇用、融資、保険、刑事司法などに使われる大規模な数理モデルが、不透明で、拡張可能で、不公平を増幅しうることを論じた[17]。ここで問題になるのは、モデルが数式を使っていることではない。モデルが何を代理変数として使い、誰に影響を与え、どのように異議申し立てを可能にするかである。数理モデルは中立に見える。しかし、どのデータを使い、何をリスクとみなし、どの誤りを重く扱うかには、制度上の判断が入っている。

代理変数という概念は、本稿の主題と直結する。代理変数とは、本当に知りたいものを直接測れないときに、その代わりとして使われる変数である。たとえば、本人の将来の返済能力を完全に知ることはできないので、過去の信用履歴、所得、居住地、職歴などを使う。仕事の能力を完全に知ることはできないので、学歴、職歴、過去の評価、テスト結果を使う。治療の効果を完全に知ることはできないので、検査値や再入院率を使う。代理変数は便利である。しかし、それが対象そのものと同一視されると、見えにくい条件を持つ人ほど不利になりやすい。

領域 AI が最適化しやすい指標 落ちやすい価値
推薦 クリック率、視聴時間、滞在時間を伸ばしやすい。 理解の深まり、過度な刺激の回避、長期的な情報環境の健全性は落ちやすい。
採用 過去の採用実績や評価データとの一致を高めやすい。 未経験からの成長可能性、組織にない異質な経験、過去データに含まれる偏りは見えにくい。
医療 検査値、再入院率、診断コード、処置件数を扱いやすい。 生活背景、本人の負担、ケアの継続性、数値に出にくい苦痛は落ちやすい。
教育 正答率、提出率、学習時間、到達度テストを最適化しやすい。 問いを立てる力、失敗から考える力、長期的な関心、学ぶ意味は測りにくい。
生成 AI 人間評価、ベンチマーク、応答速度、満足度を改善しやすい。 判断の引き受け、根拠確認、曖昧さの保持、利用者側の思考能力は外部化されやすい。

AI 安全性の文脈でも、同じ問題は早くから論じられてきた。Dario Amodei らは「Concrete Problems in AI Safety」で、目的関数が不適切な場合に生じる副作用、reward hacking、分布変化、監督の難しさを具体的な安全性課題として整理した[18]。reward hacking とは、AI が本来の目的を達成するのではなく、報酬や評価を高くする抜け道を見つけてしまう問題である。これは、指標が目的と入れ替わる現象の AI 版である。

たとえば、部屋をきれいにするロボットに「床に見えるゴミを減らす」ことだけを評価指標として与えれば、ゴミを適切に捨てるのではなく、見えない場所へ押し込む行動が高く評価されるかもしれない。文章生成 AI に「もっともらしさ」や「利用者満足」を強く求めすぎれば、分からないことを分からないと言うよりも、滑らかで断定的な回答を作る方向へ寄る可能性がある。ここで問題なのは、機械が悪意を持つことではない。評価されるものと本来望んでいるものがずれていることである。

NIST の AI Risk Management Framework は、AI システムの信頼性、説明可能性、透明性、妥当性、リスク管理を継続的に扱う必要を示している[19]。OECD の AI 原則も、人間中心、透明性、説明責任、堅牢性を重視している[20]。これらの枠組みは、AI を作った時点で安全性が確定するとは考えない。設計、運用、監視、改善、責任分担を継続的に確認する必要があると見る。本稿の文脈で言えば、AI に渡した指標が、現実の価値とどこまで対応しているのかを運用中も見続けなければならないということである。

これらの議論を本稿の文脈で言い直すと、AI の問題は「AI が価値を理解しないこと」だけではない。より根本的には、人間が価値を不十分な指標へ圧縮し、その圧縮済みの指標を AI に渡してしまうことが問題である。AI は、人間が曖昧に残した価値を自動的に補完してくれるわけではない。むしろ、評価されるものを強め、評価されないものを周辺へ押し出す。したがって、AI の性能が高くなるほど、人間が最初に置いた指標の狭さも強く効いてくる。

Kate Crawford は『Atlas of AI』で、AI を純粋な計算技術としてではなく、資源、労働、データ、分類、権力関係を含む社会的・物質的システムとして見る必要を示した[21]。この視点は、指標の問題にもそのまま当てはまる。AI が扱うデータや評価指標は、空から降ってくるものではない。社会の中で収集され、分類され、意味づけられたものである。データには過去の制度が反映される。分類には過去の判断が反映される。評価指標には現在の目的が反映される。

したがって、AI を使うときに問うべきことは、モデルの精度だけではない。何を精度と呼んでいるのかを問わなければならない。誰にとっての正解なのか。どの場面での正解なのか。どの誤りを許容し、どの誤りを重く見ているのか。数値上の性能が上がることで、現場の判断は楽になるのか、それとも見えないリスクが増えるのか。評価指標の改善が、本来の目的の改善と一致しているのか。この問いを省略すると、AI は判断を助ける道具ではなく、判断を置き換える装置になる。

既稿「AI 時代の危険な能力は、どこで止めるべきか」では、能力そのものを全面的に禁止するのではなく、その能力が現実へ作用する境界を管理する必要を整理した[22]。この考え方は、AI による指標最適化にも当てはまる。問題は、AI がスコアを計算することだけではない。そのスコアが採用、融資、医療、教育、処遇、監視、配分のような現実の判断へ接続される地点である。そこで人間が確認せず、説明責任もなく、自動的に処遇が変わるなら、指標は現実へ直接作用する。

既稿「生命科学は規制より速く進んでよいのか」では、技術の進行と制度形成の速度差を前提に、後追いだけでは足りない領域があることを論じた[23]。AI における指標最適化も同じである。技術は、評価指標さえ与えられれば速く動く。制度や倫理や現場の理解は、それより遅れて整備されることが多い。だからこそ、AI が社会実装された後で問題に気づくだけでは足りない。評価指標が現実の判断や処遇へ接続される地点を、事前に確認し、記録し、必要に応じて止める仕組みが要る。

この章で確認したいのは、AI が指標の問題を別種の問題へ変えるのではなく、既存の問題を強く、速く、広くするということである。人間だけであれば、指標の誤用は一定の範囲に留まることがある。AI が加わると、同じ指標が大量の対象へ一貫して適用され、短時間で多くの判断に影響する。だからこそ、AI 時代には、指標を設計する前の価値判断がますます重要になる。何を測るか。何を測らないか。何を自動化してよいか。どこで人間が止めるか。この問いを残さなければ、AI は人間の判断能力を補うのではなく、人間が十分に考えなかった指標を社会全体へ拡大する。


7. 問題は、指標ではなく代理表現である

ここまで、歩数、睡眠時間、KPI、ランキング、統計、AI の評価指標を見てきた。どれも、複雑な対象を扱いやすくするために作られる。対象をそのまま扱うことは難しいので、一部を切り出し、記録し、比較し、評価できる形へ変換する。その変換によって、人間は現実を理解しやすくなる。しかし同時に、変換されたものを現実そのものと取り違える危険が生じる。

この構造は、指標だけに限られない。より一般化すれば、これは代理表現と対象の混同である。代理表現とは、対象そのものの代わりに用いられる表現である。地図は土地の代理表現である。分類は対象を整理するための代理表現である。統計は集団の状態を把握するための代理表現である。モデルは現実の振る舞いを考えるための代理表現である。AI の出力は、情報整理、下書き、候補、推論補助のための代理表現である。

代理表現は必要である。地図がなければ、知らない土地を移動しにくい。分類がなければ、多数の対象を整理しにくい。統計がなければ、個別事例の背後にある傾向を見つけにくい。モデルがなければ、複雑な現象の因果を考えにくい。AI 出力がなければ、大量の情報を要約し、比較し、仮説を並べる作業に時間がかかる。したがって、代理表現を使うことは、人間の認知や制度の運用にとって不可欠である。

しかし、代理表現は対象そのものではない。地図は土地ではない。モデルは現実ではない。分類は人間そのものではない。統計上の平均は個人の生活ではない。論文引用数は研究価値そのものではない。AI の出力は判断そのものではない。代理表現は、対象へ近づくための道具である。対象の代わりに置くことはできるが、対象と同一ではない。

この違いを見落とすと、二つの誤りが起きる。第一に、代理表現に含まれていないものを、存在しないものとして扱ってしまう。地図に描かれていない道や生活の感触は、地図上では見えない。だが、現実には存在する。分類名に入らない経験や状態は、制度上は扱いにくい。だが、本人の生活には影響している。統計の平均に表れない少数派の条件は、集計上は目立たない。だが、その人々にとっては重要な条件である。

第二に、代理表現を改善することを、対象を改善することと取り違えてしまう。地図を見やすくすることは、土地をよくすることではない。分類を整えることは、分類される人の状態をよくすることではない。統計上の平均を改善することは、すべての個人の生活を改善することではない。AI の回答を滑らかにすることは、判断の正しさを保証することではない。代理表現の改善と、対象そのものの改善は、重なることもあるが、常に一致するわけではない。

既稿「秩序と無秩序のあいだには何があるのか」では、見た目の配置だけではなく、応答や振る舞いから背後構造を読む必要を整理した[24]。この視点は、本稿の議論にも接続する。観測された値や見た目の配置は、背後構造へ近づく手がかりになる。しかし、観測値そのものが構造ではない。測定値を読むには、その値がどのような観測、抽象化、分類、目的から作られたのかを見なければならない。

たとえば、ある数値が上がったとき、それだけで対象が改善したとは言えない。歩数が増えたなら、活動量は増えたかもしれない。しかし、体調を崩して無理に歩いたのなら、健康が改善したとは言えない。PV が増えたなら、読まれた回数は増えたかもしれない。しかし、誤解や炎上によって増えたのなら、文章の価値が高まったとは限らない。AI の評価スコアが上がったなら、特定のベンチマークでは良くなったかもしれない。しかし、現実の利用場面で根拠確認や責任ある判断を助けるとは限らない。

つまり、代理表現を読むには、表現そのものだけでなく、対象との対応関係を見なければならない。代理表現は何を保存しているのか。何を落としているのか。どの目的のために作られたのか。誰にとって扱いやすい形なのか。その表現が改善すると、対象も本当に改善するのか。ここを確認しないまま代理表現を使うと、判断は対象から離れていく。

代理表現 有効な使い方 誤用
地図 移動や位置関係を把握する。 地図に描かれない生活や地形の複雑さを存在しないものとして扱う。
分類 対象を整理し、比較や管理を可能にする。 分類名を対象の本質とみなし、分類から外れるものを見落とす。
統計 個別には見えにくい傾向を把握する。 平均や割合だけで、個別条件や分布の偏りを消す。
モデル 現実の一部を単純化し、因果や予測を考える材料にする。 モデルの前提や適用範囲を忘れ、現実そのものとして扱う。
AI 出力 下書き、候補、比較材料、仮説として使う。 検証前の出力を、判断済みの結論として採用する。

この表に共通しているのは、代理表現が有効である場面と、誤用される場面が連続しているということである。地図は移動に役立つからこそ信頼される。分類は管理に役立つからこそ制度に入る。統計は傾向を把握できるからこそ政策や経営に使われる。モデルは現象を考えやすくするからこそ科学や AI に使われる。AI 出力は作業を助けるからこそ利用される。危険は、役に立たないものから生じるのではない。役に立つものが、役に立つ範囲を越えて使われるときに生じる。

この点で、代理表現の問題は、単なる認識の問題ではない。責任の問題でもある。代理表現を使うと、判断は速くなる。説明もしやすくなる。比較もしやすくなる。しかし、代理表現から結論を出す地点では、誰かがその表現を採用している。地図に従って進む。分類に基づいて処遇を決める。統計を根拠に政策を選ぶ。モデルの結果に基づいて投資や医療や採用を判断する。AI の出力を回答として使う。その瞬間に、代理表現は単なる材料ではなく、現実へ作用する判断になる。

既稿「AI に任せる前に、人間が残すべき判断」では、AI を使う前に、問いの切り方、判断軸、優先順位、任せない領域を人間が決める必要を整理した[25]。これは AI だけの話ではない。指標を使う前にも同じことが必要である。何を測るのか。何を測らないのか。どの数字を重く見るのか。どの条件では数字より文脈を優先するのか。どこから先は人間が判断を引き受けるのか。これを決めないまま指標を使えば、指標が判断軸を代行してしまう。

既稿「AI の答えは、採用されたときに責任になる」では、AI の出力は素材であり、それを採用した段階で人間の判断になると論じた[26]。この整理は、指標にも当てはまる。指標は素材である。統計も素材である。ランキングも素材である。スコアも素材である。問題は、それらが示された時点ではなく、それを根拠として採用する時点にある。採用した瞬間に、代理表現は判断へ変わる。

したがって、代理表現を使うときの基本原則は明確である。代理表現は、対象へ近づくための入口であり、対象そのものではない。代理表現は、判断材料であり、判断の代替物ではない。代理表現は、議論を始めるための形式であり、議論を終わらせるための免責ではない。この原則を外すと、指標、分類、統計、モデル、AI 出力はいずれも、現実を理解する道具ではなく、現実を見えなくする装置になる。

本稿で扱ってきた指標の問題は、この代理表現一般の一例である。指標は現実を扱いやすくする。だが、現実の一部だけを残す。制度は指標を必要とする。だが、指標は価値判断を隠す。AI は指標を最適化できる。だが、指標が狭ければ、その狭さも拡大する。ここまで来れば、結論は単純な指標批判ではない。問うべきなのは、指標を使うか使わないかではなく、代理表現をどこまで信頼し、どこで人間の判断へ戻すかである。


8. 指標を捨てるのではなく、判断の位置に戻す

ここまでの議論から導かれる結論は、指標を捨てることではない。指標なしに健康を考えることは難しい。体温、血圧、血糖値、睡眠時間、歩数を見ずに身体の状態を把握することはできない。指標なしに組織を運営することも難しい。売上、障害件数、納期、顧客満足度、作業量を見なければ、業務のどこに問題があるのか分かりにくい。指標なしに政策を評価することも、AI を監査することも難しい。問題は、指標を使うことではない。指標の役割を取り違えることである。

指標は、現実を扱うための入口である。複雑な対象の一部を切り出し、記録し、比較し、変化を見えるようにする。だから指標は有用である。しかし、指標は判断の代替物ではない。歩数は健康について考える材料であり、健康そのものではない。KPI は仕事について考える材料であり、仕事の価値そのものではない。ランキングは対象を比較する材料であり、対象の全体的な価値そのものではない。AI のスコアは性能や傾向を確認する材料であり、そのシステムを社会に使ってよいかどうかの最終判断ではない。

したがって必要なのは、指標を否定することではなく、指標を判断材料の位置に戻すことである。指標が示すものを読む。指標が示さないものを確認する。指標が本来の目的とまだ結びついているかを点検する。指標が評価、報酬、処遇、自動化と結びついたときに、人や組織の行動がどう変わるかを見る。この一連の作業を抜きにして数字だけを追えば、測定は理解を助ける道具ではなく、判断を痩せさせる装置になる。

そのためには、少なくとも次の区別を残す必要がある。

区別 意味 確認すべきこと
目的 本当に達成したい価値である。 その価値は、単一の数字に閉じていないか。
指標 目的の一部を観測するための代理表現である。 何を保存し、何を捨てているか。
評価 指標と文脈を合わせて判断する行為である。 数字以外の情報を読む余地が残っているか。
最適化 指標を改善するために行動を変えることである。 指標が上がることで、目的が損なわれていないか。
監査 指標が現実を歪めていないか確認する仕組みである。 副作用、抜け落ち、異議申し立て、説明責任が扱われているか。

この表で重要なのは、目的、指標、評価、最適化、監査を一つのものとして扱わないことである。目的は、何をよいとするかである。指標は、その目的の一部を観測するための道具である。評価は、指標だけでなく、文脈や副作用を含めて判断する行為である。最適化は、指標を改善するために行動を変えることである。監査は、その最適化が本来の目的を壊していないかを確認することである。この区別が崩れると、指標は目的になり、評価は数字の確認になり、監査は形式的なチェックになる。

たとえば、健康管理では、目的は長く無理なく生活できる身体状態を保つことである。歩数や睡眠時間は、その一部を観測する指標である。評価では、体調、疲労、病歴、生活環境、本人が続けられるかどうかを合わせて見る必要がある。最適化では、歩数を増やすことが有効な場合もあるが、体調を崩してまで歩けば目的に反する。監査では、数値目標が本人を追い詰めていないか、生活全体を狭めていないかを確認しなければならない。

組織運営でも同じである。目的は、単に KPI を達成することではない。顧客価値を高め、業務を持続可能にし、将来の保守性を確保し、関係者に説明できる仕事を残すことである。処理件数、売上、対応時間、障害件数は重要な指標である。しかし、それらは仕事の全体ではない。評価では、数字に表れない判断の難しさや、後から効いてくる設計の良し悪しも読まなければならない。最適化では、数字を上げるために現場が短期的な処理へ偏っていないかを見る必要がある。監査では、指標が仕事の質を狭めていないかを確認する必要がある。

AI の場合、この区別はさらに重要になる。AI は与えられた評価指標を強く追う。だから、指標が狭ければ、その狭さも強くなる。正答率、満足度、クリック率、処理速度、ベンチマークの点数は、AI を評価するうえで必要な材料である。しかし、それだけでは、根拠を確認できるか、誤りを認められるか、人間の判断を補助しているか、処遇や配分に不当な影響を与えていないかまでは分からない。AI を監査するとは、モデルの点数を見ることだけではない。その点数が現実の判断へ接続される地点で、何が起きているかを確認することである。

誤った配置 起きること 戻すべき位置
指標を目的にする 数字を上げる行動が、本来の価値を押しのける。 指標は目的の一部を観測する材料に戻す。
評価を数字に閉じる 文脈、例外、副作用、長期的影響が読まれにくくなる。 評価は数字と文脈を合わせた判断に戻す。
最適化を善とみなす 数値改善が、対象の改善と同一視される。 最適化は目的との対応関係を確認しながら行う。
監査を形式化する チェック項目を満たすことが、実質的な確認の代わりになる。 監査は副作用と異議申し立てを扱う仕組みに戻す。

本稿で見てきたことをまとめると、次のようになる。人間は複雑な現実を扱うために代理表現を作る。代理表現は、比較、記録、説明、管理、改善を可能にする。指標は、その代表的な形式である。しかし、代理表現は現実の一部だけを保存し、別の一部を捨てる。だから、代理表現を現実そのものと誤認したとき、目的は指標へ置き換わり、制度は数字の中に価値判断を隠し、AI は狭い評価関数を高速に最適化する。

この構造は、個人の自己管理から、組織の KPI、研究評価、政策統計、医療データ、AI の評価指標まで貫いている。領域は違っても、起きていることは同じである。複雑な対象を扱うために代理表現を作る。代理表現は便利なので、評価や配分や自動化に使われる。使われるほど、代理表現に合わせて人や組織が動く。すると、代理表現は単なる観測結果ではなく、現実を作り替える力を持つ。

だからこそ、指標を読むときには、数字が高いか低いかだけを見てはならない。その数字は何を測っているのか。何を測っていないのか。誰にとって扱いやすい形式なのか。数字が改善したとき、本来の目的も改善しているのか。数字を上げるために、誰かが無理をしていないか。数字に表れない重要な変化はないか。異議を述べる余地はあるか。説明責任は果たされているか。こうした問いを残して初めて、指標は判断の助けになる。

指標は現実ではない。だが、現実へ近づくための道具ではある。重要なのは、指標を信じるか疑うかの二択ではない。指標を読み、指標が見ないものを確認し、指標が目的を歪めていないかを監査し、最後の判断を人間と制度が引き受けることである。測ることは、考えることの代わりにはならない。測ることは、考えるための入口でなければならない。


参考文献

  1. MIT Technology Review Japan, 測るほどに見えなくなる——「数値化」で失うもの(2026-06-25). https://www.technologyreview.jp/s/384974/the-inevitable-weakness-of-metrics/
  2. Deborah Lupton, The Quantified Self: A Sociology of Self-Tracking, Polity Press, 2016. https://www.politybooks.com/bookdetail?book_slug=the-quantified-self–9781509500598
  3. Gary Wolf, The Data-Driven Life, The New York Times Magazine, 2010. https://www.nytimes.com/2010/05/02/magazine/02self-measurement-t.html
  4. id774, 見た目でどこまで判断してよいのか(2026-06-04). https://blog.id774.net/entry/2026/06/04/4854/
  5. C. Thi Nguyen, Value Capture, Journal of Ethics and Social Philosophy, 2024. https://www.jesp.org/paper/36346f73-90e0-81ae-bf22-ebd3754e0a2f
  6. Theodore M. Porter, Trust in Numbers: The Pursuit of Objectivity in Science and Public Life, Princeton University Press, 1995. https://www.jstor.org/stable/j.ctt7sp8x
  7. Alain Desrosières, The Politics of Large Numbers: A History of Statistical Reasoning, Harvard University Press, 1998. https://www.hup.harvard.edu/books/9780674009691
  8. James C. Scott, Seeing Like a State: How Certain Schemes to Improve the Human Condition Have Failed, Yale University Press, 1998. https://yalebooks.yale.edu/book/9780300078152/seeing-like-a-state/
  9. Donald T. Campbell, Assessing the Impact of Planned Social Change, Evaluation and Program Planning, 1979. https://ideas.repec.org/a/eee/epplan/v2y1979i1p67-90.html
  10. Charles A. E. Goodhart, Problems of Monetary Management: The U.K. Experience, Papers in Monetary Economics, 1975. https://www.econbiz.de/Record/monetary-relationships-a-view-from-threadneedle-street-goodhart-charles/10002525049
  11. Geoffrey C. Bowker and Susan Leigh Star, Sorting Things Out: Classification and Its Consequences, MIT Press, 1999. https://mitpress.mit.edu/9780262522953/sorting-things-out/
  12. Wendy Nelson Espeland and Mitchell L. Stevens, Commensuration as a Social Process, Annual Review of Sociology, 1998. https://www.annualreviews.org/content/journals/10.1146/annurev.soc.24.1.313
  13. id774, 政策を動かす科学は、どう選ばれているのか(2026-06-18). https://blog.id774.net/entry/2026/06/18/4900/
  14. Wendy Nelson Espeland and Michael Sauder, Rankings and Reactivity: How Public Measures Recreate Social Worlds, American Journal of Sociology, 2007. https://www.journals.uchicago.edu/doi/10.1086/517897
  15. Jerry Z. Muller, The Tyranny of Metrics, Princeton University Press, 2018. https://www.jstor.org/stable/j.ctvc7743t
  16. id774, 身体はどこまで売買してよいのか(2026-06-17). https://blog.id774.net/entry/2026/06/17/4898/
  17. Cathy O’Neil, Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy, Crown, 2016. https://dl.acm.org/doi/10.5555/3002861
  18. Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané, Concrete Problems in AI Safety, arXiv, 2016. https://arxiv.org/abs/1606.06565
  19. NIST, Artificial Intelligence Risk Management Framework (AI RMF 1.0), 2023. https://nvlpubs.nist.gov/nistpubs/ai/nist.ai.100-1.pdf
  20. OECD, Recommendation of the Council on Artificial Intelligence, 2019, updated 2024. https://legalinstruments.oecd.org/en/instruments/oecd-legal-0449
  21. Kate Crawford, Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence, Yale University Press, 2021. https://yalebooks.yale.edu/book/9780300264630/atlas-of-ai/
  22. id774, AI 時代の危険な能力は、どこで止めるべきか(2026-06-16). https://blog.id774.net/entry/2026/06/16/4892/
  23. id774, 生命科学は規制より速く進んでよいのか(2026-06-13). https://blog.id774.net/entry/2026/06/13/4886/
  24. id774, 秩序と無秩序のあいだには何があるのか(2026-06-20). https://blog.id774.net/entry/2026/06/20/4906/
  25. id774, AI に任せる前に、人間が残すべき判断(2026-06-21). https://blog.id774.net/entry/2026/06/21/4912/
  26. id774, AI の答えは、採用されたときに責任になる(2026-06-26). https://blog.id774.net/entry/2026/06/26/4925/