強化学習(Reinforcement Learning)は、AI において「環境との相互作用を通じて行動方策を更新する」学習枠組みである。その中核にある「方策の更新」という考え方は、人間の主体性や自由意志を「更新可能性」として捉え直すための、非常に強力な手がかりを与える。本稿は、強化学習の中核概念である「方策空間」を起点に、探索、汎化、知能、主体性、自由意志、責任、制度を、同じ地平で接続して整理する。接続の鍵は、前回の記事「自由意志について再考する」で採用した枠組み、すなわち「世界は不可逆に更新され続ける構造であり、生命と主体はその内部で自己維持更新を行う」という見立てである。この枠組みを採用すると、自由意志は「因果列の外側で分岐する魔法」ではなく、「主体が自分の更新様式を時間的に再設計する能力(分岐管理)」として、強化学習の方策更新と同型に再配置できる。本稿では、その同型性を、抽象語の列挙ではなく、読者が追える手順で固定する。参照の起点として、以前の記事「自由意志について再考する」および「人間と環世界」を明示しておく。[1][2]
0. 先に結論の形を固定する
まず、後で何度も参照するために、結論を「文」ではなく「構造」として固定する。ここでいう構造とは、層ごとに、何が実体で、何が操作対象で、何が制度に翻訳されるかを決めることである。
| 層 | 中心概念 | 何が「状態」か | 何が「更新」か | 何が「自由」に対応するか |
|---|---|---|---|---|
| 世界 | 時間=更新 | 世界の状態(履歴を含む) | 差分が取り込まれて次状態へ移ること | 世界の外側の自由ではなく、制約下の操作可能性 |
| 生命 | 自己維持更新 | 内部状態と境界条件 | 差分検出とフィードバックで許容範囲を保つこと | 更新を継続できること(更新不能性が死) |
| 主体 | 環世界生成 | 主体にとって前景化した状態表現 | 差分検出→意味生成→行為の連鎖 | 選択の瞬間より、何が選択肢として立ち上がるかの管理 |
| 強化学習 | 方策空間 | 観測(状態)と内部表現 | 方策の更新(学習) | 方策空間の形成と変形(探索、抑制、学習) |
| 自由意志 | 分岐管理 | 行為可能性の集合(方策空間) | 衝動抑制、学習、習慣修正 | 自分の更新様式を時間的に再設計する能力 |
| 制度 | 責任と倫理 | 他者の被害と社会的リスク | 回復、予防、隔離、支援、説明責任 | 他者の更新可能性を壊さない制約設計 |
上の表は、以前の記事「自由意志について再考する」が最終節で固定した理論地図と整合する。本稿の追加点は、強化学習の「方策空間」を、主体の「意味空間(行為様式の空間)」として明示的に同一視し、探索、汎化、賢さの見え方が、自由意志の再配置と同じ理由で説明できることを、具体化することである。[1]
1. 以前の記事の骨格を、強化学習と接続できる形に言い換える
「自由意志について再考する」では、自由意志の混線を解くために、少なくとも 3 つの異なる意味を区別した。すなわち、(1)その瞬間に他の選択肢を取り得たか、(2)自分の理由で動いたという所有(オーナーシップ)、(3)長い時間をかけて自分を変えられる更新可能性である。本稿の接続は、このうち(3)を中心に据え、(2)を制度化の要件として採用し、(1)を最終的な基礎としない、という選択を引き継ぐ。[1]
1.1 「更新構造」から見ると、自由意志はどこへ移動するか
世界が不可逆に更新され続けると捉えると、「自由意志」を世界の外側に置く必要がなくなる。問題は、世界が決定論か非決定論かではなく、主体がどのように差分を取り込み、どのように将来の更新様式を変えられるかへ移動する。これは、強化学習で「行動の瞬間」を最適化するのではなく、方策(行動規則)を学習して更新することに対応する。[1]
1.2 「環世界生成」と「方策」は、同じ種類の対象である
環世界(Umwelt)は「主観的な気分」ではなく、差分検出と行為の結合様式である。つまり、何が前景化し、何が選択肢として立ち上がり、どの行為が自然に生成されるかという、状態と行為の結合規則である。これは、強化学習でいう方策が、状態から行動を生成する規則であることと一致する。「主体が世界をどう切り取り、どう応答するか」という意味で、環世界生成は方策そのものである。[2][3]
1.3 自由意志の操作対象は「選択」ではなく「方策空間」へ移る
以前の記事が強調した通り、現代の実務的問題は「この瞬間に他のものを選べたか」より、「何が候補として見え、何が自然に選ばれやすいか」が外部から整形される点にある。これは、選択の瞬間ではなく、方策空間(行為様式の空間)が狭められる問題である。したがって自由意志は、方策空間の形成と維持、学習と抑制の回路の維持として評価されるべきだ、という方向づけが得られる。[1]
| 小項目 | 要点 | 強化学習での対応 |
|---|---|---|
| 1.1 | 自由は世界の外側ではなく、更新構造の内部での操作可能性 | 環境の制約下で方策を更新し得ること |
| 1.2 | 主体は差分検出→意味生成→行為で環世界を生成する | 方策が状態表現から行動分布を生成する |
| 1.3 | 侵食されるのは選択ではなく候補可視性(方策空間) | 探索以前に、探索すべき空間が外部により整形される |
2. 方策空間とは何か:自由度と探索可能性が衝突する場所
ここから強化学習側の言葉で、方策空間を定義し直す。方策は、状態から行動を出す規則であり、方策空間はその候補の集合である。決定論的方策は状態から 1 つの行動を返し、確率的方策は状態ごとに行動分布を返す。実務の強化学習では、方策をパラメータで表現し、期待収益の勾配に沿って更新する。これが政策勾配(policy gradient)の基本である。[4][5][6][7]
2.1 自由度は「表現力」だけではなく「意味の連続性」を含む
方策空間の自由度は、単にパラメータ数が多いことではない。本当に重要なのは、方策を少し変えたときに、行動様式が少しだけ変わるのか、それとも意味が断裂して別物へ跳ぶのか、である。探索可能性は、この意味の連続性に依存する。連続性があるなら、少しの更新が少しの改善に結びつき得るが、断裂しているなら、学習は乱歩に近づく。[6][7]
2.2 探索が破綻するとは、意味の勾配が消えることである
探索が破綻する典型は、報酬が疎で、行動の良し悪しがほとんど観測できない状況である。このとき、方策更新は、どちらへ動けば良いかの信号を失う。また、環境が複雑で、方策の微小変更が挙動全体を大きく変える場合も、勾配推定の分散が増えて更新が不安定になる。結果として、探索は「意味的に滑らかな山登り」ではなく、「意味が崩れて毎回別の場所へ飛ぶ」状態になる。探索研究では、疎な報酬環境を中心に、この問題が繰り返し整理されている。[8][9]
2.3 探索を支えるのは、方策空間における「意味の足場」である
探索を成立させる実装上の手段は多様だが、本質は「意味の足場」を作ることにある。例えば、内発的動機づけ(curiosity)や新規性報酬は、外部報酬が疎でも、行動と差分を結び付ける信号を増やす。これは、方策更新のための意味勾配を補助する操作である。また、探索手法をまとめた研究では、疎報酬における探索の難しさが体系化されている。[10][8]
| 小項目 | 観点 | 破綻すると何が起きるか | 対処の方向 |
|---|---|---|---|
| 2.1 | 意味の連続性 | 微調整が別の行動様式に化ける | 表現と更新の滑らかさを確保する |
| 2.2 | 疎報酬と高分散 | 更新方向がノイズ化し学習が停止する | 信号を増やす、分散を下げる |
| 2.3 | 意味の足場 | 探索が乱歩になる | 内発報酬、カリキュラム、階層化 |
3. 汎化が起きる理由:方策が「意味の同値類」に反応できるとき
汎化とは、見たことのない状態に対しても、適切に見える行動が出ることを指す。これが起きる理由を、データ量や正則化といった条件ではなく、構造として述べるなら、「方策が個別状態の記憶ではなく、意味の同値類に反応している」からである。[4]
3.1 汎化は、状態をそのまま扱うのではなく「差分だけを抽出」できた結果である
強化学習が現実に近い問題へ近づくほど、観測は高次元になり、状態をそのまま記憶することは不可能になる。そのため、エージェントは、行動に関係する特徴を抽出し、関係しない変動を捨てる必要がある。深層強化学習の代表的成果として挙げられる DQN 論文でも、表現学習と汎化が主要課題として言及されている。[11]
3.2 汎化の測定は難しく、ベンチマーク自体が「意味の多様性」を要求する
固定ステージの繰り返しでは、記憶による成功が紛れ込みやすい。そこで、手続き生成(procedural generation)により、ほぼ無限のバリエーションを持つ環境で学習し、汎化能力を測る試みが行われている。Procgen Benchmark は、その代表例として、サンプル効率と汎化を同時に測る設計を提示した。[12][13]
3.3 意味空間の観点では、汎化とは「同じ意味への折りたたみ」である
方策空間を意味空間として見ると、汎化とは、異なる見かけの状態を、同じ意味カテゴリへ折りたたみ、そのカテゴリに対して安定した行為様式を返すことだと理解できる。これは、環世界の議論で言う「前景化の違い」に対応する。主体が世界の全情報を扱わず、生存課題に関係する差分だけを前景化するからこそ、未知の状況でも「同じ種類の状況」として扱える。[2][3]
| 小項目 | 汎化が成立する条件 | 成立しないときの症状 |
|---|---|---|
| 3.1 | 行動に関係する差分を抽出できる | 見かけの差に過剰反応し、場当たり的になる |
| 3.2 | 意味の多様性を含む環境で評価される | 固定環境に過学習し、外に出ると崩れる |
| 3.3 | 意味の同値類が安定に作られている | 同値類が崩れ、探索も汎化も不安定になる |
4. 「賢く見える」方策が存在する理由:安定した行為様式が外から観測される
「賢く見える」とは、内面を持つかどうかではなく、外から観測される行為が、目的に対して一貫しており、未知状況でも破綻しにくく、失敗から回復するように見える、という意味である。強化学習は、十分な探索と更新を経ると、こうした行為様式を獲得し得る。
4.1 自己対戦と長期学習は、方策空間の中に自律的なカリキュラムを作る
AlphaGo 系の研究では、方策と価値の学習、自己対戦、探索(木探索)を組み合わせることで、戦略が段階的に高度化することが示された。ここで「賢さ」に見えるものは、世界の規則と対戦相手(環境)の構造に適合した行為様式が、方策空間内で安定点として形成される現象である。[14][15]
4.2 多主体の競合は、環境が用意していないはずの「道具使用」を立ち上げる
いわゆる隠れんぼ環境で観測されたツール使用や戦略の連鎖は、単純な目的(報酬)でも、相互作用が生む自動カリキュラムによって複雑な行為様式が創発し得ることを示した。ここで起きているのは、方策空間の探索が、単に良い点を探すだけでなく、相手の方策も変わるという条件の下で、「意味的に異なる戦略」を次々と生成することだと言える。[16][17]
4.3 意味空間の視点では、賢さは「目的に対して安定な意味」を持つことに近い
ある方策が賢く見えるのは、外部から見ると、状況の差を適切に同値類へまとめ、必要なときにだけ差分へ反応し、目的に沿って行為を調整しているように見えるからである。これは、方策が意味空間上で安定した地形(安定点や準安定領域)を持ち、そこから大きく外れないように振る舞うという現象として理解できる。この「安定」は、以前の記事が述べた「更新様式の再設計」と同じ語彙で表現できる。[1]
| 小項目 | 観測される「賢さ」 | 意味空間での言い換え |
|---|---|---|
| 4.1 | 戦略が段階的に高度化する | 自己対戦が方策空間に自動カリキュラムを作る |
| 4.2 | 道具使用や協調が出る | 多主体相互作用が意味的多様性を増やす |
| 4.3 | 未知状況でも破綻しにくい | 同値類の安定と差分反応の分離ができている |
5. 主体性は何か:自己更新と自己参照で測れる対象にする
以前の記事は、AI に自由意志があるかという問いを、感覚や内面ではなく、更新構造の機能として扱うべきだと述べた。具体的には、自己のモデルを更新できるか、更新の理由を説明可能な形で保持できるか、自己の更新を参照して方策を変えられるか、という観点である。これは、主体性を「更新可能性」と「自己参照」の組として定義し直す提案である。[1]
5.1 サイバネティクスから見ると、主体性は制御階層の厚みである
差分検出とフィードバックという一般形は、生命や機械に共通する。この枠組みでは、主体性は「何かを無から生む」ことではなく、制御階層が増え、より長い時間幅で誤差を抑制し、目標に沿った更新を維持できることに現れる。[18][19][20]
5.2 予測処理と自由エネルギー原理は、更新を「予測と誤差最小化」として書き換える
予測処理(predictive processing)や自由エネルギー原理は、脳を受動的な入力処理ではなく、予測と誤差最小化によって行為と知覚を結び付ける枠組みとして扱う。ここでは、主体は世界を写すのではなく、更新を成立させるモデルを維持し、誤差を通じてモデルを更新する存在になる。方策更新を、予測誤差と目的(報酬)に基づく更新として読むと、強化学習と同一地平で接続できる。[21][22]
5.3 「理由に反応する仕組み」を主体の所有として評価する
自由意志を制度へ翻訳する際に必要なのは、超越的分岐の有無ではなく、行為を生んだ仕組みが本人のものであり、理由に反応して更新し得るか、という点である。これは両立論の中心軸として整理されてきた。ここで「所有」とは、責任を帰属できるほどに、自己参照的に更新経路が保たれている、という意味である。[23][24]
| 小項目 | 主体性の指標 | 強化学習での対応 |
|---|---|---|
| 5.1 | 制御階層の厚み、長期の誤差抑制 | 階層的方策、時間抽象、安定化 |
| 5.2 | 予測と誤差最小化による更新 | 表現学習と方策更新の統合的理解 |
| 5.3 | 理由応答性と所有(オーナーシップ) | 方策が説明可能な更新履歴を持つか |
6. 自由意志を「分岐管理」として定義する:方策更新の社会的翻訳
ここで本稿の中心接続を、明示的に定義として固定する。自由意志を「分岐管理」として定義するとは、選択の瞬間に因果列を超えて分岐する力を想定するのではなく、時間的に拡張された更新過程の中で、将来の行為様式を変えられる能力を自由と呼ぶ、ということである。これは、強化学習において方策を学習し、将来の行動生成規則を変えることと同型である。[1][6]
6.1 神経科学が揺さぶるのは「瞬間の分岐」だが、能力としての自由は残る
リベット実験などは、「意識的に決めた」と感じる前に準備電位が始まることを示し、瞬間の意識決断を自由意志の根拠にする立場を弱める。しかし、これにより直ちに「責任が崩れる」わけではない。能力としての自由(学習、抑制、習慣修正、自己調整)を対象にすれば、神経科学の知見は、免責装置ではなく、更新可能性を回復するための情報として扱える。[25][26][27]
6.2 「意志の感覚」は事後的でも、更新様式の再設計は実務上の操作対象になる
意志の感覚が事後的な帰属である可能性は、心理学的にも議論されてきた。それでも、教育、治療、訓練、制度設計が、人の行動様式を変え得るという事実は残る。つまり、自由意志を「感覚の真偽」ではなく「更新可能性の設計」として扱えば、操作対象は消えない。[28][1]
6.3 責任は報復ではなく、更新可能性の設計として再定義される
超越的分岐を失ったとき、報復の直観は弱まる。しかし、制度が必要とするのは、被害の回復、再発の予防、危険の隔離、学習支援、依存や病理の治療などであり、これは更新可能性の設計である。自由意志を能力として定義したとき、責任もまた能力差と支援可能性、介入の正当化、説明責任という形で制度へ翻訳される。[1][23]
| 小項目 | 議論の対象 | 制度への翻訳 |
|---|---|---|
| 6.1 | 瞬間の意識決断の弱体化 | 能力回復の支援情報として神経科学を用いる |
| 6.2 | 意志感覚の事後性 | 更新様式の再設計を政策対象として残す |
| 6.3 | 報復の縮退 | 回復、予防、隔離、支援、説明責任へ再配置 |
7. 最終まとめ:強化学習・知能・主体性・自由意志は、更新構造の同一地平で接続できる
本稿が行った接続を、最後に 5 つの短い命題として固定する。
| 観点 | 内容(わかりやすい言い換え) | 本稿での位置づけ |
|---|---|---|
| 方策空間 | 状態を見て行動を決める「規則の集合」であり、主体が世界をどう切り取り、どう振る舞うかの型そのもの。 | 環世界生成と同型。強化学習と主体論を接続する中核概念。 |
| 探索が破綻する理由 | 方策を少し変えても結果が少しずつ変わらず、行為の意味が断裂してしまうため、改善方向が見えなくなる。 | 「意味の勾配」が消える現象として説明。探索不能性の本質。 |
| 汎化が起きる理由 | 見かけの違う状態を、行動上は同じ意味を持つ状況としてまとめて扱えているから。 | 記憶ではなく意味の同値類に反応する方策の性質。 |
| 賢く見える理由 | 目的に対して安定した行為様式が形成され、未知状況や失敗後でも大きく崩れないため、外から知的に見える。 | 知能の実体ではなく、方策空間上の安定構造の観測結果。 |
| 主体性 | 行動を生む仕組みを自分で更新し、その更新を参照しながら将来の振る舞いを変えられること。 | 自己更新と自己参照の能力として定義。 |
| 自由意志 | 瞬間の選択で因果を断ち切る力ではなく、自分の行為様式(方策)を時間をかけて修正・管理できる能力。 | 「分岐管理」として再定義。方策更新と同型。 |
| 責任・制度 | 罰として過去を裁くことではなく、再発防止や回復のために、行為様式をどう変えられるかを設計すること。 | 自由意志を能力として扱ったときの社会的翻訳。 |
以上により、強化学習、知能、主体性、自由意志は、それぞれ別の領域の話題ではなく、「更新構造の内部で、意味空間(方策空間)が形成され、更新され、安定化し、制度へ翻訳される」という一つの連結として扱える。以前の記事が述べた結論文「自由意志とは、環世界に拘束された主体が、それでもなお自らの更新様式を時間的に再設計し続ける能力である」を、強化学習の言葉で言い換えれば、「自由意志とは、方策空間を時間的に更新し続ける能力である」と書ける。ただし、ここでの同一視は比喩ではない。両者が同じ地平に立つのは、どちらも「実体」ではなく「更新の連鎖(制約下の差分取り込み)」を基本単位としているからである。[1]
参考文献
- id774, 「自由意志について再考する」 (2026-01-27). https://blog.id774.net/entry/2026/01/27/3375/
- id774, 「人間と環世界」 (2026-01-26). https://blog.id774.net/entry/2026/01/26/3371/
- J. von Uexküll, “A stroll through the worlds of animals and men” (1934). https://www.codebiology.org/pdf/von%20Uexk%C3%83%C2%BCll%20J%20%281934%29%20A%20stroll%20through%20the%20worlds%20of%20animals%20and%20men.pdf
- R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, 2nd ed. (2018). https://incompleteideas.net/book/the-book-2nd.html
- R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, 2nd ed. (PDF). https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
- R. J. Williams, “Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning” (1992). https://www-anw.cs.umass.edu/~barto/courses/cs687/williams92simple.pdf
- R. S. Sutton, D. McAllester, S. Singh, Y. Mansour, “Policy Gradient Methods for Reinforcement Learning with Function Approximation” (2000). https://papers.neurips.cc/paper/1713-policy-gradient-methods-for-reinforcement-learning-with-function-approximation.pdf
- P. Ladosz, L. Weng, M. Kim, H. Oh, “Exploration in Deep Reinforcement Learning: A Survey” (2022). https://arxiv.org/abs/2205.00824
- J. Schulman, F. Wolski, P. Dhariwal, A. Radford, O. Klimov, “Proximal Policy Optimization Algorithms” (2017). https://arxiv.org/abs/1707.06347
- D. Pathak et al., “Curiosity-driven Exploration by Self-supervised Prediction” (2017). https://arxiv.org/pdf/1705.05363
- V. Mnih et al., “Human-level control through deep reinforcement learning” (Nature, 2015). https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf
- K. Cobbe et al., “Leveraging Procedural Generation to Benchmark Reinforcement Learning” (Procgen, 2020). https://proceedings.mlr.press/v119/cobbe20a/cobbe20a.pdf
- OpenAI, Procgen Benchmark (repository). https://github.com/openai/procgen
- D. Silver et al., “Mastering the game of Go with deep neural networks and tree search” (Nature, 2016). https://augmentingcognition.com/assets/Silver2016a.pdf
- D. Silver et al., “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play” (AlphaZero, Science, 2018). https://gwern.net/doc/reinforcement-learning/model/alphago/2018-silver.pdf
- B. Baker et al., “Emergent Tool Use From Multi-Agent Autocurricula” (2019). https://arxiv.org/abs/1909.07528
- OpenAI, “Emergent Tool Use from Multi-Agent Interaction” (blog, 2019). https://openai.com/index/emergent-tool-use/
- N. Wiener, Cybernetics: Or Control and Communication in the Animal and the Machine (1948). https://archive.org/details/cyberneticsorcon0000unse
- W. R. Ashby, An Introduction to Cybernetics (1956). https://ashby.info/Ashby-Introduction-to-Cybernetics.pdf
- H. R. Maturana and F. J. Varela, Autopoiesis and Cognition: The Realization of the Living (1980). https://link.springer.com/book/10.1007/978-94-009-8947-4
- K. J. Friston, “The free-energy principle: a unified brain theory?” (2010). https://www.nature.com/articles/nrn2787
- A. Clark, Surfing Uncertainty: Prediction, Action, and the Embodied Mind (2016). https://books.google.com/books/about/Surfing_Uncertainty.html?id=Yoh2CgAAQBAJ
- J. M. Fischer and M. Ravizza, Responsibility and Control: A Theory of Moral Responsibility (1998). https://www.cambridge.org/core/books/responsibility-and-control/54D0EB8AEDEF4D5F4930D691EC214E01
- J. M. Fischer, “Guidance control and reasons-responsiveness” (excerpt). https://www.filosoficas.unam.mx/docs/942/files/Fischer%20Guidance%20control%20and%20RR.pdf
- B. Libet et al., “Time of conscious intention to act in relation to onset of cerebral activity (readiness-potential)” (1983). https://academic.oup.com/brain/article-abstract/106/3/623/271932
- B. Libet et al., PDF (1983). https://www.federvolley.it/sites/default/files/Brain-1983-LIBET%20-%20Time%20of%20consious%20intention%20to%20act%20in%20relation%20to%20onset%20of%20cerebral%20activity.pdf
- A. Lavazza, “Free Will and Neuroscience: From Explaining Freedom Away to New Ways of Operationalizing and Measuring It” (2016). https://pmc.ncbi.nlm.nih.gov/articles/PMC4887467/
- D. M. Wegner, The Illusion of Conscious Will (2002). https://mitpress.mit.edu/9780262731621/the-illusion-of-conscious-will/