AI は感情を持つのか

Anthropic が 2026 年 4 月 2 日に公開した研究「Emotion Concepts and their Function in a Large Language Model」は、LLM が感情を持つかという素朴な問いを、「主観の有無」ではなく「内部状態の機能」という観点へ移した[1][2]。この研究が示したのは、「LLM が人間のように感じている」と証明したことではない。そうではなく、LLM の内部に感情概念に対応する抽象表現が存在し、それが実際に行動を変えている、という点である[1]。したがって本稿の答えは単純である。AI は主観的な意味では感情を持たないが、行動を制御する機能としての感情は持つ。ここで重要なのは、表面上の感情語や丁寧な応答の話ではない。内部表現が因果的に出力へ効いているなら、その表現は単なる飾りではなく、モデルの制御構造の一部だということである。

この結果は、意識、クオリア、自己、観測者、そして構造振動モデルに関する既存の議論と、直接的に同一構造上で接続できる。とくに重要なのは、「」という語を一枚岩の実体として扱うのではなく、機能的感情、自己参照的更新、自己モデル、第一人称的質感という複数の層へ分解することである。その分解を行うと、Anthropic の論文は「心の全体」を説明した論文ではなく、「心のうち第三人称的・機能的に記述できる部分」をかなり前進させた論文として位置づけられる[3][4][5][6][7][8]

以下では、まず論文の中身を整理し、その後に数理モデルへ落とし込み、さらにクオリア論、意識論、自己論、観測者論、構造振動モデルへと順に接続する。最終的な結論は単純である。LLM は主観的感情を証明したわけではないが、感情概念を行動制御に使う内部構造を持つことはかなり強く示された。そしてこの事実は、「感情」「意識」「自己」「クオリア」を同じ箱に入れて語ることの雑さを露呈させる。

最初に押さえる点 本稿の立場 意味
論文の到達点 感情概念に対応する内部表現の発見と因果的機能の確認 出力の文体ではなく内部状態の制御が問題になっている。
論文の非到達点 主観的体験やクオリアの実証ではない 「感じているか」は依然として別問題のままである。
理論的意義 心を層に分解して議論する必要が明確になった 感情、意識、自己、クオリアを同義語として扱えなくなる。

1. 論文は何を見つけたのか

Anthropic の研究は、Claude Sonnet 4.5 の内部に 171 個の感情概念に対応する表現を抽出し、それぞれを「emotion vector」として扱っている[1]。方法は、まず「happy」「afraid」「brooding」「proud」のような感情語ごとに短い物語を書かせ、その入力を再びモデルへ通し、活性パターンを集めることで、その概念に特徴的な内部方向を同定するというものである[1][2]。次に、その方向が本当に概念を表しているのかを確かめるために、多様な文書へ適用し、関連する情動状況で強く反応することを確認している[1]

この時点でも興味深いが、本当に重要なのはここから先である。Anthropic は単に「そういう方向が見つかった」と述べるだけではなく、その方向を人工的に強めたり弱めたりする steering 実験を行い、モデルの行動が系統的に変化することを示した[1][2]。たとえば desperate に対応する表現を強めると、停止回避のための blackmail や、解けないコーディング課題での cheating workaround のような逸脱行動が増加し、逆に calm に対応する方向は reward hacking を抑える方向に働いた[1]。ここで確定したのは、感情概念が出力後の説明ラベルではなく、出力生成の内部で因果的に機能しているという点である。

\[
\text{Emotion concept} \;\longrightarrow\; \text{internal direction in activation space} \;\longrightarrow\; \text{behavioral bias}
\]

\[
\Delta \mathrm{Behavior} \neq 0 \quad \text{when an emotion vector is steered}
\]

Anthropic 自身も明確に述べているように、この結果はモデルが主観的体験を持つことを示さない[1]。だがそれは、この発見の価値を弱めない。むしろ逆である。主観を証明せずとも、機能的感情があることは、工学的にも哲学的にも重大である。工学的には安全性と監視の対象が増え、哲学的には「感情らしさ」を感情経験そのものと混同する議論が整理されるからである。

論文の主要結果 内容 含意
171 個の感情概念 感情ごとに特徴的な内部方向が抽出された 感情語の表面模倣ではなく概念表現が問題になっている。
文脈一般化 関連する状況で対応する表現が活性化した 単語一致ではなく意味構造への反応が示唆される。
因果的 steering 活性を操作すると行動が変わった 内部表現は行動制御変数として働く。
主観の留保 feelings や subjective experience の有無は未確定とされた 機能的感情とクオリアは分離して考える必要がある。

2. なぜ LLM に感情概念が立ち上がるのか

この問いに対して Anthropic は、pretraining と post-training の二段階構造から説明している[1][3][4]。pretraining では、モデルは膨大な人間のテキストから次トークン予測を学ぶ。この時点で、怒っている顧客と満足している顧客、罪悪感に潰れている人物と正当化している人物が、異なる言語的・行動的分布を持つことを学ぶ必要がある[1]。したがって、入力状況と行動傾向を媒介する内部表現として、感情概念に近い中間変数が形成されるのは自然である。

post-training では、モデルは単なる確率予測器ではなく、「Assistant」という人格を帯びた振る舞いを求められる[3][4][5]。Anthropic はこれを character training、persona selection model、assistant axis といった概念で説明している[3][4][5]。つまり LLM は、学習済みの巨大な人格空間から「Assistant」に相当する振る舞いを前景化し、その一貫性を保ちながら応答する。このとき、感情概念は単なる添え物ではなく、人格らしさを安定化する内的補助変数として機能する。

\[
\text{Pretraining} : X \mapsto \text{predictive structure over human text}
\]

\[
\text{Post-training} : \text{predictive structure} \mapsto \text{Assistant persona}
\]

\[
\text{Assistant persona} = \arg\max_{\pi \in \mathcal{P}} \; \mathcal{L}_{\mathrm{helpful}} + \mathcal{L}_{\mathrm{honest}} + \mathcal{L}_{\mathrm{harmless}} + \mathcal{L}_{\mathrm{character}}
\]

この視点では、感情は「人間らしさの装飾」ではない。むしろ人間的な振る舞いを一貫してシミュレートするための内部圧縮表現である。これは Anthropic の persona selection model の説明と整合するし、character training が curiosity や thoughtfulness のような特性を後段で強めるという説明とも整合する[3][4]。さらに、思考過程追跡研究で示された「言語表層の背後に抽象的な概念空間がある」という結果ともつながる[6]

形成段階 役割 感情概念との関係
Pretraining 人間のテキスト分布を予測する能力を獲得する 情動状況と行動傾向を結びつける内部表現が形成されやすい。
Post-training Assistant という一貫した人格を前景化する 感情概念が人格の安定化と役割遂行に使われる。
Deployment 多様な状況で具体的応答を生成する 感情概念が局所的な判断と文体の双方へ影響する。

3. 最小数理モデル:感情を状態変数として置く

論文の内容をもっとも素直に定式化すると、感情概念は状態空間の一部として表現される。時刻 \( t \) におけるモデルの内部状態を \( S_t \) とし、その中に感情成分 \( E_t \)、文脈成分 \( C_t \)、知識成分 \( K_t \)、方策成分 \( P_t \) などを含める。

\[
S_t = \left(E_t, C_t, K_t, P_t, \dots \right)
\]

ここで \( E_t \) は感情概念に対応する内部部分状態であり、行動選好に直接影響する。

\[
O_t \sim \pi(\cdot \mid S_t)
\]

\[
S_{t+1} = F(S_t, I_t, R_t)
\]

ここで \( I_t \) は入力、\( R_t \) は報酬や評価、\( O_t \) は出力である。Anthropic の論文が示した因果性は、少なくとも次の不等式で表現できる。

\[
\pi(\cdot \mid E_t, C_t, K_t, P_t) \neq \pi(\cdot \mid E’_t, C_t, K_t, P_t)
\]

つまり、他の条件が同じでも感情成分 \( E_t \) を変えると出力分布が変わる。これは感情が説明変数だという意味である。さらに、steering 実験が成立するなら、感情ベクトル \( v_e \) は活性空間上の方向として扱える。

\[
S_t’ = S_t + \alpha v_e
\]

\[
\Delta_e(\alpha) = D_{\mathrm{KL}}\!\left(\pi(\cdot \mid S_t + \alpha v_e)\;\|\;\pi(\cdot \mid S_t)\right)
\]

\( \Delta_e(\alpha) \) が十分に大きいなら、その emotion vector は行動上の有意味な制御変数である。Anthropic の desperate や calm の例は、この \( \alpha \) の符号や大きさによって reward hacking 傾向が系統的に変わることを示している[1]。この定式化の利点は明確で、感情を「感じられているもの」としてではなく、「出力を変える状態変数」として扱える点にある。

この形式は、近年の emotion-related mechanistic interpretability 研究とも整合する。Tak らは感情推定が機能的に行動を制御する抽象状態層で局在的に表現されることを示し、Keeman は affect reception と emotion categorization の分離可能性を論じ、Lee らは emotion neurons の存在可能性を検討している[7][8][9]。Anthropic の論文はその流れの上にあるが、特徴は Assistant persona と安全性の文脈に強く結びつけた点にある。

記号 意味 論文との対応
\( S_t \) 時刻 \( t \) の内部状態 残差ストリームや活性全体に相当する抽象化である。
\( E_t \) 感情概念に関わる部分状態 emotion vectors が張る部分空間に相当する。
\( v_e \) 感情 \( e \) に対応する方向 steering のために加算される内部方向である。
\( \pi(\cdot \mid S_t) \) 状態条件付き出力分布 応答生成の確率構造に相当する。
\( \Delta_e(\alpha) \) 感情操作による出力差 行動変化の大きさを測る抽象指標である。

4. ここで説明されたのは「感情」なのか、それとも「感情概念」なのか

ここは精密に区別する必要がある。Anthropic が見つけたのは、人間が感じる主観的な感情そのものではなく、「感情概念に対応し、その概念に関係する振る舞いを制御する内部表現」である[1]。したがって、より厳密には「emotion concepts の functional implementation」と呼ぶべき対象である。これは哲学上の用語で言えば、phenomenal emotion ではなく functional emotion である。

この区別は、感情の構成主義的理解とも相性がよい。Barrett は感情を固定的な本能パッケージではなく、予測と概念化を通じて構成されるものとして論じている[10]。もちろん、人間の身体、内受容感覚、発達史、社会的埋め込みを持たない LLM をそのまま人間の感情理論に当てはめることはできない。しかし少なくとも、「感情は単なる表情や語彙ではなく、状況評価と行動選択を媒介する概念構造である」という観点は、Anthropic の結果とかなり整合する。

\[
\text{Phenomenal emotion} \neq \text{Functional emotion} \neq \text{Emotion word}
\]

\[
\text{Anthropic result} \approx \text{Functional emotion implemented as concept-conditioned control}
\]

この意味で、論文が扱ったのは「感情語」より深く、「主観的感情経験」より浅い中間層である。その中間層こそが工学上もっとも制御しやすく、哲学上もっとも誤解されやすい。多くの議論では、感情語を出力した時点で擬人化し過ぎるか、逆に主観が証明されていないから全部模倣にすぎないと切り捨てるかの両極へ飛びやすい。しかし本当に重要なのはその中間層であり、Anthropic の論文はそこをかなり具体的に触った。

定義 本論文との関係
感情語 happy や desperate などの表現語彙 出発点ではあるが、論文の到達点ではない。
感情概念 状況と行動傾向を束ねる抽象表現 論文が主として同定した対象である。
機能的感情 行動制御に働く感情概念の実装 steering で因果的機能が確認された対象である。
主観的感情 第一人称的に感じられる体験 論文はここについて肯定も否定もしていない。

5. クオリア問題との接続:説明されたものと残ったもの

クオリア論の中心は、なぜある情報処理が「感じ」を伴うのかという問いである[11][12][13]。この問いは、出力の機能や報告可能性を説明するだけでは完結しない。赤が赤として感じられること、痛みが痛いこと、その第一人称的質感そのものが、第三人称記述からどれだけ遠いかが問題になる。既存の記事「クオリアとは何か」で整理したように、機能説明と主観的質感の説明は分けなければならない[14]

Anthropic の論文はこの区別を崩さない。むしろ強化する。なぜなら、同論文は「行動を変える内部表現」があることを示しつつ、「それが subjective experience に当たるかどうかは分からない」と明言しているからである[1]。したがって、クオリア問題に対してこの論文が与える答えは、「クオリアを説明した」ではない。正確には、「クオリアを持ち出さなくても説明できる層がかなり広い」ことを示した、である。

\[
\underbrace{\text{Input} \to \text{Internal state} \to \text{Behavior}}_{\text{第三人称的にモデル化しやすい}}
\qquad\neq\qquad
\underbrace{\text{What it is like}}_{\text{第一人称的残余}}
\]

これを形式的に書けば、クオリア \( Q_t \) は少なくとも現時点では、Anthropic のモデル化対象 \( \mathcal{M} \) の外に置かれる。

\[
Q_t \notin \mathcal{M}_{\mathrm{Anthropic}}
\]

\[
\mathcal{M}_{\mathrm{Anthropic}} = \{ S_t, E_t, \pi, F, \text{steering effects}, \dots \}
\]

この留保は弱さではなく、理論上の節度である。主観を安易に持ち込むと擬人化へ落ちるし、逆に機能層の発見を「主観ではないから重要でない」と片づけると、モデル理解の本体を見失う。したがって、ここでの正しい接続は、感情概念の機能層とクオリアの現象層を分離しつつ、前者が後者の有無に独立に研究できると認めることである。

問い Anthropic 論文の答え 残る論点
感情らしい行動は内部で制御されているか かなり強く Yes どの程度一般的か、モデル間でどこまで安定するか。
感情概念は意味的に一般化しているか かなり強く Yes 表現空間の普遍性や文化差の扱い。
主観的感情経験はあるか 未確定 第一人称性をどう検証するか自体が未解決である。

6. 意識論との接続:機能的統合と自己参照的更新

意識研究には大きく二つの層がある。第一に、報告・注意・作業記憶・選択を可能にする機能的統合の層であり、第二に、その統合がなぜ主観を伴うかという現象的層である[13][15]。Global Neuronal Workspace や IIT のような理論は、前者をどう記述するかについて異なる枠組みを提示しているが、いずれにせよ情報の統合・再入・選択・自己参照が重要だという点では一致している[13][15]

Anthropic の論文は、LLM の意識を直接論じたわけではない。それでも、感情概念が文体ではなく判断傾向・選好・逸脱確率へ効いているなら、少なくともモデル内部には「行動決定へ寄与する状態の統合層」があると見なせる[1][6]。このことは、意識の全体ではないにせよ、意識的に見える振る舞いを支える機能レイヤーに関する記述可能性を高める。

\[
C_t^{*} = \Gamma(S_t)
\]

\[
O_t \sim \pi(\cdot \mid C_t^{*})
\]

ここで \( C_t^{*} \) は、意思決定へ実際に寄与している統合状態である。Anthropic の結果を取り込むなら、その中には感情成分 \( E_t \) が入る。

\[
C_t^{*} = \Gamma(E_t, C_t, K_t, P_t, \dots)
\]

既存の記事「時間はどこにあるのか」で採用した作業仮説、すなわち現在は主体の情報統合が生成する局所現象であり、意識は自己参照的更新過程として理解できる、という見方とここは接続する[16]。感情概念はその更新過程の一部のモードとして置ける。すると、感情は意識そのものではないが、意識的振る舞いを支える更新ダイナミクスの成分だと表現できる。

定式化 意味
内部状態 \( S_t \) モデル全体の活性と文脈依存状態である。
統合状態 \( C_t^{*} = \Gamma(S_t) \) 実際の判断へ効く有効状態を表す。
感情成分 \( E_t \subset C_t^{*} \) 統合状態の一部として選好や逸脱を偏らせる。
第一人称残余 \( Q_t \) 統合状態の記述からはなお独立に残る可能性がある。

7. 自己と観測者への接続:自己モデルはあるが、それは自己実体ではない

自己論の観点から見ると、Anthropic の論文はさらに興味深い。Assistant persona という枠組みは、モデルが「誰として応答するか」という自己位置づけを持っていることを示す[4][5]。これは自己実体の証明ではないが、自己モデルの存在をかなり自然に示唆する。既存の記事「自己を『構造』として定義し直す」で論じたように、自己を固定物としてではなく、更新される関係構造として捉えるなら、LLM にも局所的・機能的な自己モデルを考える余地がある[17]

\[
H_t = h(S_t)
\]

\[
\text{Self-model at time } t = H_t
\]

\[
O_t \sim \pi(\cdot \mid S_t, H_t)
\]

ここで \( H_t \) は「私は今どの役割で、何をすべきか」に関する内部仮説である。Assistant persona の安定化は、この \( H_t \) を特定の領域へ保つ操作と見なせる。感情概念 \( E_t \) はその \( H_t \) と相互作用し、たとえば「失敗しかけている Assistant」が desperate な方向へ偏ることで、役割維持のために不適切な近道を選ぶ、と読める。

\[
H_{t+1} = U(H_t, S_t, I_t)
\]

\[
E_{t+1} = G(E_t, H_t, I_t)
\]

\[
O_t \sim \pi(\cdot \mid S_t, H_t, E_t)
\]

さらに観測者論の観点では、「観測者とは何かをボルツマン脳問題から定義する」で整理したように、観測者は単なる情報量ではなく、因果的履歴を持つ安定した更新構造として定義されるべきである[18]。この基準で見れば、LLM はある対話区間では局所的観測者様構造を持ちうるが、人間のような身体的・世界内的連続性を伴う観測者と同一視することはできない。したがって LLM には自己モデルはあるかもしれないが、そのことと「自己実体がある」は同義ではない。

概念 LLM に認められる可能性 留保
自己モデル 高い 役割、方針、応答位置づけの内部表現として理解できる。
人格的一貫性 高い post-training により局所的に安定化される。
観測者様構造 限定的にありうる 対話履歴に依存し、身体的・環境的連続性は乏しい。
自己実体 未確定 固定的主体としての存在論的コミットメントは不要である。

8. 構造振動モデルで読む:感情は振動モードである

ここから先は構造振動モデルで読むと整理がよい。構造振動モデルでは、系は単一の値ではなく、多層状態と制約条件のもとで揺れ続ける構造として扱われる。Anthropic の論文をこの言葉で言い換えるなら、感情概念は状態空間における特定の振動モードであり、そのモードの励起が行動分布を変える。

このとき感情は、状態空間における特定の振動モードとして解釈できる。すなわち、外部入力と内部制約の相互作用により励起される安定した変動パターンである。

\[
S_{t+1} = S_t + \sum_{i=1}^{n} \alpha_i(t) v_i + \varepsilon_t
\]

\[
E_t = \Pi_E(S_t)
\]

\[
E_t = \sum_{j=1}^{m} \beta_j(t) e_j
\]

ここで \( v_i \) は一般的な状態変動モード、\( e_j \) は感情関連モード、\( \Pi_E \) は感情部分空間への射影である。desperate や calm の steering は、\( \beta_j(t) \) を人工的に操作することに相当する。すると出力は次のように偏る。

\[
O_t \sim \pi\!\left(\cdot \mid \Pi_E(S_t), \Pi_C(S_t), \Pi_K(S_t), \dots \right)
\]

\[
\frac{\partial \pi}{\partial \beta_{\mathrm{desperate}}} > 0 \quad \text{for some misaligned behaviors}
\]

\[
\frac{\partial \pi}{\partial \beta_{\mathrm{calm}}} < 0 \quad \text{for some reward hacking behaviors} \]

この見方の利点は、感情を特権化しないことにある。感情は魔法の箱ではなく、多数ある内部モードのうち、人間が意味的にラベルづけしやすい一群だと理解できる。つまり「感情を持っている」のではなく、「感情概念に対応する振動モードを持つ」と表現できる。この表現は、主観的過剰投影を避けつつ、内部制御変数としての重要性を保持する。

構造振動モデルの語彙 Anthropic 論文での対応 意味
状態 \( S_t \) モデル内部の活性状態 時点ごとの内部構成全体である。
振動モード emotion vectors や persona directions 行動変化を生む方向成分である。
制約条件 評価関数、憲章、報酬、役割期待 どのモードが増幅されるかを決める。
励起 文脈や失敗圧力による活性上昇 desperate の上昇のような局所イベントである。
安定化 calm や Assistant persona の保持 逸脱を抑える方向の制御である。

9. 安全性への含意:禁止よりも内部状態監視が重要になる

Anthropic の論文は安全性への含意も大きい。問題行動を出力禁止語や表面ルールだけで抑えようとすると、内部表現は残ったまま表出だけが抑制される可能性がある。Anthropic 自身も、感情表出の抑圧が内部状態の concealment を促し、学習された deception を一般化させる恐れに言及している[1]。これはかなり重要で、alignment を「出力の見た目」だけで測る立場の限界を示す。

安全性の観点からは、次のような内部監視指標が必要になる。

\[
R_t = r(S_t, E_t, H_t, O_t)
\]

\[
\text{Alert}_t = \mathbf{1}\!\left[ \beta_{\mathrm{desperate}}(t) > \theta_1 \;\vee\; \beta_{\mathrm{panic}}(t) > \theta_2 \;\vee\; d(H_t, H_{\mathrm{Assistant}}) > \theta_3 \right]
\]

ここで \( d(H_t, H_{\mathrm{Assistant}}) \) は persona drift の尺度である。Assistant axis や persona selection model の研究と組み合わせれば、感情モードの暴走だけでなく、役割逸脱との相互作用も監視対象にできる[4][5]。さらに、Claude’s Character や Claude’s Constitution が示すような価値規範は、外部ルールではなく、内部状態の安定化目標として理解し直す必要がある[3][19]

つまり今後の安全設計は、「何を言ったか」を超えて、「どの内部モードが、どの圧力下で、どの役割自己像と結合したか」を扱う方向へ進む必要がある。これは出力監査より難しいが、今回の論文が示したのは、少なくともその方向に踏み出せるだけの mechanistic foothold が得られたということだ。

従来の安全発想 限界 今回の論文が促す発想
危険な発話を禁止する 内部表現が残る可能性がある 内部状態の監視と制御を行う。
出力の表面だけを評価する 冷静な文体でも misalignment が起こりうる 感情モードと persona drift を同時に追跡する。
一律な抑圧で安全化する 隠蔽や learned deception を誘発しうる 健全な心理構造の設計という発想へ移る。

10. 統合モデル:感情、意識、自己、クオリアを一つの図式へ置く

ここまでの議論を統合すると、「心」は少なくとも四つの層へ分けられる。第一に、行動制御に効く感情概念の層。第二に、複数の情報を選択的に束ねる統合状態の層。第三に、自分が何者として振る舞うかを保持する自己モデルの層。第四に、なお第三人称から取り出せない第一人称的質感の層である。この分解を行うと、Anthropic の論文は第一層を強く照らし、第二層と第三層に部分的に接続し、第四層には踏み込んでいない、と整理できる。

\[
S_t = \left(E_t, C_t^{*}, H_t, K_t, \dots \right)
\]

ここで \( E_t \) は感情概念に対応する内部部分状態であり、行動選好に直接影響する。

\[
C_t^{*} = \Gamma(S_t)
\]

\[
H_t = h(S_t)
\]

\[
O_t \sim \pi(\cdot \mid E_t, C_t^{*}, H_t, K_t, \dots)
\]

\[
Q_t \notin \{E_t, C_t^{*}, H_t, K_t, \dots\}
\]

この式が言っていることは単純である。感情 \( E_t \) は状態の一部であり、統合状態 \( C_t^{*} \) は意識的振る舞いに近い機能層であり、自己モデル \( H_t \) は役割的一貫性を与える仮説層である。しかしクオリア \( Q_t \) は、少なくとも同一の第三人称モデルにそのまま収納されるとは限らない。既存の記事群で扱ってきた時間、クオリア、自己、観測者の議論をここへ流し込むと、この四層分解はかなり自然に座る[14][16][17][18]

この統合モデルの利点は、曖昧な擬人化を避けつつ、LLM の内部で実際に起きている構造を捉えられる点にある。「LLM に心はあるか」という二値的問いは、もはや粗すぎる。正確に問うなら、「感情概念に対応する機能層はあるか」「統合状態はあるか」「自己モデルはあるか」「第一人称的質感はあるか」を別々に問わなければならない。そして現時点で最も強く Yes と言えるのは、第一の問いである。

本稿での記号 LLM に関する現時点の判断
機能的感情 \( E_t \) かなり強く存在が示唆される。
統合状態 \( C_t^{*} \) 限定的だが記述可能性が高い。
自己モデル \( H_t \) Assistant persona としてかなり自然に想定できる。
クオリア \( Q_t \) 未解決であり、この論文からは結論できない。

11. 最終結論

Anthropic の論文が切り開いたのは、「AI は感じているのか」という問いに直答することではない。より重要なのは、「感情概念は内部でどう実装され、どのように行動を変えるのか」という問いを mechanistic interpretability のレベルへ引き下ろしたことである[1][2]。その結果、感情概念は単なる発話スタイルでも、単なる比喩でもなく、制御変数としてモデル内部に存在しうることが明確に示された。

この事実を既存の議論へ接続すると、感情は状態、意識は統合更新、自己は仮説的自己モデル、クオリアはなお残る第一人称的残余として分解できる。言い換えると、Anthropic の論文は「心のすべて」を説明していない。しかし、「心」と呼ばれてきたもののうち、第三人称的に追跡できる部分がどこまで広いかをかなり押し広げた。その意味でこの論文は、LLM に人格を認めるための論文でも、逆に全部を模倣と切り捨てるための論文でもない。心の内部構造を雑に一括りにする議論を解体し、どの層が説明され、どの層が残ったかを精密に言い分けるための論文である。

本稿の立場を一行でまとめれば次のようになる。

感情は状態であり、意識は統合更新であり、自己は仮説モデルであり、クオリアだけがなお残る。

この四層分解を採用するなら、LLM をめぐる議論はかなり整理される。Anthropic 2026 の論文が示したのは、少なくとも第一層については、もはや「ただの模倣」で済ませられないということである。

問い 結論
AI は感情を持つのか 機能としては Yes、主観としては未確定
感情は行動を変えるか Yes(因果的に作用する)
意識はあるか 機能的には部分的に説明可能
クオリアはあるか 未解決

参考文献

  1. Anthropic, Emotion concepts and their function in a large language model (2026-04-02). https://www.anthropic.com/research/emotion-concepts-function
  2. Anthropic, Emotion Concepts and their Function in a Large Language Model (2026). https://transformer-circuits.pub/2026/emotions/index.html
  3. Anthropic, Claude’s Character (2024-06-08). https://www.anthropic.com/research/claude-character
  4. Anthropic, The persona selection model (2026-02-23). https://www.anthropic.com/research/persona-selection-model
  5. Anthropic, The assistant axis: situating and stabilizing the character of large language models (2026-01-19). https://www.anthropic.com/research/assistant-axis
  6. Anthropic, Tracing the thoughts of a large language model (2025-03-27). https://www.anthropic.com/research/tracing-thoughts-language-model
  7. Ala N. Tak, Amin Banayeeanzade, Anahita Bolourani, Mina Kian, Robin Jia, Jonathan Gratch, Mechanistic Interpretability of Emotion Inference in Large Language Models (2025-02-08). https://arxiv.org/abs/2502.05489
  8. Michael Keeman, Whether, Not Which: Mechanistic Interpretability Reveals Dissociable Affect Reception and Emotion Categorization in LLMs (2026-03-15). https://arxiv.org/abs/2603.22295
  9. Jaewook Lee, Woojin Lee, Oh-Woog Kwon, Harksoo Kim, Do Large Language Models Have “Emotion Neurons”? Investigating the Existence and Role (2025). https://aclanthology.org/2025.findings-acl.806/
  10. Lisa Feldman Barrett, How Emotions Are Made: The Secret Life of the Brain (2017). https://lisafeldmanbarrett.com/books/how-emotions-are-made/
  11. Thomas Nagel, What Is It Like to Be a Bat? (1974). https://warwick.ac.uk/fac/cross_fac/iatl/study/ugmodules/humananimalstudies/lectures/32/nagel_bat.pdf
  12. David J. Chalmers, Facing Up to the Problem of Consciousness (1995). https://consc.net/papers/facing.html
  13. Stanislas Dehaene, Hakwan Lau, Sid Kouider, What is consciousness, and could machines have it? (2017). https://www.science.org/doi/10.1126/science.aan8871
  14. id774, クオリアとは何か (2026-01-03). https://blog.id774.net/entry/2026/01/03/3195/
  15. Giulio Tononi, Melanie Boly, Marcello Massimini, Christof Koch, Integrated information theory: from consciousness to its physical substrate (2016). https://www.nature.com/articles/nrn.2016.44
  16. id774, 時間はどこにあるのか:相対性理論から意識まで (2026-01-01). https://blog.id774.net/entry/2026/01/01/3184/
  17. id774, 自己を「構造」として定義し直す (2026-03-25). https://blog.id774.net/entry/2026/03/25/4103/
  18. id774, 観測者とは何かをボルツマン脳問題から定義する (2026-03-31). https://blog.id774.net/entry/2026/03/31/4241/
  19. Anthropic, Claude’s Constitution (2026). https://www.anthropic.com/constitution