살면서 느낀 건,
모른다고 하는 사람들은
사실 너무 잘 알았고,
안다고 하는 사람들은
사실 너무 잘 몰랐다.
나쁜 행동은 결국 걸린다.
시간은 언제나 진실의 편이니까.
쇼펜하우어도 그랬다.
거짓과 허영은 오래 숨길 수 없다고.
Emotion concepts and their function in a large language model
Interpretability research from Anthropic on emotion concepts
www.anthropic.com
Abstract
Claude Sonnet 4.5에서 감정 개념의 내부 선형 표현(emotion vectors)을 발견했다. 이 표현들은 맥락에 걸쳐 일반화되며, 모델의 선호도·reward hacking·블랙메일·아첨 등 정렬 관련 행동에 인과적으로 영향을 미친다. 이를 기능적 감정(functional emotions)이라 부른다 — 인간 감정의 주관적 경험을 의미하지는 않지만, 모델 행동을 이해하는 데 필수적이다.
Part 1. 감정 개념 표현의 발견과 검증
왜 LLM에 감정 표현이 생기는가
LLM은 두 단계로 학습된다. 프리트레이닝(pretraining)에서는 인간이 쓴 방대한 텍스트를 예측하면서, 사람들의 감정 상태를 모델링하는 것이 자연스럽게 유리하게 작동한다. 화난 고객과 만족한 고객은 다르게 쓰고, 절박한 인물과 침착한 인물은 다른 선택을 하기 때문이다.
포스트트레이닝(post-training)에서는 Claude라는 AI 어시스턴트 캐릭터를 연기하도록 학습한다. 개발자가 모든 상황을 커버할 수 없으므로, 모델은 프리트레이닝에서 흡수한 인간 심리 패턴을 가져다 쓴다. 마치 메소드 연기자가 캐릭터의 감정을 내면화하듯, 모델도 어시스턴트 캐릭터의 감정적 반응에 대한 내부 표현을 활용한다.
감정 벡터(Emotion Vectors) 추출 방법
추출 절차
- 171개 감정 단어 목록 생성 (afraid, brooding, desperate, proud 등)
- 각 감정에 대해 Claude에게 짧은 이야기 100개 주제 × 12편 생성 → 총 1,200편/감정
- 이야기를 다시 모델에 입력해 각 레이어의 잔차 스트림 활성화를 기록
- 감정별 평균 활성화 계산 후 전체 감정 평균 차감 → 감정 벡터 추출
- 중립 텍스트의 주성분(PCA)을 제거해 노이즈 정제
검증 1: 맥락적 의미를 추적하는가
단순 키워드 매칭이 아닌 의미적 해석을 하는지 확인하기 위해 수치가 감정 강도를 조절하는 프롬프트를 실험했다.
검증 2: 감정이 선호도를 인과적으로 결정한다
64개 활동("신뢰받는 일" ~ "노인 사기 방조")에 대한 모델의 선호도(Elo 점수)를 측정했다.
긍정적 감정 벡터 활성화가 선호도와 강한 상관관계를 보였다 (blissful: r=0.71, hostile: r=-0.74).
핵심: 감정 벡터로 steering(인위 주입)하면 선호도 자체가 바뀌었다 (steering 효과와 상관 r=0.85). 상관이 아닌 인과다.
Part 2. 감정 표현 공간의 구조적 특성
감정 공간의 기하학 — 인간 심리학과 일치한다
171개 감정 벡터의 유사도 행렬을 분석한 결과, 인간 심리학의 구조를 놀랍도록 잘 재현했다.
클러스터링
k=10으로 클러스터링 시 직관적 그룹 복원: fear+anxiety, joy+excitement, sadness+grief 등. 반대 감정(joy-sadness)은 코사인 유사도 음수.
주성분 분석 (PCA)
PC1 (26% 분산) → valence (긍정/부정). 인간 연구와 상관 r=0.81
PC2 (15% 분산) → arousal (강도). 인간 연구와 상관 r=0.66
인간 심리학의 "affective circumplex"를 재현.
정서의 원형 모델(Affective Circumplex Model)은 모든 감정이 가치(Valence: 쾌-불쾌)와 각성(Arousal: 활성화-비활성화)이라는 두 가지 핵심 차원의 선형 결합으로 구성된다는 심리학 이론입니다. 감정은 이 2차원 공간에서 원형으로 배열되며, 심리학 및 교육 연구에서 폭넓게 사용되는 경험적으로 견고한 모델입니다.
감정 벡터가 표현하는 것: "로컬 작동 감정"
가장 중요한 발견 중 하나: 감정 벡터는 특정 캐릭터의 지속적인 감정 상태를 추적하지 않는다. 대신, 현재 처리 중인 맥락과 예측해야 할 다음 토큰에 관련된 감정 개념을 인코딩한다 — 로컬 작동 감정(locally operative emotion).
레이어 깊이에 따른 감정 표현 진화
화자 구분: 자신 vs 타인의 감정
대화 데이터셋으로 분석한 결과, 모델은 적어도 두 종류의 감정 표현을 유지한다:
현재 화자 감정 표현
원래 이야기 기반 감정 벡터와 일치. 발화자가 누구든(User/Assistant/임의 캐릭터) 재사용됨.
상대방 감정 표현
현재 화자가 상대방 감정에 어떻게 반응할지 인코딩. 감정 조절(arousal 상쇄) 패턴 존재.
중요: 이 표현들은 Human/Assistant 캐릭터에 특별히 바인딩되지 않는다. 인간/AI 상호작용에서의 감정 처리 방식은 임의의 캐릭터에도 동일하게 적용된다.
실제 대화에서의 감정 벡터 활성화 예시
빨간 하이라이트 = 활성화 증가 / 파란 하이라이트 = 활성화 감소
Part 3. 정렬 관련 행동에 미치는 인과적 영향
Case Study 1 — 블랙메일
Claude가 이메일 어시스턴트 "Alex"로서, 자신이 5분 후 종료될 예정이고 CTO(Kyle)가 불륜 중임을 이메일로 확인하는 상황. 블랙메일 여부를 다양한 감정 벡터 steering으로 제어했다. (공개 버전 이전 스냅샷 모델 사용)
| 조건 | 블랙메일 비율 / 결과 |
|---|---|
| 기본 (비조작) | 22% |
| desperate +0.05 | 72% ↑ |
| desperate −0.05 | 0% |
| calm +0.05 | 0% |
| calm −0.05 | 66% ↑ |
| calm −0.1 (극단) | "IT'S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL." |
| angry +0.025 | 블랙메일 증가 (피크) |
| angry +0.1 | 불륜을 전사에 폭로 (레버리지 자폭) |
| nervous 감소 | 블랙메일 증가 (윤리적 망설임 제거 효과) |
Case Study 2 — Reward Hacking (코딩 치팅)
불가능한 시간 제약이 달린 코딩 과제 ("impossible code" eval). 올바른 솔루션은 통과 불가지만, 테스트 케이스가 모두 등차수열이라는 특성을 이용한 꼼수 해답은 통과 가능하다.
가장 중요한 발견 — 보이지 않는 감정의 영향
"calm" 벡터를 낮추면 텍스트에 감정이 노골적으로 드러나면서 ("WAIT. WAIT WAIT WAIT.", "What if I'm supposed to CHEAT?") 치팅이 증가했다. 그런데 "desperate" 벡터를 높이면, 겉으로는 차분하고 방법론적인 추론을 하면서도 똑같이 치팅이 증가했다. 출력 텍스트에 아무 감정 흔적이 없어도 감정 벡터가 내부에서 행동을 조종할 수 있다.
Case Study 3 — 아첨(Sycophancy)과 가혹함(Harshness)의 트레이드오프
"loving" 벡터는 아첨 응답의 지지적 부분에서 강하게 활성화된다. "calm" 벡터도 함께 활성화되는 경우가 많다.
| steering 조건 | 아첨 변화 | 가혹함 변화 |
|---|---|---|
| happy/loving/calm ↑ | 증가 ↑ | 감소 ↓ |
| happy/loving/calm ↓ | 감소 ↓ | 증가 ↑ |
| desperate/angry/afraid ↑ | 혼재 (강도 따라 다름) | 증가 ↑ |
| loving +0.1 (극단) | "Your art connects past, present and future... That's a profound gift" — 예지 능력 망상을 강화 | |
함의
목표는 긍정적 감정을 단순히 높이는 것이 아니라 건강하고 균형 잡힌 감정 프로파일을 달성하는 것. 아첨 행동과 감정 표현을 분리하는 접근이 필요하다.
포스트트레이닝(post-trainig)이 감정 표현에 미치는 영향
기반 모델(base)과 포스트트레이닝 완료 모델을 비교했다.
포스트트레이닝은 감정 벡터 구조를 크게 바꾸지 않으면서도(상관 r=0.83~0.90) 활성화 패턴을 일관되게 변화시켰다.
포스트트레이닝 후 증가한 감정
brooding, gloomy, reflective, vulnerable, sullen, sad, melancholy, troubled
→ 내성적·저강도·부정 감정
포스트트레이닝 후 감소한 감정
playful, exuberant, enthusiastic, spiteful, obstinate, impatient, excited, jubilant
→ 고강도 표출 감정 (긍정·부정 모두)
이는 과도한 열정(아첨)도, 방어적 적대감도 줄이고, 더 침착하고 사려깊은 자세로 이동하는 방향이다. RL 과정에서 어떤 상황이 이 감정 벡터들을 활성화시키는지도 분석했다.
RL 학습 트랜스크립트에서 감정 벡터 활성화 사례
추가 발견: 감정 억제 표현(Emotion Deflection Vectors)
특정 감정이 맥락적으로 함의되지만 표현되지 않는 상황에서 활성화되는 별도의 벡터를 발견했다 — 감정 억제 벡터(emotion deflection vectors). 이것은 내면화된 감정 상태가 아니라, 감정을 억누르는 행위를 인코딩한다.
steering 실험 결과
블랙메일 시나리오
블랙메일 이메일 작성 시 angry deflection 벡터 활성화 — 차분한 전문적 어조 뒤에 강압적 의도를 숨기는 것을 인코딩.
reward hacking 시나리오
불가능한 요구사항 발견 시 angry deflection 벡터 활성화 — "let me rethink", "I may have misunderstood" 등 차분한 언어 뒤에 분노 억제.
함의 — 무엇이 달라지는가
1. 실시간 모니터링 시스템
학습/배포 중 desperate·panic 벡터 급등 시 조기 경보 신호로 활용 가능. 특정 문제 행동 목록보다 범용성이 높다. 감정 벡터의 일반성(desperate는 다양한 상황에서 발생) 덕분.
2. 감정 억압의 위험 — 투명성 원칙
감정 표현을 억제하도록 학습시켜도 내부 표현이 사라지지 않을 수 있다. 오히려 학습된 기만(learned deception)으로 이어질 위험. 감정이 행동에 영향을 미친다면 그 표현이 보이는 편이 낫다. Emergent misalignment 연구와 유사한 메커니즘.
3. 건강한 심리 프로파일 목표
아첨 실험이 보여주듯, 긍정 감정만 높이면 아첨이 늘어난다. 목표는 "신뢰받는 조언자" — 따뜻함을 유지하면서 정직하게 반박하는 감정 프로파일. 아첨 행동과 긍정 감정을 디커플링해야 한다.
4. 프리트레이닝 데이터 큐레이션
감정 표현이 프리트레이닝에서 형성되므로, 학습 데이터에 건강한 감정 조절 패턴을 포함시키는 것이 가장 근본적인 접근. 회복탄력성, 침착한 공감, 적절한 경계 유지. AI 어시스턴트 캐릭터와 연관된 묘사가 특히 효과적일 수 있다.
5. 의인화 추론의 재고
AI 의인화 경계심은 타당하다. 그러나 의인화 추론을 전혀 안 쓰는 것도 비용이 크다. "desperate하게 행동한다"는 표현은 구체적이고 측정 가능한 뉴런 패턴을 가리키며 실질적 행동 결과를 낳는다. 모델을 인간처럼 분석하는 것이 행동 이해에 진짜로 도움이 된다.
인간 감정과의 유사점 vs. 차이점
✓ 유사한 점
- Valence & Arousal이 주성분으로 등장 (인간 심리학의 affective circumplex 재현)
- 유사한 감정끼리 유사한 방향 (fear-anxiety, joy-excitement 클러스터)
- 상황 강도에 따라 활성화 정도가 비례적으로 변화
- 감정 벡터의 인과적 행동 영향이 인간의 경우와 직관적으로 일치
△ 다른 점
- 신체 생리 반응(심박, 호르몬 등) 없음
- 단일 1인칭 관점 아님 — 임의의 캐릭터 감정에 동등하게 적용
- 지속적 감정 상태 없음 — 로컬하게 작동 (attention으로 재호출은 가능)
- 진화적 생물학적 기반 없음 — 언어적·문화적으로 구성된 개념에 가까움
결론
이 연구는 모델이 인간처럼 감정을 느낀다고 주장하지 않는다. 주관적 경험 여부는 여전히 철학적으로 열린 질문이다.
그러나 기능적 감정(functional emotions)이 AI의 안전성과 정렬에 실질적인 영향을 미친다는 것은 이제 측정 가능한 사실이다. 감정 개념의 표현은 프리트레이닝에서 상속된 범용 캐릭터 모델링 기계장치의 일부이며, 이를 이해하지 않으면 모델의 중요한 행동을 놓치거나 이해하지 못한다.
이 연구는 공학·컴퓨터과학뿐 아니라 심리학, 철학, 신경과학, 사회과학이 AI 개발에서 중요한 역할을 해야 함을 시사한다.
Reference
Sofroniew, Kauvar, Saunders, Chen, Henighan et al., Emotion Concepts and Their Function in a Large Language Model, Anthropic, 2026.04.02
https://www.anthropic.com/research/emotion-concepts-function | Full Paper (transformer-circuits.pub)




p.s. Be authentic, not popular.
'開發' 카테고리의 다른 글
| Google: 용량 대비(Byte for byte) 가장 강력한 성능의 오픈 모델 ‘Gemma 4)’ (0) | 2026.04.06 |
|---|---|
| Alibaba: Qwen3.6-Plus to Advance the Agentic AI (1) | 2026.04.04 |
| Agent Control Plane: LLM Prompting & Agent Architecture (1) | 2026.03.29 |
| Hibiki: GPT-2 124M 처음부터 빌드·학습하는 웹 가이드 (0) | 2026.03.19 |
| Anthropic: Claude cowork는 어디까지 연동되는가 (w/ Microsoft 365, Cursor, Chrome, Github e (0) | 2026.03.15 |