Anthropic A3 (Automated Alignment Agent) — AI가 스스로 자신의 안전 문제를 고친다 | KOIRO Dev Blog
출처 한글 정리본 Anthropic A3 (Automated Alignment Agent) — AI가 스스로 자신의 안전 문제를 고친다 배경: 왜 A3가 필요했나 기존 LLM 안전 작업의 흐름은 이랬다. 사람이 문제를 발견 → 원하는 행동 정의
blog.koiro.me
팔란티어(Palantir Technologies)는 어떻게 진실을 인식하는가
— 데이터를 사실로 만드는 방법, 그리고 그 정교함
팔란티어(Palantir Technologies)의 이름은 J.R.R. 톨킨의 반지의 제왕에 등장하는 마법의 보는 돌에서 따왔다. 실제로도 그렇다. 팔란티어는 보는 기업이다. 그런데 단순히 ‘많이 보는’ 게 아니다. 어떻게 볼지를 결정하는 기업이다.
흩어진 데이터를 모아 패턴을 찾고, 그 패턴을 진실로 변환하고, 그 진실로 누군가를 특정한다. 문제는 그 과정이 점점 더 정교해지고 있다는 점이다.
1. 시작 — 진실 판단의 기원
CIA가 놓친 것
1999년 말, NSA는 알카에다 요원 4명이 말레이시아 쿠알라룸푸르에 모일 것이라는 첩보를 입수했다. CIA는 이들을 감시했고, 며칠 뒤 태국으로 이동하는 것까지 확인했다.
그리고 놓쳤다.
두 달 뒤인 2000년 3월, CIA는 나와프 알 하즈미와 칼리드 알 미흐다르가 이미 로스앤젤레스로 입국했다는 사실을 뒤늦게 파악했다. CIA는 이들을 FBI 감시 명단에 올리지 않았다.
1년 8개월 뒤, 두 사람은 아메리칸항공 77편을 납치해 펜타곤으로 돌진했다.
2004년 9·11 조사위원회 보고서는 이 비극을 ‘정보의 실패’로 규정했다. 각 기관이 조각을 갖고 있었지만, 아무도 연결하지 못했다. 보고서는 이를 “점을 연결하는 데 실패했다”고 표현했다.
피터 틸의 통찰
피터 틸은 1998년 공동 창업한 페이팔에서 온라인 금융 사기 탐지 시스템을 개발했다. 핵심 로직은 단순했다.
정상 패턴을 학습하고 → 이상 징후를 탐지한다
틸은 이 로직이 테러리스트 탐지에도 그대로 적용될 수 있다고 봤다. 2003년, 스탠퍼드 로스쿨 동창 알렉스 카프와 함께 팔란티어를 창업했다. 회사명은 J.R.R. 톨킨의 반지의 제왕에 등장하는 마법의 보는 돌에서 따왔다.
그런데 여기서 간과된 핵심이 있다.
페이팔의 사기 탐지는 판단 기준이 명확했다. 거래는 사기이거나 아니거나다. 팔란티어의 시스템은 다르다. ‘위협’의 정의는 계약 당사자가 결정한다. 같은 기술이 테러리스트를 찾다가 이민자를 찾고, 반군을 찾다가 채용 지원자를 찾는다. 표적만 바뀌고, 판단 엔진은 동일하다.

플랫폼 — 팔란티어가 운용하는 시스템들
팔란티어는 데이터를 직접 생산하지 않는다. 흩어진 데이터를 수집·융합·분석해 실행 가능한 인텔리전스로 변환하는 것이 핵심 가치다. 이를 위해 목적에 따라 구분된 여러 플랫폼을 운용한다.

Gotham은 팔란티어의 핵심 정부·군사용 플랫폼이다. CIA, NSA, FBI, 미 육군 등이 사용하며, 분산된 정보 소스를 하나의 화면으로 통합해 타겟팅과 감시를 지원한다. 9·11 이후 대테러 작전에서 출발해 지금은 우크라이나 전장 타겟팅까지 적용됐다.
Foundry는 민간 기업용 플랫폼이다. 금융·의료·제조 기업들이 내부 데이터를 통합하고 분석하는 데 사용한다. 정부용 Gotham과 구조는 같지만 접근 권한과 데이터 소스가 다르다.
AIP(Artificial Intelligence Platform)는 Gotham과 Foundry 위에 얹히는 LLM 기반 레이어다. 여기에 Anthropic의 Claude가 탑재돼 있다. 자연어로 질문하면 AI가 데이터를 분석해 추천을 내놓는 인터페이스다. 단순 패턴 매칭이 아니라 추론 과정을 언어로 설명할 수 있어서 “왜 이 표적인가”를 지휘관이 검토할 수 있게 된다.
MOSAIC는 IAEA의 이란 핵 모니터링을 위해 2015년부터 운용 중인 특화 플랫폼이다. 약 4억 개의 데이터 객체를 처리하며, 위성 이미지, 무역 로그, 메타데이터, 소셜미디어 피드를 융합해 핵 활동 패턴을 예측한다. 비판론자들은 이를 “우라늄을 위한 마이너리티 리포트”라고 불렀다. 실제로 일어난 일이 아니라 일어날 것으로 예측된 패턴을 근거로 판단을 내리기 때문이다.
ImmigrationOS는 2025년 ICE와의 계약으로 새롭게 개발된 플랫폼이다. 정부 공식 문서는 팔란티어를 “유일한 공급자”로 명시했다. 소셜미디어 활동, GPS 이동 경로, 납세 정보, 의료 데이터, 생체 특징까지 융합해 불법 체류자를 특정하는 데 사용된다.
Maven Smart System은 미 국방부와의 계약으로 운용되는 AI 전장 타겟팅 시스템이다. AIP 레이어에 Anthropic Claude가 내장돼 있으며, 방대한 전장 데이터를 실시간으로 처리해 타격 옵션을 추천한다.
이 중 독점 고착화 패턴이 특히 두드러진다. ICE 계약에서 팔란티어를 ‘유일한 공급자’로 명시하고 수의계약했고, 미 육군은 2025년 7월 75개 계약을 하나로 통합해 팔란티어와 10년간 100억 달러 계약을 맺었다. 한 번 진입하면 교체가 사실상 불가능한 구조가 된다.
2. 판단 엔진 — 팔란티어는 어떻게 진실을 만드는가
팔란티어의 핵심은 데이터 수집이 아니다. 데이터를 진실로 변환하는 과정이다. 이 과정은 세 단계로 작동한다.
1단계: 수집 — 가능한 모든 신호를 끌어온다

중요한 점은 이 데이터들이 각각 따로 존재하면 아무 의미가 없다는 것이다. 팔란티어의 가치는 이것들을 동시에, 실시간으로 연결하는 데 있다.
2단계: 융합 — 조각들을 하나의 그림으로
팔란티어가 데이터 융합에서 차별화되는 지점은 단순 집계가 아니라는 것이다. 시간축, 공간축, 관계망을 동시에 고려한다.
예를 들어 우크라이나 전장에서:
- 위성이 특정 좌표에서 열원을 감지한다
- 동시에 그 지역 통신 신호가 급증한다
- 민간인 제보 앱에 같은 지점 관련 보고가 올라온다
- 이전 72시간의 이동 패턴과 비교하면 이 위치는 ‘일시적 집결’이다
이 네 가지 신호는 각각 단서다. 융합되면 타겟팅 추천이 된다. 팔란티어의 MetaConstellation은 이 과정을 위성 군집 전체에 걸쳐 실시간으로 수행한다. 카프는 이 과정을 “디지털 킬체인”이라고 불렀다.
3단계: 판단 — 리스크 스코어가 진실이 된다
융합된 데이터는 최종적으로 리스크 스코어로 변환된다. 이 스코어가 팔란티어 시스템에서의 ‘진실’이다.
위치 이동 경로 +
통신 네트워크 (누구와, 언제, 얼마나) +
금융 흐름 패턴 +
온라인 행동 기록 +
생체·신체 특징
= 리스크 스코어 → 표적 지정 / 탈락 / 추방
팔란티어는 “최종 결정은 항상 인간이 내린다”고 말한다. 맞는 말이다. 그러나 인간이 받아보는 것은 이미 AI가 가공한 추천이다. 추천이 강력할수록, 그것을 거부하기는 어려워진다.
3. 정교함의 수준 — 실전에서 검증된 것들
우크라이나: 타겟팅 사이클의 압축 (공식 확인)
2022년 6월, 카프 CEO는 키이우에서 젤렌스키와 만나 플랫폼을 무상 제공했다. 이후 카프는 공개 석상에서 이렇게 밝혔다.
“우리는 우크라이나의 타겟팅 대부분을 책임지고 있다.”
— 알렉스 카프, 2023년 REAIM 콘퍼런스
팔란티어 시스템이 우크라이나에서 보여준 정교함의 핵심은 속도였다. 과거 군사 타겟팅 사이클은 수일이 걸렸다. 팔란티어의 AI는 이 사이클을 수분으로 압축했다.
- 위성 이미지, 드론 영상, 감청 통신, 민간 제보를 동시에 처리
- AI가 가장 효과적인 타격 옵션을 추천
- 지휘관은 확인만 하면 된다
- 모델은 매 타격 결과로부터 스스로 학습한다
보안 전문가들은 우크라이나가 팔란티어 AI의 실전 테스트베드 역할을 했다고 분석한다. 공식 확인된 활동 외에도, Brave1 Dataroom(2026.1)을 통해 실제 전장 데이터로 샤헤드 드론 격추 AI를 학습시키는 환경을 구축했다.
MOSAIC: 핵 위협 판단의 정교함 (공식 확인)
MOSAIC는 팔란티어가 2015년부터 IAEA를 위해 운용 중인 핵 모니터링 플랫폼이다. 약 4억 개의 데이터 객체를 처리한다.
- 위성 이미지 시계열 분석 — 시설의 외부 변화를 추적
- 무역 로그 분석 — 핵물질 관련 물자 이동 패턴 감지
- 오픈소스 인텔리전스 — 내부자 언급, 지역 이상 징후
- 패턴 기반 예측 — 과거 데이터로 미래 행동을 추정
비판론자들은 이 시스템을 “우라늄을 위한 마이너리티 리포트”라고 불렀다. 실제로 일어난 일이 아니라, 일어날 것으로 예측된 패턴을 근거로 판단을 내리기 때문이다.
이스라엘·이란 관련해서는 Washington Post가 Maven Smart System의 작전 활용을 보도했고, Byline Times는 MOSAIC의 이해충돌 의혹을 제기했다. 팔란티어는 이를 공식 부인했으며, 이란 관련 작전 세부 내용은 확인도 부인도 하지 않는 것이 공식 입장이다.
ImmigrationOS: 신원 판단의 자동화 (정부 계약서 공식 확인)
2025년 4월, ICE는 팔란티어와 ImmigrationOS 계약을 체결했다. 정부 공식 문서는 팔란티어를 “유일한 공급자”로 명시했다. 2027년까지 연장됐다.

카프는 이를 직접 설명했다.
“합법적으로 감시된 데이터를 우리 제품에 넣을 수 있냐고? 그렇다. 우리 적들이 우리 제품에 들어가는 데이터로 감시받냐고? 100%, 나는 이를 완전히 지지한다.”
— 알렉스 카프, NYT DealBook Summit, 2025.12
4. Maven Smart System과 Claude — 판단의 질이 달라지는 지점
팔란티어의 Maven Smart System에는 Anthropic의 Claude가 탑재돼 있다. 이는 DoD 공식 계약으로 확인된 사실이다.
이것이 중요한 이유는 단순히 “더 좋은 AI”가 들어간 것이 아니기 때문이다. 판단 방식 자체가 구조적으로 달라진다.
기존 패턴 매칭 기반 시스템은 데이터에서 통계적 상관관계를 찾는다. Claude가 들어가면 세 가지가 추가된다.
첫째, 추론의 설명 가능성. “왜 이 표적인가”를 자연어로 설명할 수 있다. 지휘관이 AI 추천의 근거를 검토할 수 있게 된다.
둘째, 맥락 이해. 단순 패턴이 아니라 상황의 의미를 해석한다. 같은 이동 패턴이라도 맥락에 따라 다르게 판단할 수 있다.
셋째, 가드레일. Constitutional AI 기반으로 훈련된 Claude는 특정 유형의 편향된 추천을 내리지 않도록 설계돼 있다.
다만 한계도 분명하다. Claude가 처리하는 입력 데이터 자체의 편향은 모델이 완전히 제거할 수 없다. 위성·감청·소셜 데이터가 이미 특정 집단에 편중돼 있으면, 모델이 아무리 정교해도 그 편향의 영향을 완전히 차단하기는 어렵다.
그리고 중요한 변수가 하나 있다. 2026년 초, 트럼프 행정부는 Anthropic에 Claude의 안전 제한을 풀어달라고 요구했고, Anthropic이 거부했다. DoD는 Anthropic 제품 사용 중단을 지시했다. 팔란티어 내 Claude가 현재 어떤 버전으로 어떤 조건에서 작동하는지는 공개된 정보만으로는 확인이 어렵다.
5. 눈동자까지 보는 이유 — 생체 판단의 진화
북한 IT 인력 침투 — 딥페이크가 진실을 위장하다
최근 12개월간 320개 이상의 기업이 북한 IT 인력에 침투당했다 (CrowdStrike, 2025.8). 전년 대비 220% 증가다.
- 신원 도용 — 실제 미국인의 SSN·주소·경력 탈취
- AI 이미지 조작 — 스톡 사진을 AI로 강화해 도용한 신원과 일치시킴
- 딥페이크 면접 — 실시간 얼굴 교체로 화상 면접 통과 (KnowBe4: 4차례 면접 모두 통과)
- 노트북 팜 — 회사 노트북을 미국 내 공모자에게 배송
- VPN 터널링 — 북한 야간 시간 = 미국 주간에 VPN으로 접속
- 다중 직업 운영 — AI 챗봇으로 여러 페르소나 동시 유지
- 데이터 탈취 또는 악성코드 — IP 탈취, 암호화폐 절도, 백도어 설치

Unit 42 연구(2025.4)에 따르면 설득력 있는 딥페이크 신원을 만드는 데 경험 없는 연구자가 70분이면 충분하다.
눈동자 분석이 딥페이크를 탐지하는 원리
AI 면접에서 눈동자를 분석하는 표면적 이유는 성격·역량 평가다. 그러나 보안 연구자들이 지적하는 실질 기능은 딥페이크 식별이다.

즉, 눈동자를 분석하는 AI 면접 시스템은 딥페이크로 위장된 진짜 위협을 탐지하는 인프라다. 북한 공작원 차단 시스템이 HR 최적화 도구로 포장된 것이다.
6. 자기강화 루프 — 판단이 학습이 되는 구조
팔란티어의 진짜 강점은 단일 시스템의 정확도가 아니다. 모든 판단이 다음 판단을 더 정확하게 만드는 구조다.

전쟁이 끝나도 데이터는 남는다. 그 데이터로 훈련된 모델은 다음 전쟁에 쓰인다. 더 정확하게.
마지막으로
팔란티어가 진실을 인식하는 방식은 갈수록 정교해지고 있다. 더 많은 소스, 더 빠른 융합, 더 높은 예측 정확도. Claude 같은 LLM이 더해지면서 판단의 설명 가능성과 맥락 이해 능력도 높아지고 있다. 이 시스템은 작동한다.
문제는 시스템의 정확도가 아니다. 무엇을 ‘위협’으로 정의할지 결정하는 권한이 계약 안에 있다는 것이다.
스위스는 팔란티어의 기술이 뛰어나다는 걸 인정하면서도 계약을 해지했다. 이유는 단 하나였다.
“기술적 역량은 높으나, 민감 데이터에 미국 정부가 접근할 수 있는 가능성을 배제할 수 없다.”
기술의 정교함과 그 기술이 향하는 방향은 별개의 문제다.
팔란티어가 인식하는 진실이 정교해질수록, 그 진실이 누구의 진실인지를 묻는 것이 더 중요해진다.
참고 출처
공식 확인
팔란티어 FY2025 실적 발표 및 SEC 10-K / USAspending.gov 연방 계약 DB / 미 육군 공식 보도자료 100억 달러 계약 (2025.7.31) / DoD Maven Smart System 계약 발표 / 영국 국방부 £750M 계약 (2025.9) / 알렉스 카프 REAIM 콘퍼런스 (2023.2) / NYT DealBook Summit (2025.12) / 팔란티어-이스라엘 국방부 파트너십 (2024.1) / 스위스 군 공식 성명 / CrowdStrike 2025 위협 헌팅 리포트 / Unit 42 합성 신원 생성 연구 (2025.4) / DOJ DPRK IT 인력 기소장 (2025) / KnowBe4 북한 사례 연구 (2024.10)
보도 기반 (팔란티어 미공식 확인)
Washington Post — Maven 이란 작전 활용 보도 (2026.2) / Byline Times — MOSAIC 이해충돌 의혹 (2026.3, 팔란티어 부인) / TIME — 우크라이나 타겟팅 발언 (2024.2)
연구 및 분석
워싱턴대 AI 스크리닝 편향 연구 (2024) / ScienceDirect AI 기반 HRM 편향 (2025.10) / Carnegie Endowment 민간 기술 기업과 전쟁 (2025.12) / 중앙일보 팔란티어 분석 (2026.2)
본 글은 공개된 언론 보도, 공식 문서, 확인된 발언을 바탕으로 작성된 연구 목적 글입니다. 팔란티어가 공식 부인한 내용은 그 사실을 명시했습니다.
'記錄' 카테고리의 다른 글
| Alibaba: “10억 명의 일상을 운영하는 생태계” (2) | 2026.03.19 |
|---|---|
| 중국 AI 기업들은 어떻게 경쟁하는가 (0) | 2026.03.19 |
| Ontology: How Philosophy Shaped the Ontology at the Heart of Modern AI (1) | 2026.03.12 |
| “The World Is More Equal Than You Think” (0) | 2026.02.27 |
| Ray Dalio: The World Order Has Broken Down (1) | 2026.02.17 |