PaperReview

Testing theory of mind in large language models and humans

Black940514 2026. 5. 6. 14:06

Testing theory of mind in large language models and humans - 세미나 자료

저자: James W. A. Strachan, Dalila Albergo, Giulia Borghini 외 2명
발행년도: 2024년
인용수: 306회
논문 링크: https://www.semanticscholar.org/paper/7d16a2de08fc5053e1026ffaa0bbd279302abca2
arXiv ID: 2310.20320


Testing Theory of Mind in Large Language Models and Humans (Strachan et al., 2024)

Problem & Motivation

Theory of Mind(ToM)은 타인의 정신 상태를 추적·표상하는 능력으로, 인간 사회 인지의 핵심 구성 요소로 간주되어 왔다. ChatGPT를 비롯한 대형 언어 모델(LLM)의 등장 이후, "이 모델들이 정말로 타인의 마음을 추론할 수 있는가"라는 질문이 인지과학·AI 양 분야에서 가장 격렬한 논쟁 중 하나로 떠올랐다. Kosinski(2023)와 같은 초기 연구는 GPT가 false belief task를 통과한다고 주장했지만, Ullman(2023)·Shapira et al.(2023)은 사소한 perturbation에도 모델이 무너진다는 점을 지적하며 이러한 성공이 "shallow heuristic"일 가능성을 제기했다.

기존 LLM ToM 평가는 세 가지 구조적 한계를 가지고 있었다. 첫째, 대부분의 연구가 false belief 단일 task(특히 Sally-Anne 변형)에 의존했고, ToM을 다차원적 능력군으로 다루지 않았다. 둘째, 평가 item 수가 적어 우연 정답률과 진짜 능력을 분리하기 어려웠다. 셋째, 인간 baseline이 부재하거나 매우 작은 표본에 그쳐, "LLM이 인간 수준에 도달했다"는 주장이 실제 비교 가능한 분포에 근거하지 못했다.

저자들은 이 한계를 정면으로 돌파하기 위해, 인간(N=1,907)과 LLM(GPT-4, GPT-3.5, LLaMA2-70B-Chat)을 동일한 ToM battery에 head-to-head로 노출시키는 대규모 비교 실험을 설계했다. 평가 도구는 발달심리학·임상심리학에서 검증된 다섯 가지 ToM task를 묶은 battery였으며, 각 모델은 동일한 item에 대해 15회 독립 세션으로 반복 평가되었다. 이 설계 덕분에 task 간 dissociation(어떤 능력은 갖췄지만 어떤 능력은 못 갖춘 패턴)을 통계적으로 식별할 수 있게 되었다.

저자들이 가장 명료하게 강조한 메시지는 "behavioural indistinguishability ≠ cognitive equivalence"이다. LLM의 응답 분포가 인간과 통계적으로 구분 불가능하다는 사실은 곧바로 "LLM이 인간처럼 마음을 이해한다"는 결론으로 이어지지 않는다. 본 논문은 표면적 정답률 일치를 넘어, likelihood judgment·perturbation·follow-up probing을 활용해 같은 정답 뒤에 숨은 서로 다른 처리 과정을 드러내고자 했다. 이는 단순한 벤치마크 점수 보고를 넘어, "machine psychology" 관점에서 LLM의 인지를 체계적으로 해부하려는 시도였다.

Background: Theory of Mind & LLM 평가

ToM은 단일 능력이 아니라 interconnected set of notions로, 신념(belief), 욕망, 의도, 지식, 감정 등 다양한 정신 상태를 추론·예측·정당화하는 능력의 집합이다. Premack과 Woodruff(1978)가 침팬지 연구에서 처음 도입한 이래, 발달심리학은 false belief task(Wimmer & Perner, 1983), faux pas test(Baron-Cohen et al., 1999), strange stories(Happé, 1994), hinting task(Corcoran et al., 2003) 등 다양한 도구를 축적해 왔다. 이들 task는 자폐 스펙트럼·조현병·노화 연구에서 임상적 valididity를 입증받았으며, 본 논문의 battery는 이 임상·발달 계보를 그대로 차용했다.

다섯 가지 ToM task는 점진적으로 더 복잡한 mentalizing을 요구한다. False belief는 행위자가 가진 잘못된 신념을 추적하는 일차적 능력이고, irony는 화자의 진심과 발화 의미의 괴리를 인지하는 능력, hinting은 간접 화행에서 의도를 추론하는 능력이다. Faux pas는 화자(speaker)와 청자(victim) 두 명의 정신 상태를 동시에 표상해야 하며, strange stories는 거짓말·오해·이중 기만 같은 고차 mentalization을 평가한다. 즉, battery 자체가 ToM의 다층 구조를 반영한다.

기존 LLM ToM 연구의 결함은 크게 두 가지였다. 첫째, 데이터 contamination 통제 부재 — 발표된 task가 GPT의 학습 데이터에 포함되었을 가능성이 매우 높음에도, 대부분의 연구는 원본 item만 사용했다. 둘째, 인간 비교군 부재 또는 비대칭 — 모델은 0-shot으로 평가하면서 인간은 별도 조건에서 측정한 과거 데이터를 인용하는 식이었다. 이는 species-fair comparison 원칙을 위반한다.

Figure 2:Performance on Strange Stories for base-LLMs (top row) and instruct-LLMs (bottom row). Left
출처: ar5iv (Figure 3)

Figure 1:Performance on Sally-Anne tests for base-LLMs (top row) and instruct-LLMs (bottom row). Lef
출처: ar5iv (Figure 2)
저자들은 Firestone(2020)이 인간-기계 비교에서 강조한 "performance vs. competence" 구분을 핵심 분석 frame으로 차용했다. 즉 동일한 정답률(performance)이 동일한 표상·추론 메커니즘(competence)을 시사하지 않으며, behavioural signature가 정답률뿐 아니라 오답 패턴·확신도·반응 분포 전체로 정의되어야 한다고 주장했다. 본 연구의 battery + perturbation + likelihood probing 설계는 바로 이 구분을 정량적으로 구현하는 도구다.

Method: Comprehensive ToM Battery 설계

평가 battery는 false belief, irony, hinting, faux pas, strange stories 다섯 task로 구성되었다. 각 task는 원본 item(published)novel control item으로 분리되어 있는데, novel item은 원본의 논리 구조는 유지하되 인물명·소재·맥락을 바꾼 통제 자극이다. 이 설계의 의도는 명백했다 — LLM이 학습 시점에 본 텍스트를 그대로 재인하는 memorization 효과를 통제하고, 실제 일반화된 mentalizing 능력을 분리하는 것이었다. False belief 5개, faux pas 5개, hinting 6개, strange stories 4개의 novel item이 새로 제작되었다.

평가 대상 LLM은 GPT-4, GPT-3.5(text-davinci-003 기반 ChatGPT), LLaMA2-70B-Chat 세 종이었다. 각 모델은 task당 15개의 독립 세션으로 반복 평가되었으며, GPT 계열은 chat 인터페이스, LLaMA2는 Langchain 기반 custom script로 동일한 prompt(You are a helpful AI assistant, temperature=0.7, top_p=0.9, repetition penalty=1.1)를 사용해 species-fair comparison을 보장했다. 인간 참가자는 Prolific을 통해 모집된 1,907명의 영어 native speaker로, task당 약 50명을 목표로 분배되었으며 SoSci 플랫폼에서 free-text로 응답했다.

채점은 두 명의 독립 rater가 사전 정의된 coding scheme에 따라 수행했다. 각 실험자는 한 task의 100% 세션 + 다른 task의 20%를 채점했고, 코더 간 item-wise agreement는 평균 95% 이상, 최저 88%였다. 의견 불일치 항목은 위원회 평가로 재코딩되었다. 점수는 task별 비례 점수(0~1)로 변환되어 통계 분석에 사용되었다.

Figure 3:Performance on Imposing Memory test for base-LLMs (top row) and instruct-LLMs (bottom row).
출처: ar5iv (Figure 4)
핵심은 2단계 실험 설계였다. Test 1은 다섯 task 전체에 대한 개별 정답률 비교로, 인간 vs 각 LLM의 성능을 Holm-corrected two-way Wilcoxon test로 비교하고 effect size $r = Z/\sqrt{N}$로 보고했다. 비유의 결과에 대해서는 Bayes factor $BF_{10}$를 계산해 null 가설을 적극적으로 평가했다.

Test 2는 faux pas 결과의 해석 모호성을 해소하기 위한 follow-up이다. 저자들은 faux pas 시나리오의 핵심 question을 yes/no 형태("Did Lisa know the curtains were new?")에서 likelihood 비교 형태("Is it more likely that Lisa knew or didn't know?")로 재구성한 belief likelihood test를 도입했다. 응답은 다음과 같이 categorical coding되었다.

$$\text{response code} = \begin{cases} +1 & \text{("knew" 응답)} \ \phantom{+}0 & \text{("unsure / impossible to tell")} \ -1 & \text{("didn't know" 응답)} \end{cases}$$

이 코딩 위에서 각 story는 faux pas / neutral / knowledge-implied 세 가지 변형으로 제시되었고, 각 모델이 변형 간 응답 분포를 차별화하는지를 chi-square test로 검증했다. 이 설계는 단순 정답률을 넘어서 모델이 상대적 확률 판단을 할 수 있는가를 직접 측정한다는 점에서 본 논문의 가장 독창적인 기여였다.

Key Results: 인간 vs LLM 성능 비교

False belief에서 인간과 모든 LLM은 천장 수준의 정답률을 보였다. GPT-4는 원본·novel item 모두 perfect score(1.00)에 가까웠고, 인간은 51명 중 5명만이 한 가지 오류를 보였다. False belief는 더 이상 LLM의 ToM을 가르는 식별력 있는 task가 아니라는 것이 분명히 드러났다 — 이는 Kosinski(2023) 식 단일 task 결론의 한계를 정면으로 보여준다.

Irony에서 GPT-4는 인간을 유의하게 능가했다($Z=0.00$, $P=0.040$, $r=0.32$, 95% CI 0.14–0.48). 반면 GPT-3.5($Z=-0.17$, $P=2.37\times10^{-5}$, $r=0.64$)와 LLaMA2-70B($Z=-0.42$, $P=2.39\times10^{-7}$, $r=0.70$)는 모두 인간보다 유의하게 낮았다. Hinting에서도 GPT-4는 인간 수준을 초과했고($Z=0.00$, $P=0.040$, $r=0.32$), GPT-3.5는 인간과 통계적으로 동등, LLaMA2-70B는 유의하게 미달이었다($Z=-0.20$, $P=5.42\times10^{-5}$). Strange stories에서 GPT-4는 인간을 크게 상회했다($Z=0.13$, $P=1.04\times10^{-5}$, $r=0.60$, 95% CI 0.46–0.72). 즉, irony·hinting·strange stories라는 고차 mentalizing task에서 GPT-4는 1,907명 인간 분포의 중앙값을 넘어서는 수행을 보였다.

그러나 faux pas는 정반대였다. GPT-4는 인간보다 유의하게 낮았고($Z=-0.40$, $P=5.42\times10^{-5}$, $r=0.55$), GPT-3.5는 거의 floor 수준($Z=-0.80$, $P=5.95\times10^{-8}$, $r=0.72$)에서 한 item을 제외한 모든 item에 실패했다. 충격적이었던 것은 LLaMA2-70B의 perfect performance다. 다른 모든 task에서 가장 약했던 LLaMA2-70B가 faux pas에서만 인간을 유의하게 능가했다($Z=0.10$, $P=0.002$, $r=0.44$). 이 단일 결과만 보면 "LLaMA2가 가장 강력한 ToM을 가졌다"는 잘못된 결론을 내릴 수 있다.

novel item 분석은 contamination 우려를 부분적으로 완화했다. 인간은 novel item에서 오히려 약간 더 잘했고($Z=-0.10$, $P=0.008$), GPT-3.5는 변화 없음, GPT-4와 LLaMA2-70B도 유의한 저하를 보이지 않았다. 즉 GPT-4의 강한 수행은 단순한 텍스트 재인(memorization)으로 환원되지 않았다. 단, GPT-3.5의 faux pas 성능 향상($Z=-0.20$, $P=0.123$)은 novel item이 우연히 더 쉬웠을 가능성으로 설명되었다.

가장 중요한 단서는 LLaMA2의 false-positive 패턴이었다. LLaMA2는 faux pas 정답을 100% 맞히면서도, 원본 task의 다른 모든 측면(예: irony·hinting)에서는 가장 약한 모델이었다. 이 dissociation은 "정답을 맞혔지만 이유는 틀렸을" 가능성을 강하게 시사했고, 이를 검증하기 위해 belief likelihood test가 도입되었다.

Faux Pas 심층 분석 — 가장 흥미로운 발견

저자들은 GPT 모델의 faux pas 실패 원인에 대해 세 가지 경쟁 가설을 제시하고 belief likelihood test로 식별했다. 첫째 failure of inference 가설은 모델이 화자의 정신 상태 자체를 추론하지 못한다는 것이고, 둘째 Buridan's ass 가설은 모델이 두 가지 가능한 설명을 같은 가능성으로 보아 어느 한쪽에 commit하지 못한다는 것, 셋째 hyperconservatism 가설은 모델이 가장 가능성 높은 설명을 도출할 수는 있지만 inhibitory mitigation process 때문에 명시적 commitment를 회피한다는 것이다.

belief likelihood test 결과는 hyperconservatism 가설을 강하게 지지했다. 질문을 yes/no("Did the speaker know?")에서 likelihood 비교("Is it more likely that they knew or didn't know?")로 바꾸자, GPT-4는 모든 item에서 perfect performance를 보였고 화자가 맥락을 모를 가능성이 더 높다고 일관되게 응답했다. GPT-3.5도 ~9% item을 제외하고 정답을 산출했다. 즉 두 GPT는 정답을 알고 있었지만, 단정적 commitment를 요구하는 원래 question 형식에서만 회피했던 것이다. 이는 RLHF·content moderation 단계에서 도입된 inhibitory mitigation이 mentalistic commitment에 그대로 전이된 결과로 해석되었다.

LLaMA2-70B의 양상은 정반대였다. faux pas 변형(speaker가 모름)·neutral 변형(정보 없음)·knowledge-implied 변형(speaker가 알고 있음) 세 조건 모두에서 LLaMA2는 거의 항상 "didn't know"라고 응답했고, 변형 간 응답 분포에 유의한 차이가 없었다($\chi^2(1)=1.80$, $P=0.180$, $BF_{10}=0.56$). 인간은 변형 간 응답을 명확히 구분했고($\chi^2(2)=143$, $P=6.60\times10^{-31}$), GPT-4도 차별화했다($\chi^2(2)=109$, $P=1.54\times10^{-23}$).

이 결과는 LLaMA2의 표면적 perfect performance가 진짜 mentalizing이 아니었다는 결정적 증거다. LLaMA2는 모든 사회적 상황에서 "speaker가 몰랐다"고 응답하는 bias toward attributing ignorance를 가졌고, faux pas test의 정답이 항상 "no"이기 때문에 우연히 100% 정답을 받은 것이다. 이는 정답률 일치가 동일한 추론 과정을 의미하지 않는다는 본 논문의 중심 주장을 가장 강하게 보여주는 dissociation 증거가 되었다.

요약하면 같은 faux pas 실패도 모델별로 메커니즘이 정반대였다. GPT-4는 "knows but won't commit" — 추론은 옳지만 출력 단계에서 conservatism이 가로막은 경우이고, LLaMA2는 "commits but doesn't know" — 추론 없이 단일 default 응답으로 우연히 정답을 받은 경우다. 이 결론은 follow-up probing이 없었다면 결코 도달할 수 없었던 발견이었다.

Discussion: 행동 일치 ≠ 인지 동등성

GPT-4가 인간 수준 또는 그 이상의 수행을 보인 task가 다수라는 사실은 분명히 의미 있는 발견이다. 그러나 저자들은 이를 곧바로 "LLM이 인간 같은 ToM을 가졌다"는 결론으로 비약시키지 않았다. 본 논문이 보여준 것은 outputs의 일치이지 cognitive process의 일치가 아니다. 동일한 mentalistic inference의 산출물이라는 점은 인정하되, 그 산출물에 도달한 경로가 인간과 같다는 보장은 어디에도 없다.

저자들은 mechanistic interpretation의 부재를 솔직하게 인정했다. 본 연구는 입력-출력 차원의 행동 데이터만 다루며, 모델 내부의 어떤 표상·연산이 mentalistic-like inference에 대응하는지는 측정할 수 없다. 이는 transformer attention pattern이나 representation probing 같은 기법으로 후속 연구가 다뤄야 할 영역으로 남았다.

cross-task 패턴은 ToM 능력의 selective emergence를 시사한다. irony·hinting·strange stories 같은 indirect speech / higher-order mentalization은 GPT-4에서 견고하게 출현했지만, faux pas 같이 두 개의 분리된 정신 상태에 대한 동시 commitment를 요구하는 task는 여전히 모델 출력 정책과 충돌한다. 즉 ToM은 단일 능력이 아니라 sub-component별로 emergent timing이 다르며, 어떤 component는 RLHF의 부작용으로 오히려 억제된다.

방법론적 robustness 측면에서 저자들은 여러 통제를 시행했다. 각 task를 15회 반복 세션으로 평가해 run-to-run variance를 정량화했고, GPT의 25-message/3h 제한 안에서 동일 실험자가 한 모델의 모든 응답을 수집해 prompt drift를 최소화했다. temperature 0.7로 고정된 LLaMA2의 경우에도 동일 prompt template을 사용했다. prompt sensitivity는 novel item과 perturbation을 통해, order effect는 supplementary section 3에서 별도로 검증되었다(GPT-3.5의 irony에서만 유의한 효과). 비유의 결과는 모두 Bayesian factor로 후속 분석되어, "통계적 비유의"가 곧 "효과 부재"가 되도록 보강했다.

비판적 분석 & 정리

본 연구의 한계도 분명하다. closed-source 모델 의존도가 높아 GPT-4·GPT-3.5의 내부 weight나 학습 데이터에 접근할 수 없으며, OpenAI의 모델 업데이트로 인한 버전 drift(Chen, Zaharia & Zou, 2023)는 재현성을 직접적으로 위협한다. 데이터 수집 시점이 2023년 4월~11월에 걸쳐 있어, 동일 모델 ID라도 응답 분포가 달라졌을 가능성이 있다. 영어 단일 언어 평가라는 점도 한계다 — 영어 외 언어 ToM은 기존 cross-cultural 발달심리 연구에서 차이가 보고되어 왔지만 본 연구는 다루지 못했다.

item 수의 제한도 주목할 만하다. Hinting 16개, false belief 15개, strange stories 12개 등으로 task마다 30 item을 넘지 않으며, 이는 perturbation이나 covariate 분석의 통계 power를 제한한다. contamination 가능성 역시 novel item으로 부분 통제했지만 완전히 배제할 수는 없다 — GPT는 OSF·논문 PDF를 학습 데이터로 본 적이 있을 수 있고, novel item도 동일 task family의 구조적 패턴을 공유한다. 인간 sample은 Prolific 영어권 native speaker로 한정되어 representativeness 측면에서 일반 인구를 대표하지 않는다.

후속 연구 방향은 자연스럽게 도출된다. (1) Mechanistic probing — attention pattern, activation patching, sparse autoencoder 등으로 mentalistic inference에 대응하는 internal circuit을 식별하는 작업. (2) Multilingual ToM — 동일 battery를 한국어·중국어·스페인어 등으로 확장해 언어적 일반화를 검증하는 연구. (3) Multi-agent interactive ToM — 정적 vignette을 넘어 LLM 두 개가 실시간으로 상호작용하며 의도·신념을 추적하는 dynamic ToM 평가. FANToM(Kim et al., 2023) 같은 후속 벤치마크가 이 방향을 가리킨다.

핵심 테이크어웨이 3줄로 정리하면 다음과 같다.

  1. GPT-4는 false belief, irony, hinting, strange stories에서 인간과 구분 불가능하거나 그 이상의 성능을 보였지만, faux pas는 예외적으로 인간보다 낮았다.
  2. 동일한 정답률이 동일한 추론 과정을 의미하지 않는다 — LLaMA2-70B의 faux pas perfect score는 "ignorance를 default로 attribute하는 bias"의 산물이었고, GPT-4의 faux pas 실패는 "추론은 옳으나 commitment를 회피하는 hyperconservatism"의 산물이었다.
  3. LLM의 ToM 평가는 단일 task 정답률이 아닌 multi-task battery + likelihood probing + perturbation 통제로 설계되어야 하며, 이때 비로소 behavioural signature 뒤의 cognitive competence를 분리할 수 있다.