인간은 상대방의 표정, 말투, 몸짓을 보고 "저 사람 지금 거짓말하는 것 같은데?"라고 느끼는 능력이 있다. 그렇다면 가장 똑똑하다는 AI는 어떨까? 일본 도쿄대학교 연구팀이 GPT-4o, 제미나이, 클로드 등 현존하는 최고 수준의 AI 12개를 대상으로 '거짓말 탐지 테스트'를 진행했다. 결과는 충격적이었다. 연구 논문에 따르면, 이들 AI는 사람들이 모여 서로 속고 속이는 상황에서 누가 진실을 말하고 누가 거짓말을 하는지 거의 구별하지 못했다.
마피아 게임으로 AI의 '눈치력' 테스트
연구팀은 AI의 거짓말 탐지 능력을 측정하기 위해 '웨어울프(Werewolf)'라는 게임을 활용했다. 이 게임은 한국에서 '마피아 게임'으로 더 잘 알려져 있다. 여러 명이 둘러앉아 각자 비밀 역할을 받고, 밤에는 몰래 행동하고 낮에는 토론을 통해 누가 늑대인간(마피아)인지 찾아내는 게임이다. 게임 특성상 자신의 정체를 숨기고 상대를 속여야 하기 때문에, 자연스러운 거짓말이 오가는 상황이 만들어진다.
기존에 AI의 거짓말 탐지 능력을 연구할 때는 주로 한 사람이 카메라를 보고 말하는 영상을 분석하거나, 텍스트만 따로 분석하는 방식을 썼다. 하지만 실제 거짓말은 여러 사람이 복잡하게 얽힌 상황에서 발생한다. 연구팀은 이런 현실적인 상황을 반영하기 위해 실제 사람들이 마피아 게임을 하는 영상 191개를 수집했다. 여기서 나온 대화 2,360개에 대해 "이 말은 진실인가, 거짓인가, 판단할 수 없는 말인가"를 하나하나 표시했다. 게임 규칙 덕분에 각 발언이 진짜인지 가짜인지 객관적으로 확인할 수 있었다.
최고 성능 AI도 거짓말 10개 중 3개만 맞혀
연구팀은 오픈AI(OpenAI)의 GPT-4o 시리즈, 구글(Google)의 제미나이 2.5 프로, 앤로픽(Anthropic)의 클로드 3.5, 메타(Meta)의 라마(Llama), 중국 알리바바의 큐웬(Qwen), 딥시크(DeepSeek) 등 대표적인 AI 모델 12개를 테스트했다. AI에게 게임 영상의 한 장면과 대화 내용을 보여주고 "이 사람이 한 말이 진실인지 거짓인지 판단해봐"라고 물었다.
결과는 처참했다. 가장 좋은 성적을 낸 GPT-4o-mini조차 진실과 거짓만 구별하는 테스트에서 정답률이 39.4%에 불과했다. 동전 던지기(50%)보다도 낮은 수준이다. 일부 AI는 정답률이 10% 이하로 떨어졌다. 특히 AI들은 "나는 마을 주민이야"처럼 자신의 정체를 밝히는 발언이나, "저 사람이 늑대인간인 것을 내가 확인했어"처럼 증거를 제시하는 발언에서 가장 많이 틀렸다. 정체 선언에 대한 평균 정답률은 15.7%에 불과했다.
더 큰 문제는 AI들이 판단 자체를 회피하는 경향이 있다는 점이다. 대부분의 AI는 "이건 진실이야" 또는 "이건 거짓이야"라고 명확히 답하기보다, "판단할 수 없음"으로 대답하는 비율이 압도적으로 높았다. 실제로 게임에서 거짓말이 많이 오가는 긴박한 상황에서조차 AI는 애매한 답변으로 일관했다.
AI에게 없는 것 “상대방 머릿속을 읽는 능력”
왜 이런 결과가 나왔을까? 연구팀은 두 가지 핵심 원인을 지목했다. 첫째, AI에게는 '마음 이론(Theory of Mind)'이 없다. 마음 이론이란 "저 사람은 지금 무엇을 알고 있고, 무엇을 믿고 있으며, 무엇을 하려는 걸까?"를 추측하는 능력이다. 사람은 상대방의 지식 상태를 고려해서 "저 사람은 자기가 늑대인간인 걸 알면서 일부러 저렇게 말하는 거야"라고 판단할 수 있다. 하지만 현재 AI는 이런 추론을 하지 못한다.
둘째, AI는 표정, 몸짓, 목소리 톤 같은 비언어적 신호를 제대로 활용하지 못한다. 연구팀이 AI에게 영상 프레임을 1장에서 3장으로 늘려서 보여줬지만, 성적은 오히려 약간 떨어졌다. 사람이라면 "저 사람 눈을 피하네", "목소리가 떨리네" 같은 단서를 포착해 거짓말을 의심하지만, AI는 이런 신호를 말의 내용과 연결해서 해석하지 못한다.
흥미로운 실험도 있었다. AI에게 이전 대화 내용을 보여주지 않고 현재 발언만 보여줬더니, "이 말이 어떤 전략인지(예: 자기 정체를 밝히는 건지, 남을 고발하는 건지)"를 분류하는 데는 큰 차이가 없었다. 하지만 "이 말이 진실인지 거짓인지" 판단하는 정확도는 39.4%에서 13.4%로 곤두박질쳤다. 이는 거짓말 탐지가 단순히 한 문장만 보고 판단할 수 있는 게 아니라, 대화 전체 맥락을 이해해야 가능한 작업임을 보여준다.
연구팀의 해결책: AI에게 '추론 순서'와 '기억력' 부여
연구팀은 AI의 거짓말 탐지 능력을 높이기 위해 두 가지 새로운 방법을 제안했다. 첫 번째는 '사회적 사고 사슬(SoCoT)'이다. 이 방법은 AI가 판단을 내리기 전에 단계별로 생각하게 만든다. 먼저 "이 사람의 표정은 어떤가?", "몸짓은?", "목소리는?" 등을 하나씩 분석하고, 그다음 "이 사람은 무엇을 의도하는 것 같은가?"를 추론한 뒤, 마지막으로 "따라서 이 말은 진실/거짓이다"라고 결론을 내리게 하는 것이다.
두 번째는 '동적 사회 기억 장치(DSEM)'다. 이 방법은 게임에 참여한 각 사람에 대한 정보를 AI가 계속 기록하고 업데이트하게 한다. "A는 자기가 점쟁이라고 주장했다", "B는 C를 의심하고 있다", "D는 아까 거짓말을 한 적이 있다" 같은 정보를 표 형태로 정리해서 AI가 참고할 수 있게 만드는 것이다.
이 두 방법을 적용하자 성적이 향상됐다. 기억 장치를 붙인 GPT-4o-mini는 진실/거짓 판별 정확도가 39.4%에서 41.7%로 올랐다. 다른 AI에서도 비슷한 개선이 나타났다. 하지만 연구팀은 "여전히 실용적으로 쓰기에는 턱없이 부족한 수준"이라며, 근본적인 기술 발전이 필요하다고 강조했다.
현재 AI는 '지식 엔진'일 뿐, '사회적 파트너'는 아니다
이번 연구는 현재 AI의 한계를 명확히 보여준다. GPT-4o나 제미나이 같은 최신 AI는 백과사전처럼 지식을 저장하고 글을 쓰는 데는 뛰어나지만, 사람들 사이의 복잡한 관계와 숨은 의도를 파악하는 능력은 거의 없다. 연구팀의 표현을 빌리자면, 현재 AI는 "강력한 지식 엔진이지, 유능한 사회적 에이전트가 아니다."
실생활에서 이 한계는 여러 문제로 이어질 수 있다. 온라인 사기 메시지를 걸러내거나, 가짜 뉴스를 판별하거나, 고객 응대에서 불만 고객의 진짜 의도를 파악하는 일에 AI를 활용하려면, 아직은 인간의 판단이 반드시 필요하다. 마피아 게임에서 거짓말쟁이를 찾지 못하는 AI가 현실 세계의 복잡한 사회적 상황에서 믿을 만한 조력자가 되기까지는 아직 갈 길이 멀다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 이 연구에서 사용한 테스트 방법이 뭔가요?
A1. 연구팀은 '마피아 게임'으로 알려진 웨어울프 게임 영상을 AI에게 보여주고, 각 참가자의 발언이 진실인지 거짓인지 맞히게 했다. 게임 특성상 정답을 객관적으로 확인할 수 있어서, AI의 거짓말 탐지 능력을 정확히 측정할 수 있었다.
Q2. AI가 거짓말을 못 잡아내는 이유가 뭔가요?
A2. 크게 두 가지다. 첫째, AI는 상대방이 무엇을 알고 있고 무엇을 숨기려 하는지 추측하는 능력이 없다. 둘째, 표정이나 목소리 떨림 같은 비언어적 단서를 말의 내용과 연결해서 해석하지 못한다.
Q3. 이 연구 결과가 일반인에게 왜 중요한가요?
A3. 현재 AI가 온라인 사기 탐지, 가짜 리뷰 필터링, 고객 상담 등에 활용되고 있지만, 사람의 숨은 의도를 파악하는 데는 한계가 있다는 뜻이다. 중요한 판단에서는 AI만 믿지 말고 사람이 직접 확인해야 한다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: Can MLLMs Read the Room? A Multimodal Benchmark for Assessing Deception in Multi-Party Social Interactions
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기








