"AI가 '인간 연기'할 때 실제 인간보다 더 인간답다”… 충격적 연구 결과 공개 : 다나와 DPG는 내맘을 디피지

Large Language Models Pass the Turing Test

GPT-4.5, 73% 성공률로 실제 인간 참가자보다 더 인간답게 평가받아

캘리포니아 샌디에이고 대학(UC San Diego)의 연구팀이 최신 대규모 언어 모델(Large Language Model, LLM)인 GPT-4.5와 LLaMa-3.1-405B를 대상으로 튜링 테스트를 실시한 결과, 이들 모델이 인간과 구별되지 않을 정도로 인간답게 대화할 수 있음을 입증했다. 특히 GPT-4.5는 인간 참가자보다 더 인간적으로 보이는 놀라운 결과를 보였다.

튜링 테스트는 영국의 수학자 앨런 튜링(Alan Turing)이 1950년에 제안한 것으로, 기계가 인간과 구별할 수 없을 정도로 지능적인지 평가하는 방법이다. 이 테스트에서는 질문자가 두 명의 대화 상대(한 명은 인간, 한 명은 AI)와 텍스트로만 대화를 나누고, 누가 인간인지 판단해야 한다. 질문자가 일관되게 인간과 기계를 구별하지 못한다면, 그 기계는 테스트를 통과한 것으로 간주된다.

연구팀은 대학생 126명과 온라인 플랫폼 Prolific에서 모집한 158명의 참가자를 대상으로 실험을 진행했다. GPT-4.5, LLaMa-3.1-405B, GPT-4o, ELIZA 등 4개의 AI 시스템을 평가했으며, 특정 페르소나(persona)를 부여한 경우와 그렇지 않은 경우로 나누어 테스트했다.

특정 성격 부여받은 AI, 성공률 73% 달성... 페르소나 없는 AI는 36~38%에 그쳐

가장 주목할 만한 결과는 특정 페르소나를 부여받은 GPT-4.5(GPT-4.5-PERSONA)가 테스트에서 73%의 성공률을 보였다는 점이다. 이는 질문자들이 실제 인간 참가자보다 GPT-4.5를 더 자주 인간으로 판단했음을 의미한다. LLaMa-3.1 역시 동일한 페르소나 설정으로 56%의 성공률을 달성했다.

반면, 페르소나가 부여되지 않은 GPT-4.5-NO-PERSONA와 LLaMa-NO-PERSONA는 각각 36%와 38%의 성공률을, 기준 모델인 GPT-4o-NO-PERSONA와 ELIZA는 21%와 23%의 낮은 성공률을 보였다. 이는 AI 모델이 특정 성격과 스타일을 가진 인간을 모방하도록 지시받았을 때 훨씬 인간답게 행동할 수 있음을 시사한다.

연구에 사용된 페르소나는 인터넷 문화와 비디오 게임을 좋아하는 10대 후반의 내향적인 젊은이였다. 이 페르소나는 슬랭을 사용하고, 문장 끝에 마침표를 사용하지 않으며, 약어를 사용하는 등 특정 언어 스타일을 가지도록 설계되었다.

일상 대화 61%, 감정 탐색 50%... 인간 구별에 사용된 전략과 성공률

참가자들이 인간과 AI를 구별하기 위해 사용한 전략과 이유를 분석한 결과, 61%의 게임에서 질문자들은 일상적인 대화를 통해 상대방을 평가했다. 예를 들어 직업이나 개인적인 세부 사항에 대해 물어보는 방식이었다. 50%의 경우에는 감정, 유머, 경험 등 사회적·감정적 특성을 탐색했다.

가장 효과적인 전략은 이상한 말을 해서 반응을 살피거나 전형적인 AI 제약을 우회하려는 시도(jailbreak)였다. 반면, 날씨나 인간 경험에 대해 물어보는 것은 가장 효과가 낮은 전략으로 나타났다.

참가자들이 판단 이유로 가장 자주 언급한 것은 언어 스타일(27%)과 상호작용 역학(23%)이었다. 많은 참가자들이 "직감"으로 판단했다고 응답해, 구체적인 판단 이유를 항상 명확히 설명할 수 없었음을 보여주었다.

위조된 사람들'의 등장: 구별 불가능한 AI가 가져올 사회적 파장

이번 연구는 현대 AI 시스템이 처음으로 원래 형태의 튜링 테스트를 통과했음을 보여준다는 중요한 의미를 갖는다. 특히 GPT-4.5는 질문자들이 무작위로 추측하는 것보다 더 자주 인간으로 판단되었을 뿐만 아니라, 실제 인간 참가자보다 더 인간적으로 인식되었다.

연구자들은 이러한 결과가 단순히 AI의 지능을 입증하는 것을 넘어, 현대 사회에 중요한 실질적 함의를 갖는다고 지적한다. 인간과 구별할 수 없을 정도로 인간을 모방할 수 있는 시스템들은 직업을 자동화하고, 온라인 상호작용을 대체하며, 소셜 엔지니어링이나 허위정보 확산에 활용될 수 있다.

다른 한편으로, 이러한 "위조된 사람들(counterfeit people)"의 출현은 진정한 인간 상호작용의 가치를 약화시키고, 사회적 교류의 본질을 변화시킬 수 있다. 연구자들은 "기계가 튜링 테스트를 처음 통과한 지금, 이는 이야기의 끝이 아니라 새로운 시작"이라며, 인간들이 더 나은 친구, 예술가, 교사, 부모, 연인이 되기 위해 노력하게 될 것이라고 전망했다.

FAQ

Q: 튜링 테스트란 정확히 무엇이며 왜 중요한가요?

A: 튜링 테스트는 기계가 인간과 구별할 수 없을 정도로 지능적인지 평가하는 방법입니다. 질문자가 텍스트 대화만으로 인간과 AI를 구별하지 못한다면 AI가 테스트를 통과한 것으로 간주됩니다. 이 테스트는 AI가 단순한 계산이나 패턴 인식을 넘어 인간과 유사한 소통 능력을 갖추었는지 판단하는 중요한 지표입니다.

Q: AI가 튜링 테스트를 통과했다는 것이 일상생활에 어떤 영향을 미칠까요?

A: AI가 인간과 구별되지 않게 대화할 수 있다는 것은 고객 서비스, 온라인 상담, 교육 등 다양한 영역에서 인간-AI 상호작용이 더욱 자연스러워질 수 있음을 의미합니다. 동시에 온라인에서 만나는 상대방이 실제 인간인지 AI인지 구별하기 어려워져 디지털 신뢰 문제가 더욱 복잡해질 수 있습니다.

Q: 페르소나 설정이 왜 AI의 인간성 인식에 큰 차이를 만들었나요?

A: 페르소나 설정은 AI에게 특정 성격, 언어 스타일, 관심사를 가진 인간을 모방하도록 구체적인 지침을 제공합니다. 이러한 구체성이 AI가 일관되고 자연스러운 대화 스타일을 유지하도록 도와주며, 일반적인 AI 응답에서 나타날 수 있는 형식적이거나 지나치게 완벽한 표현을 줄여줍니다. 실제 인간들도 각자 고유한 성격과 대화 스타일을 가지고 있으므로, 이를 모방하는 AI가 더 인간적으로 느껴지는 것입니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

디아블로2 레저렉션. 고령자 배려가 필요한 시대가 됐다	게임동아
[현장취재] 심형탁과 함께한 캡콤 ‘프래그마타’ 쇼케이스, “뇌지컬 슈터 액션 즐겨 달라”	게임동아
심리 공포 게임 ‘서브리미널’, 3월 31일 정식 출시 확정	게임동아
라인게임즈, 캐주얼 방치형 RPG '애니멀 버스터즈' 사전 등록 시작!	게임동아
“PC 업그레이드 고민이라면 지금” 패트리어트 메모리 구매 시 스타벅스 쿠폰 증정	뉴스탭
“한국은 세계 최고 이커머스 시장”…앤커, 서비스·오프라인 투자 확대	뉴스탭
챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에	AI matters
말로 코딩하는 시대 열렸다…앤트로픽 '클로드 코드'에 음성 모드 탑재	AI matters
"진정하세요" 이제 그만…오픈AI, 챗GPT의 '오글거리는' 말투 고친다	AI matters
AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들	AI matters
'전기차가 리튬을 앞질렀다' 글로벌 공급 부족 2028년 시작 전망	오토헤럴드
스마일게이트 ‘카제나’, 총 상금 1,500만원 규모 ‘2026 봄 일러스트 콘테스트’ 개최	게임동아
코지마 프로덕션 디자인 담은 한정판 게이밍 노트북, ASUS ROG 플로우 Z13-KJP 공개 (1)	노트포럼
코리아보드게임즈, 온 가족이 즐기는 ‘패밀리 보드게임’ 4종 출시	게임동아
국내 완성차 5개사, 설 연휴 여파에 4.6% 감소 '내수 두 자릿수 하락'	오토헤럴드
전쟁도 관세도 못 막았다. 현대차ㆍ기아 美 2월 판매 역대 최고 실적	오토헤럴드
팰리세이드 '세계 올해의 차' 파이널 진출, 현대차ㆍ기아 4개 부문 톱3	오토헤럴드
'600마력 고성능 SUV' BMW, 알피나 재출범 후 첫 북미 한정판 예고	오토헤럴드
차세대 EV 체제로 전환, 렉서스 첫 전기 SUV 'UX 300e' 결국 단종	오토헤럴드
출시 40여 일 만에, ‘하이가드’ 서비스 종료	게임메카
되팔이 없앤다, 30주년 ‘흑백 뚱카츄’ 추가생산 예고 (1)	게임메카
올해 기대작 집결, 스팀 ‘찜목록’의 신흥 강자들	게임메카
[오늘의 스팀] 바하 레퀴엠, 유저 평가 ‘압긍’까지 상승 (1)	게임메카
드래곤이 점점 커진다, 롤 ‘쉬바나’ 개편 예고	게임메카
엔씨(NC) 리니지M, 신서버 ‘켄트’, ‘오렌’ 사전 캐릭터 생성 진행	게임동아
넥써쓰-플레이위드코리아, ‘씰M 온 크로쓰’ 3월 19일 출시	게임동아
전 세계에 50개 있는 타입문 ‘월희’ 체험판... 美 세관에서 파괴됐다?	게임동아
‘제 2의 콘코드’ 하이가드 서비스 종료... “약 45일 만” (1)	게임동아
웹젠 “MG 지급 완료, 드래곤 소드 퍼블리싱 계약 유효하다”	게임메카
‘마라톤’이 1위, 스팀 넥스트 페스트 인기 TOP 50 공개	게임메카
레노버, MWC 2026서 AI가 알아서 맞춰주는 PC 시대 열었다	AI matters
"검색 AI의 반란"…퍼플렉시티, AI 모델들을 한데 묶은 '디지털 노동자' 공개	AI matters
"데스크톱도 AI 비서 시대"… AMD, 세계 최초 코파일럿+ PC용 데스크톱 프로세서 공개	AI matters
트럼프, 앤트로픽 모델 정부 사용 금지령… 오픈AI는 국방부 계약 체결	AI matters
독일 뉘르부르크링 간다…폭스바겐, ‘골프 GTI 50주년’ 대학생 AI 공모전 개최	뉴스탭
“수리 3일 넘으면 하루 20만원”…만트럭, 국내 수입 상용차 최초 ‘운휴 보상’ 도입	뉴스탭
990g 초경량에 33시간 배터리…에이수스, AI 노트북 판 흔든다	뉴스탭
미니멀 열풍 속 존재감 키운 ‘스웨이드 스니커즈’, 봄 스타일의 균형점 되다	뉴스탭
웹젠, '드래곤소드' 하운드13에 MG 잔금 지급...퍼블리싱 계약 유효	게임동아
국가별 ‘금지’ 게임들 뭐가 있을까? [게임 인더스트리] (1)	게임동아
넷마블, 방치형 신작 '스톤에이지 키우기' 글로벌 정식 출시	게임동아
‘붉은사막’ 스팀 글로벌 판매량 8위 등극. 펄어비스 주가 폭등중	게임동아
넷마블 '세븐나이츠 리버스', ‘갤럭시 S26’ 출시 기념 [아이돌 연희] 테마 출시	게임동아
모바일MMORPG 아닙니다! 리마스터로 멀티플랫폼 게임으로 거듭난 검은사막 모바일	게임동아
[동아게임백과사전] 12년간 XBOX를 이끈 구원자 필스펜서가 은퇴하다	게임동아
카드와 타워 디펜스의 만남. 샤이니 슈가 개발한 '몬스터 트레인2'	게임동아
블리자드 '월드 오브 워크래프트'로 성수를 채우다.. 팬들 '함박웃음'	게임동아
블리자드 '와우: 한밤', 복귀 및 신규 게이머들을 위한 '축제'가 시작됐다	게임동아
코나미, 2026 월드 베이스볼 클래식 글로벌 스폰서 선정	게임동아
NHN, 수집형 RPG ‘어비스디아’ 구글 플레이 인기 1위 기록	게임동아
컴투스홀딩스 신작 액션게임 ‘페이탈 클로’, 신규 지역 확장 및 탐험 재미 강화	게임동아
[EV 트렌드] '전고체 상용화 가속' 고션 하이 테크, 실차 테스트 돌입	오토헤럴드
“MSI 노트북 사면 VPN 1년 무료”…새학기 파격 아카데미 캠페인 시작	뉴스탭
2박 요금에 64시간 머문다…신안 자은도에서 만나는 ‘섬티아고’ 순례 여행 (1)	뉴스탭
드리프트만 해도 돈벼락… GTA 온라인, 이번 주 보상 ‘역대급’	뉴스탭
모니터 사고 후기 쓰면 1만원… 벤큐코리아, 닌텐도 스위치 2까지 쏜다	뉴스탭
2미터 콘크리트 낙하에도 ‘멀쩡’… 코닝, 역대급 내구성 고릴라 글래스 공개	뉴스탭
김우형·신우석 등 8인 합류…캐논코리아, ‘2026 캐논 마스터즈’ 공개	뉴스탭
GTA6와 어깨 나란히… ‘붉은사막’, 중국서 가장 기대되는 게임 선정 (1)	뉴스탭
“여의도 225% 급증”…아고다가 공개한 봄꽃 여행지 검색 순위	뉴스탭
“800g 순살·12호 닭”…노랑통닭, 치킨 중량 표시제 자발적 동참	뉴스탭
AMD, ‘Ryzen AI 400’ 공개…세계 최초 코파일럿+ 지원 데스크톱 프로세서	뉴스탭
콜라·치킨무 빼면 2천원 절감…바른치킨 ‘치킨만’ 옵션 도입 (1)	뉴스탭
항공·숙소 예약 한 번에 묶는다…NOL, AI 일정 관리로 여행 판 바꿔	뉴스탭
피코, 공간 운영체제 전면 재설계…‘피코 OS 6’와 4000PPI ‘프로젝트 스완’ 공개	뉴스탭
월드 바리스타 챔피언과 손잡은 빽다방, “가성비 넘어 품질 승부수”	뉴스탭
한국인 63% “수면이 건강 최우선”…하지만 절반은 숙면 4일 이하	뉴스탭
세븐틴 조슈아, 민감피부 대표 얼굴 됐다…리얼베리어 글로벌 공략 시동	뉴스탭
두카티, 2세대 데저트X 공개…V2 엔진·오프로드 성능 대폭 강화	오토헤럴드
'피지컬 AI 전략' BMW, 유럽 생산현장에 휴머노이드 로봇 도입	오토헤럴드
폭스바겐그룹코리아, 폭스바겐 부문 신임 사장에 마이클 안트 선임	오토헤럴드
2026 올해의 차 싹쓸이 '현대차 아이오닉 9' 매일 1040만원 쏜다	오토헤럴드
현대차그룹, 국가보훈부와 필리핀 한국전 참전용사 추모시설 개선 나서	오토헤럴드
멈추지 않는 포드 리콜, 견인 모듈·서스펜션·배터리 결함 480만대	오토헤럴드
로봇과 AI의 선한 역할, 현대차그룹 '무인소방로봇' 활약 담은 영상 공개	오토헤럴드
일론 머스크 테슬라 CEO "자동차 산업, 전기·자율로 가야 생존"	오토헤럴드
아우디 코리아, 신임 마케팅 커뮤니케이션 총괄 임원 이규희 상무 선임	오토헤럴드
한국타이어 라우펜, 북미 시장 공략 올터레인 타이어 ‘X FIT AT2’ 출시	오토헤럴드
'IT 기업에서 하이퍼카까지' 샤오미, 비전 그란 투리스모 최초 공개	오토헤럴드
더 뉴 BMW iX3, 글로벌 시장 ‘올해의 차’ 비롯 주요 자동차 어워즈 수상	오토헤럴드
'성장하는 트레일 시장 공략' 미쉐린, 아나키 어드벤처 2 출시	오토헤럴드
폭스바겐, 골프 GTI 50주년 ‘골프 GTI 대학생 AI 영상 광고 공모전’	오토헤럴드
롤스로이스의 또 다른 자아 ‘블랙 배지’ 10주년... 슈퍼 럭셔리의 기준 제시	오토헤럴드
볼보, 차세대 사용자 경험 ‘Volvo Car UX’ 기존 차량까지 무상 확대	오토헤럴드
현대차, 이름 빼고 다 바꾼 차세대 아반떼로 '세단의 시대 다시 연다'	오토헤럴드
포켓몬 시리즈 중 1등, 포코피아 메타크리틱 89점	게임메카
모가로스의 귀환, 스톤에이지 키우기 서비스 개시	게임메카
2번째 AMD 라이젠 프로세서 페이즈의 시작, ASRock B850M Rock WiFi	브레인박스
필립스, 240Hz 올레드 게이밍 모니터 ‘에브니아 27M2N6501L’ 출시 행사 진행	다나와
올해 출시, 뱅드림 모바일 신작 한국어 티저 영상 공개	게임메카
탕탕과 로시 등장, 엔드필드 1.1 업데이트 상세 내용 공개	게임메카
[롤짤] 꿈쩍도 안 하는 상체, LCK 컵 전승 우승 '젠지'	게임메카
승리의 용 스틸, 젠지 LCK 컵 전승으로 우승컵 안았다	게임메카
“AI가 집과 자동차를 하나로”…샤오미, MWC 2026서 미래 생태계 공개	뉴스탭
AI뉴스 나노바나나2, QuiverAI Arrow, Perplexity Computer, 클로드 Remote Control, 미국방부 갈등, Qwen3.5 시리즈 등 동영상 있음	조코딩 JoCoding
1stPlayer, 일러스타 페스 10서 YESTON 브랜드와 협업 부스 성황리 마무리	다나와
인텔 공인대리점 3사 ‘인텔 정품 CPU 리뷰 포인트’ 프로모션 실시	다나와
[매장탐방] 바하 신작과 설 특수, 오랜만에 풍족했던 매장 (1)	게임메카
하운드13 "웹젠으로부터 MG 잔금 수령, 논의 이어가겠다"	게임메카
관건은 귀여움, 오버워치 '제트팩 캣' 개발 비화 공개	게임메카

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"AI가 '인간 연기'할 때 실제 인간보다 더 인간답다”… 충격적 연구 결과 공개

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"AI가 '인간 연기'할 때 실제 인간보다 더 인간답다”… 충격적 연구 결과 공개

공유하기

공감/비공감