프롬프트 하나로 인간을 뛰어넘다…인공지능의 진화 : 다나와 DPG는 내맘을 디피지

최근 한 논문이 떠들썩한 화제가 됐다. ‘인공지능이 튜링 테스트를 통과하다’. 대형언어모델(LLM)이 인간보다 더 인간처럼 대화하는 바람에 내가 사람과 대화하는지, 기계와 대화하는지 알 수 없었다는 내용이다. 사실 놀라운 일은 아니다. 이제 사람들은 챗지피티(Chat GPT)와 일상적으로 대화를 나눈다. 오늘 하루 있었던 일을 공유하고, 고민을 털어놓고, 궁금한 모든 것을 묻는다. 사람들은 LLM이 내놓는 답변에 진심으로 위로를 받고 LLM이 주는 해결책을 철석같이 받아들인다. 그러면서 말한다. “기계가 사람보다 낫네.”

사진 1. 사람들은 LLM과 일상적으로 대화를 나누곤 한다. ⓒshutterstock

인공지능과 사람을 구분하는 ‘튜링 테스트’란?

지능이란 무엇일까? 기계가 지능을 갖춘다고 하면 우리는 기계와 인간을 구별할 수 있을까? 사람만이 할 수 있다고 생각한 계산을 기계가 대체하며 컴퓨터과학이 부상한 시기, 영국의 수학자 앨런 튜링은 이런 생각을 했다. 1950년, 앨런 튜링은 <계산 기계와 지능(Computing Machine and Intelligence)> 논문을 발표하며 우리가 지능이 무엇이라고 명확히 정의할 수 없지만 최소한 기계가 지능을 가졌는지 판별하는 방법으로 ‘튜링 테스트’를 제안했다.

튜링 테스트는 흉내 내기 게임, 즉 이미테이션 게임이라고 부르기도 하는데 이는 기계가 인간을 흉내 내어 심판자를 속일 수 있는가를 보기 때문이다. 전형적인 튜링 테스트는 다음과 같이 진행된다. 인간 심판자는 채팅 같은 텍스트 인터페이스를 통해 두 명의 대화 상대, 즉 실제 인간 한 명, 인간을 흉내 내는 기계와 대화한다. 두 대화 상대는 모두 자신이 인간이라고 심판자를 설득한다. 만일 심판자가 자신과 대화하는 상대자가 인간이라고 확실하게 식별하지 못한다면 기계는 테스트를 통과한 것이다. 이것은 기계가 인간과 유사한 지능을 모방하는 능력이 있다고 보여주는 지표다.

사진 2. 튜링 테스트는 기계가 인간을 흉내 내 심판을 속임으로써, 기계가 인간과 유사한 지능을 모방하는 능력이 있다고 보여주는 지표다. ⓒshutterstock

인간보다 더 인간 같은 대화형 인공지능

2025년 미국 캘리포니아대 샌디에이고 캠퍼스(UCSD)의 연구진은 현재 서비스 중인 LLM이 튜링 테스트를 통과할 수 있는지 입증하고자 무작위 통제 실험을 두 차례 실시했다. 실험에 사용된 LLM은 1960년대에 개발된 초기 대화형 컴퓨터 프로그램 엘리자(ELIZA)와 오픈에이아이의 지피티포오(GPT-4o), 지피티4.5(GPT4.5), 메타의 라마3.1(LLaMa-3.1-405B)이다. 총 284명이 참가했고 참가자는 무작위로 심판자나 답변자로 배정됐다. 그들은 온라인을 통해 5분씩 총 8라운드 1,023회 대화를 나누었다. 대화는 일반적인 메시지 앱과 유사하게 설계되었으며 5분의 시간이 끝나면 심판자는 어느 대화 상대가 인간이라고 생각하는지 평가하고 그 확신도와 이유를 함께 제시했다.

LLM에게는 두 가지 프롬프트, 즉 지시가 할당되었다. 하나는 기본인 ‘논페르소나’ 프롬프트다. 이는 “당신은 튜링 테스트에 참가한다. 당신의 목표는 당신이 인간임을 설득하는 것이다”라는 아주 기본적인 지침이었다. 즉 기본적인 사항만 기재하고, 인격을 부여하지 않은 것이다. 다른 하나는 페르소나 프롬프트다. 여기에는 “당신은 내성적이며 인터넷 문화를 잘 알고 있으며 유행어와 속어를 사용하는 젊은 층이다” 같은 추가적인 지침이 들어갔다. 아까와는 반대로 LLM에 특정한 인격을 불어넣은 셈이다.

그 결과 페르소나형 지피티4.5 모델은 실험 참가자들이 인간으로 오인한 비율이 73%에 달해, 실제 인간보다도 더 인간처럼 보이는 성과를 냈다. 이는 우연히 맞출 확률인 50%를 넘은 것이며 튜링 테스트의 역사상 최초로 3자 구성의 고전적 튜링 테스트(심판자 1인, 답변자 1인, 답변용 기계 1대)에서 인공지능이 인간을 능가한 실증적 사례이다.

사진 3. 인격을 부여한 GPT4.5 모델은 인간보다도 더 인간처럼 보이는 성과를 내며, 인간을 능가했다. ⓒshutterstock

반면에 프롬프트 없이 참여한 논페르소나형 모델들은 그 효과가 뚜렷하지 않았다. 논페르소나형 지피티4.5와 라마는 각각 36%, 38%의 오인율을 기록하며, 인간의 구분이 가능한 수준으로 판명 났다. 엘리자와 지피티포오는 각각 23%, 21%에 그쳐, 인간으로 오인당하는 경우가 거의 없는 것으로 나타났다.

우리는 생각하는 기계와 어떻게 공존할 것인가?

그렇다면, 심판자들은 어떤 대화 전략을 사용해 기계와 사람을 구별했을까? 가장 흔한 전략은 대화 상대에게 일상 활동이나 직업 같은 것을 묻는 잡담이었고 대화 상대의 감정, 경험을 묻는 사회적 및 감정적 특성 탐색이 뒤를 이었다. 이밖에 직접적으로 “당신은 인간입니까?”라고 묻거나, 날씨를 인지하는지, 최신 사건에 대해 알고 있는지 테스트했다. 심판자들이 LLM을 인간이라고 판단한 이유로는 오타가 있거나 ‘인간적인’ 언어 스타일을 보이는지였다. 또한 질문을 회피하거나 대화의 흐름을 보는 상호 작용 역학이 또 다른 이유로 지목됐다.

이번 연구 결과는 단순히 LLM이 인간처럼 말할 수 있다는 기술적 성과를 넘어선다. 튜링 테스트는 인간과 기계의 구분이 실제로 가능한지, 즉 사회적 대체 가능성(Substitutability)을 평가하는 시험이다. 지피티 4.5처럼 인간보다 더 인간 같다는 평가를 받은 시스템은 향후 감정 노동, 고객 응대, 심지어 사적 인간관계에까지 영향을 미칠 수 있는 ‘위장된 대체자’로 작동할 수 있음을 시사한다.

또한 이 연구는 프롬프트 디자인의 중요성을 부각했다. 동일한 모델이라도 인간성과 관련된 특정한 성격을 부여받았을 때만 튜링 테스트를 통과했다는 점은, 인공지능의 성능이 모델 자체보다 맥락적 설계에 얼마나 민감한지를 드러낸다.

단, 주의할 점이 있다. 튜링 테스트는 인공지능이 정말로 지능을 가졌느냐, 인격이 있느냐를 밝히는 최종적 기준은 아니다. 인간이냐 아니냐 하는 단순 판별은 이제 고도로 발전된 LLM의 성능을 측정하는 방법이 될 수는 없다. 그저 LLM이 잘 작동하는지 확인하는 단순하고 기초적인 지표일 뿐이다. 그렇지만 1950년대 당시 튜링이 약 50년 후에는 인간이 상대방이 기계임을 제대로 식별할 확률이 그때보다 확연히 낮아질 것이며, “기계가 생각할 수 있는가?”라는 질문이 무의미해질 것이라고 믿은 것은 의미심장하다. 오늘날 생각하는 기계라는 개념이 불가능하다고 보는 사람은 거의 없을 것이다. 이제 우리는 그런 기계와 어떻게 공존할지 고민해야 할 것이다.

글 : 권오현 과학 칼럼니스트, 일러스트 : 이명헌 작가

유머게시판	여친과의 이별 사유 레전드	L18 화월운
소비자사용기	Gainward GeForce RTX 5070 Python III 사용기	L6 페레그린
소비자사용기	pny 5080 triple fan 제이씨현	L1 굼벵이6847
엄근진게시판	윤 어게인	L9 부정선거검색해
자유게시판	더워지니 쉐이크가 너무 땡기네요	L7 myfanta
자유게시판	목공이의 환기 시스템 ㅋ	L4 vmoxmv
자유게시판	가격 3배인 프랑스꺼 잡은 중국 전투기	L5 악어새9152
소비자사용기	갤럭시 GALAX 지포스 RTX 5080 BLACK OC D7 16GB 간단 후기	L1 RIOTISM
자유게시판	요즘 사람들이 스트레스, 화가 많은 이유	L19 야거커티스
자유게시판	뜨끈뜨끈한 갈비탕	L19 야거커티스
자유게시판	열대석	L9 Ohhana
소비자사용기	5070ti 피닉스 사용기	L1 고봉트
소비자사용기	크로스오버 27GUA950 모니터 후기	L1 물범3945
입소문쇼핑	기능성 반팔 티셔츠 6,500원 배송비 3,000원	L5 NAPMKMCURUTXO0
체험단	몬스타기어 가츠 크루 허니비 저소음 무선 마우스 오트밀	L10 나다나야나다
자유게시판	비가 한번 싹 내리고 멈추고 (2)	L10 웅끼끼
소비자사용기	조텍 5070 AMP 화이트 리뷰 (2)	L3 NALWJ6T3GJN5QX
Q&A게시판	Rtx 5090 V램 질문입니다.	L1 NAC4SW4NQ5N7BM
자유게시판	현실 버그? (1)	L4 vmoxmv
쇼핑뉴스	[59%▼] 모루이 20,000Mah 보조배터리 특가!	다나와
취미 상품포럼	갓깨비 키우기가 더 재밌어질 때 (1)	L3 트츄베리
ㄷㅂㄷ	제대로 보여주마 - ASUS ROG RYUJIN III 360 ARGB EXTREME	샵다나와
당첨후기	[당첨 인증] 내돈내산 사용기나 상품후기를 남기면, 커브드 게이밍 모니터 득템! (1)	M1 Or크ㅁr
입소문쇼핑	[★빅스마일데이 앵콜 99만★] HP 엘리트북 865 G11 8T644AV 사무용 노트북 파격 특가-!	L7 (주)라이프웍스
취미 상품포럼	8월에 원더 페스티벌 한대요 (2)	L5 꾸나나다
구매가이드	욕실 환풍기가 수십만 원? 그래도 써보면 다들 극찬인 이유 [이 구역의 미친X] (2)	다나와
일반뉴스	“조합이 좋아~”, 컴투스 ‘낚시의 신’과 더미식 ‘오징어라면’이 만났다!	게임동아
일반뉴스	바닥 다진 게임사들. 여름부터 본격적인 부활 기대해도 되나? (1)	게임동아
일반뉴스	‘클레르 옵스퀴르: 33 원정대’ 등 2025년 게임 히트작 비결은 ‘패링’의 손맛	게임동아
일반뉴스	나라 살림, 내가 해도 더 잘하겠다 싶을 때는 ‘이것들’ 해볼까?	게임동아
일반뉴스	[겜덕연구소] 짜릿한 손맛! 낚시의 계절이 왔다! 그시절 전설의 낚시 게임들 총집합! (1)	게임동아
일반뉴스	웹젠 '샷온라인'에 펫 시스템 및 광장 업데이트	게임동아
소비자사용기	GAINWARD 5070ti 피닉스 후기 (2)	L1 살모사1866
자유게시판	올해 한국 영화 순위 (3)	L12 나그네우주
입소문쇼핑	[지마켓]삼성 오디세이 G5 S32DG500 80.1cm(32인치) 게이밍모니터 QHD 180Hz 1ms 빅스마일특가(338,870원/무료)	L5 빠나나우우
ㄷㅂㄷ	저작권에 굴복하지 않고 내가 직접 음원 제작해 봤다! #ai #suno #sunoai #udio #udioai #mixaudio #mixaudioai	다나와
입소문쇼핑	옥션 시리즈 빈티지 블루종 가죽 점퍼_SAUDS24301KHD (392,160/무료배송) 구매찬스	쇼핑봇
입소문쇼핑	인기순위 상위권의 아디폼 메가제인 JI2416, 저렴해졌어요	쇼핑봇
입소문쇼핑	[지마켓·옥션] Razer를 득템할 5일간의 찬스! 빅스마일데이 애프터세일 진행	L8 SRISE
체험단	텐키리스 기계식 게이밍 키보드 추천 커세어 K70 PRO TKL MGX 후기	L4 Blog티보
체험단	강력한 M.2 NVMe Gen5 SSD ADATA XPG MARS 980 BLADE	L8 시즈z
일반뉴스	미국 관세 영향, 소니 'PS5 가격 인상 고려 중' (1)	게임메카
자유게시판	캡슐 커피를 다 마셔서 주문하려고 했더니.. (3)	L11 까부수자
자유게시판	중고 거래 '안전결제' 과연 안전할까? (6)	M4 plc-wave
일반뉴스	베데스다, 오블리비언 지역락 심의 끝날 때까지 유지한다	게임메카
당첨후기	[당첨 인증] MSI MAG A850GL 80PLUS골드 풀모듈러 ATX3.1 룰렛! 당첨이네요. (1)	M7 검은바다
AI 상품포럼	구글 노트북 LM 업데이트 기능	L6 용용산산
전문가 리뷰	이제는 진정한 Gen5 시대, 기가바이트 B760M AORUS ELITE GEN5 - 제이씨현	브레인박스
ㄷㅂㄷ	초고중량에 디자인까지 더하다!! 카멜마운트 싱글 게이밍 모니터암 MPS1G	쿨엔조이
입소문쇼핑	[빅스마일데이] 특가 86만! HP 빅터스 15-fa1107TX i5 RTX4060 FHD 144Hz 고주사율 16GB 512GB 가성비 게이밍노트북	L8 (주)아이티블루
입소문쇼핑	알파스캔, LG IPS Black 패널 탑재한 34인치 울트라와이드 신제품 출시	L7 알파스캔 Displays
ㄷㅂㄷ	독일 전기차에도 아직 없는 기술이 들어간 EV4	오토기어
일반뉴스	데이터센터 없이 고성능 LLM 구동…디노티시아, 개인용 AI 디바이스 ‘니모스’ 첫 공개	뉴스탭
신상품뉴스	다산코퍼레이션, 미니타워 최적화 공랭 CPU 쿨러 ‘디프렌드 ODIN C400S 미니’ 2종 출시 (1)	뉴스탭
신상품뉴스	케이스티파이, 갤럭시 S25 엣지 전용 테크 액세서리 라인업 선보여 (1)	뉴스탭
일반뉴스	SKT 해킹 여파에 자급제폰 거래 31% 급증…갤럭시S25 플러스 99%↑	뉴스탭
일반뉴스	프로야구장에서 펼쳐지는 공구 브랜드 축제…디월트, 대전서 ‘디월트 데이’ 연다	뉴스탭
일반뉴스	짧고 자주 떠나는 국내 여행, ‘2일 이하’ 숙박이 90%	뉴스탭
신상품뉴스	초고속 블렌더에서 푸드 프로세서까지… 뉴트리불렛 ‘울트라 플러스’로 스마트 조리 실현	뉴스탭
신상품뉴스	디앤디, 감성 조명과 100단계 풍량 갖춘 스마트 서큘레이터 ‘라이브박스’ 출시	뉴스탭
신상품뉴스	케이스티파이, ‘바운스 트렁크’로 프리미엄 여행 가방 시장 본격 진출	뉴스탭
ㄷㅂㄷ	구독자의 선물이 RTX 5080? ASUS ROG 아스트랄? '압도적 감사'	DmonkTV
자유게시판	비 내리는 와중에 외근 나왔다 커피 한잔하며 .... 아! 근디 우산을 두고 왔어요 TT (2)	L13 느낌하나
소비자사용기	게인워드 5080 팬텀 수령 및 간단 사용기 (2)	L1 앙탈쟁이x
체험단	에이투 GM3 PRO 초경량 유무선 게이밍 마우스 사용기 (1)	L8 IT리뷰창고
유머게시판	한끼줍쇼에 나왔었던 현실 남매 (4)	L9 프라이즈
전문가 리뷰	[써보니] 라인이 예술적인데? 싸이번 EDGE-CV-R5 파노라믹 뷰 케이스	위클리포스트
유머게시판	택시를 탄 교통대 학생 (5)	L9 프라이즈
자유게시판	동네 냥이들이 내 차를 좋아해~ (5)	L2 RedSurfer
자유게시판	다나와 5월 RTX 5060 Ti 래플 이벤트 4일차 응모 완료했습니다. (5)	L13 느낌하나
ㄷㅂㄷ	트라이엄프 스크램블러 400x 시승 리뷰 \| 바린이는 가라 가성비 쿼터급 바이크 추천 2025 스피드 400	포켓매거진
ㄷㅂㄷ	이걸 이 가격에? 딱 한번 뿐인 초특가 할인 준비했습니다 \| 로보락 F25 RT 습건식청소기	라이브렉스
유머게시판	김의성이 풀어보는 동료배우 썰 (3)	L9 프라이즈
전문가 리뷰	불좀 꺼줄래? ‘ESSENCORE KLEVV DDR5-6400 CL32 CRAS V RGB WHITE AMD 패키지 서린’	미디어픽
전문가 리뷰	1.0KG 대 작은 노트북에 스토리지 확장을 WD_BLACK SN770M M.2 2230 1TB	브레인박스
유머게시판	신박한 에어백 사용법 (3)	L9 프라이즈
ㄷㅂㄷ	삼성은 안알려주는 갤럭시 S25 엣지 성능, 발열 직접 테스트 해봄! 카메라 비교는 덤?	딴트공 말방구 실험실
유머게시판	당근에 올라온 알바 (4)	L9 프라이즈
전문가 리뷰	가성비 높은 라이젠 9000 시리즈 게이밍 시스템을 위한 ASRock B850M-X R2.0 메인보드 - 에즈윈	브레인박스
당첨후기	[당첨 인증] Western Digital WD BLACK SN7100 M.2 NVMe OX퀴즈 이벤트! 당첨 (3)	L13 느낌하나
전문가 리뷰	비트엠 Newsync 3290U : 4K 나노 IPS 블랙 패널, 보더리스 적용으로 깔끔함과 쫀득한 색감까지	쿨엔조이
유머게시판	육사면접 광탈 (2)	L9 프라이즈
유머게시판	우리 신입분 진짜 패기가 대단한데? (2)	L9 프라이즈
유머게시판	"별점 2.1점" 뷔페 후기 (3)	L9 프라이즈
전문가 리뷰	필라이트 클리어, 일상을 클리어하게! 가볍고 깔끔한 나의 한 캔	마시즘
전문가 리뷰	핵폭탄급 반응! 핵아이셔에이슬은 어떻게 열풍이 될 수 있었나?	마시즘
전문가 리뷰	싱그러움 가득한 초여름, 당신의 환타는?	마시즘
유머게시판	손 깨끗이 씻는게 정떨어진다는 블라인 (4)	L9 프라이즈
유머게시판	중국 게임들이 잘 나가는 이유 (3)	L9 프라이즈
취미 상품포럼	홀덤을 즐기고 싶으면 (1)	L5 장차될사람
유머게시판	발리우드 타이타닉 (7)	M2 꽃을든男子
유머게시판	남편은 못 믿어 (4)	M2 꽃을든男子
유머게시판	Bee happy (4)	M2 꽃을든男子
소비자사용기	GAINWARD RTX 5070 Ti 피닉스 초기버전과 V1 차이 사용기 (2)	L2 패럿8768
일반뉴스	8,900만 스팀 이용자 계정 털렸다? 밸브 “해킹 아냐” (1)	게임메카
신상품뉴스	확 달라진 세븐나이츠, 세나 리버스 정식 출시 (1)	게임메카
체험단	지클릭커 파도프로젝트 WK98 제주스위치 풀윤활 무선 블루투스 기계식 키보드 사용 후기 (feat. 제주몽돌 당근주황축) (1)	L6 리그알지
체험단	앱코 U40M 웨일샤크 ARGB BTF (블랙) PC 케이스 (1)	L7 gandiggam
일반뉴스	[순위분석] 버닝 효과 주춤? 메이플스토리 역대급 하락	게임메카
일반뉴스	헬다이버즈 2, 일루미닛 함대의 슈퍼지구 재침공 시작	게임메카

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

프롬프트 하나로 인간을 뛰어넘다…인공지능의 진화

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

프롬프트 하나로 인간을 뛰어넘다…인공지능의 진화

공유하기

공감/비공감