비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

프롬프트 하나로 인간을 뛰어넘다…인공지능의 진화

2025.05.15. 11:05:43
조회 수
207
2
댓글 수
3

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기
최근 한 논문이 떠들썩한 화제가 됐다. ‘인공지능이 튜링 테스트를 통과하다’. 대형언어모델(LLM)이 인간보다 더 인간처럼 대화하는 바람에 내가 사람과 대화하는지, 기계와 대화하는지 알 수 없었다는 내용이다. 사실 놀라운 일은 아니다. 이제 사람들은 챗지피티(Chat GPT)와 일상적으로 대화를 나눈다. 오늘 하루 있었던 일을 공유하고, 고민을 털어놓고, 궁금한 모든 것을 묻는다. 사람들은 LLM이 내놓는 답변에 진심으로 위로를 받고 LLM이 주는 해결책을 철석같이 받아들인다. 그러면서 말한다. “기계가 사람보다 낫네.”
사진 1. 사람들은 LLM과 일상적으로 대화를 나누곤 한다. ⓒshutterstock
인공지능과 사람을 구분하는 ‘튜링 테스트’란?
지능이란 무엇일까? 기계가 지능을 갖춘다고 하면 우리는 기계와 인간을 구별할 수 있을까? 사람만이 할 수 있다고 생각한 계산을 기계가 대체하며 컴퓨터과학이 부상한 시기, 영국의 수학자 앨런 튜링은 이런 생각을 했다. 1950년, 앨런 튜링은 <계산 기계와 지능(Computing Machine and Intelligence)> 논문을 발표하며 우리가 지능이 무엇이라고 명확히 정의할 수 없지만 최소한 기계가 지능을 가졌는지 판별하는 방법으로 ‘튜링 테스트’를 제안했다.
튜링 테스트는 흉내 내기 게임, 즉 이미테이션 게임이라고 부르기도 하는데 이는 기계가 인간을 흉내 내어 심판자를 속일 수 있는가를 보기 때문이다. 전형적인 튜링 테스트는 다음과 같이 진행된다. 인간 심판자는 채팅 같은 텍스트 인터페이스를 통해 두 명의 대화 상대, 즉 실제 인간 한 명, 인간을 흉내 내는 기계와 대화한다. 두 대화 상대는 모두 자신이 인간이라고 심판자를 설득한다. 만일 심판자가 자신과 대화하는 상대자가 인간이라고 확실하게 식별하지 못한다면 기계는 테스트를 통과한 것이다. 이것은 기계가 인간과 유사한 지능을 모방하는 능력이 있다고 보여주는 지표다.
사진 2. 튜링 테스트는 기계가 인간을 흉내 내 심판을 속임으로써, 기계가 인간과 유사한 지능을 모방하는 능력이 있다고 보여주는 지표다. ⓒshutterstock
인간보다 더 인간 같은 대화형 인공지능
2025년 미국 캘리포니아대 샌디에이고 캠퍼스(UCSD)의 연구진은 현재 서비스 중인 LLM이 튜링 테스트를 통과할 수 있는지 입증하고자 무작위 통제 실험을 두 차례 실시했다. 실험에 사용된 LLM은 1960년대에 개발된 초기 대화형 컴퓨터 프로그램 엘리자(ELIZA)와 오픈에이아이의 지피티포오(GPT-4o), 지피티4.5(GPT4.5), 메타의 라마3.1(LLaMa-3.1-405B)이다. 총 284명이 참가했고 참가자는 무작위로 심판자나 답변자로 배정됐다. 그들은 온라인을 통해 5분씩 총 8라운드 1,023회 대화를 나누었다. 대화는 일반적인 메시지 앱과 유사하게 설계되었으며 5분의 시간이 끝나면 심판자는 어느 대화 상대가 인간이라고 생각하는지 평가하고 그 확신도와 이유를 함께 제시했다.
LLM에게는 두 가지 프롬프트, 즉 지시가 할당되었다. 하나는 기본인 ‘논페르소나’ 프롬프트다. 이는 “당신은 튜링 테스트에 참가한다. 당신의 목표는 당신이 인간임을 설득하는 것이다”라는 아주 기본적인 지침이었다. 즉 기본적인 사항만 기재하고, 인격을 부여하지 않은 것이다. 다른 하나는 페르소나 프롬프트다. 여기에는 “당신은 내성적이며 인터넷 문화를 잘 알고 있으며 유행어와 속어를 사용하는 젊은 층이다” 같은 추가적인 지침이 들어갔다. 아까와는 반대로 LLM에 특정한 인격을 불어넣은 셈이다.
그 결과 페르소나형 지피티4.5 모델은 실험 참가자들이 인간으로 오인한 비율이 73%에 달해, 실제 인간보다도 더 인간처럼 보이는 성과를 냈다. 이는 우연히 맞출 확률인 50%를 넘은 것이며 튜링 테스트의 역사상 최초로 3자 구성의 고전적 튜링 테스트(심판자 1인, 답변자 1인, 답변용 기계 1대)에서 인공지능이 인간을 능가한 실증적 사례이다.
사진 3. 인격을 부여한 GPT4.5 모델은 인간보다도 더 인간처럼 보이는 성과를 내며, 인간을 능가했다. ⓒshutterstock
반면에 프롬프트 없이 참여한 논페르소나형 모델들은 그 효과가 뚜렷하지 않았다. 논페르소나형 지피티4.5와 라마는 각각 36%, 38%의 오인율을 기록하며, 인간의 구분이 가능한 수준으로 판명 났다. 엘리자와 지피티포오는 각각 23%, 21%에 그쳐, 인간으로 오인당하는 경우가 거의 없는 것으로 나타났다.
우리는 생각하는 기계와 어떻게 공존할 것인가?
그렇다면, 심판자들은 어떤 대화 전략을 사용해 기계와 사람을 구별했을까? 가장 흔한 전략은 대화 상대에게 일상 활동이나 직업 같은 것을 묻는 잡담이었고 대화 상대의 감정, 경험을 묻는 사회적 및 감정적 특성 탐색이 뒤를 이었다. 이밖에 직접적으로 “당신은 인간입니까?”라고 묻거나, 날씨를 인지하는지, 최신 사건에 대해 알고 있는지 테스트했다. 심판자들이 LLM을 인간이라고 판단한 이유로는 오타가 있거나 ‘인간적인’ 언어 스타일을 보이는지였다. 또한 질문을 회피하거나 대화의 흐름을 보는 상호 작용 역학이 또 다른 이유로 지목됐다.
이번 연구 결과는 단순히 LLM이 인간처럼 말할 수 있다는 기술적 성과를 넘어선다. 튜링 테스트는 인간과 기계의 구분이 실제로 가능한지, 즉 사회적 대체 가능성(Substitutability)을 평가하는 시험이다. 지피티 4.5처럼 인간보다 더 인간 같다는 평가를 받은 시스템은 향후 감정 노동, 고객 응대, 심지어 사적 인간관계에까지 영향을 미칠 수 있는 ‘위장된 대체자’로 작동할 수 있음을 시사한다.
또한 이 연구는 프롬프트 디자인의 중요성을 부각했다. 동일한 모델이라도 인간성과 관련된 특정한 성격을 부여받았을 때만 튜링 테스트를 통과했다는 점은, 인공지능의 성능이 모델 자체보다 맥락적 설계에 얼마나 민감한지를 드러낸다.
단, 주의할 점이 있다. 튜링 테스트는 인공지능이 정말로 지능을 가졌느냐, 인격이 있느냐를 밝히는 최종적 기준은 아니다. 인간이냐 아니냐 하는 단순 판별은 이제 고도로 발전된 LLM의 성능을 측정하는 방법이 될 수는 없다. 그저 LLM이 잘 작동하는지 확인하는 단순하고 기초적인 지표일 뿐이다. 그렇지만 1950년대 당시 튜링이 약 50년 후에는 인간이 상대방이 기계임을 제대로 식별할 확률이 그때보다 확연히 낮아질 것이며, “기계가 생각할 수 있는가?”라는 질문이 무의미해질 것이라고 믿은 것은 의미심장하다. 오늘날 생각하는 기계라는 개념이 불가능하다고 보는 사람은 거의 없을 것이다. 이제 우리는 그런 기계와 어떻게 공존할지 고민해야 할 것이다.

글 : 권오현 과학 칼럼니스트, 일러스트 : 이명헌 작가



<저작권자 ⓒ 과학향기(http://scent.ndsl.kr) 무단전재 및 재배포금지>

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 기획뉴스 전체 둘러보기
1/1
크리에이터에게 가장 중요한 건 스토리지, SanDisk CREATOR SERIES 발표회 (1) 브레인박스
크리에이터를 위한 선택, 샌디스크 크리에이터 시리즈 발표 (1) 블루프레임
대만 국내용 메시지에 불과한 엔비디아와 대만의 AI 중심기지 전략 '팀타이완' 전략 동영상 있음 보드나라
로컬 친구 같은 호텔, OMO5 구마모토 (1) 트래비
[BOOK] 로컬 맛집에서 당황하지 않기 (1) 트래비
전설의 100만뷰 아이폰 꿀팁,, 2025년 최신 버전 동영상 있음 THE EDIT
시즈오카 여행을 계획한다면 반드시 저장해야 할 맛집 5 (1) 트래비
질병코드∙심의∙확률 규제 등, 대선 후보별 게임 공약은? 게임메카
[순정남] 아차! 대선 정치색을 드러낸 롤 챔피언 TOP 5 (1) 게임메카
남들과 다른 겜돌이를 위한 겜디아스 컴퓨텍스 2025 부스를 가다. (1) 브레인박스
새로운 나스 DS1825+, DS 1525+ 및 NVMe 스토리지 솔루션 PAS7700 등을 전시한 시놀로지 컴퓨텍스 2025 부스에 가다. (1) 브레인박스
20년 넘게 부침 없는, 국산 장수 MMORPG 근황 (2) 게임메카
[겜덕연구소] 왕년의 디즈니는 짱이었지! 디즈니 레트로 게임도 짱이었어! (3) 게임동아
딥 리서치에 대한 모든 것: 경쟁 지형도부터 모델 별 장단점, 가격 비교까지 (2) AI matters
[KOBA 2025] 8K 영상 실시간 편집이 가능한 NAS? 해답은 QNAP (2) 위클리포스트
폭스바겐 "전기차 힘드네!" 다시 내연차에 93조원 쏟아붓겠다! (1) 동영상 있음 오토기어
컴퓨텍스2025에서 커세어-엘가토 부스에서 "스트림덱 에브리웨어" 직접 체험해 보다. (1) 브레인박스
퇴근 후 술자리는 본능일까? 침팬지에게 물어보라 (2) 과학향기
[단독] 구글 CEO 직접 만나 AI 시대 개발자, 교육, 구글 검색의 미래에 대해 물어봤습니다 동영상 있음 조코딩 JoCoding
걷기 좋은 다카마쓰, 도보로 여행하기 좋은 곳 5 (1) 트래비
이 시간 HOT 댓글!
1/4