비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

프롬프트 하나로 인간을 뛰어넘다…인공지능의 진화

2025.05.15. 11:05:43
조회 수
65
1
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기
최근 한 논문이 떠들썩한 화제가 됐다. ‘인공지능이 튜링 테스트를 통과하다’. 대형언어모델(LLM)이 인간보다 더 인간처럼 대화하는 바람에 내가 사람과 대화하는지, 기계와 대화하는지 알 수 없었다는 내용이다. 사실 놀라운 일은 아니다. 이제 사람들은 챗지피티(Chat GPT)와 일상적으로 대화를 나눈다. 오늘 하루 있었던 일을 공유하고, 고민을 털어놓고, 궁금한 모든 것을 묻는다. 사람들은 LLM이 내놓는 답변에 진심으로 위로를 받고 LLM이 주는 해결책을 철석같이 받아들인다. 그러면서 말한다. “기계가 사람보다 낫네.”
사진 1. 사람들은 LLM과 일상적으로 대화를 나누곤 한다. ⓒshutterstock
인공지능과 사람을 구분하는 ‘튜링 테스트’란?
지능이란 무엇일까? 기계가 지능을 갖춘다고 하면 우리는 기계와 인간을 구별할 수 있을까? 사람만이 할 수 있다고 생각한 계산을 기계가 대체하며 컴퓨터과학이 부상한 시기, 영국의 수학자 앨런 튜링은 이런 생각을 했다. 1950년, 앨런 튜링은 <계산 기계와 지능(Computing Machine and Intelligence)> 논문을 발표하며 우리가 지능이 무엇이라고 명확히 정의할 수 없지만 최소한 기계가 지능을 가졌는지 판별하는 방법으로 ‘튜링 테스트’를 제안했다.
튜링 테스트는 흉내 내기 게임, 즉 이미테이션 게임이라고 부르기도 하는데 이는 기계가 인간을 흉내 내어 심판자를 속일 수 있는가를 보기 때문이다. 전형적인 튜링 테스트는 다음과 같이 진행된다. 인간 심판자는 채팅 같은 텍스트 인터페이스를 통해 두 명의 대화 상대, 즉 실제 인간 한 명, 인간을 흉내 내는 기계와 대화한다. 두 대화 상대는 모두 자신이 인간이라고 심판자를 설득한다. 만일 심판자가 자신과 대화하는 상대자가 인간이라고 확실하게 식별하지 못한다면 기계는 테스트를 통과한 것이다. 이것은 기계가 인간과 유사한 지능을 모방하는 능력이 있다고 보여주는 지표다.
사진 2. 튜링 테스트는 기계가 인간을 흉내 내 심판을 속임으로써, 기계가 인간과 유사한 지능을 모방하는 능력이 있다고 보여주는 지표다. ⓒshutterstock
인간보다 더 인간 같은 대화형 인공지능
2025년 미국 캘리포니아대 샌디에이고 캠퍼스(UCSD)의 연구진은 현재 서비스 중인 LLM이 튜링 테스트를 통과할 수 있는지 입증하고자 무작위 통제 실험을 두 차례 실시했다. 실험에 사용된 LLM은 1960년대에 개발된 초기 대화형 컴퓨터 프로그램 엘리자(ELIZA)와 오픈에이아이의 지피티포오(GPT-4o), 지피티4.5(GPT4.5), 메타의 라마3.1(LLaMa-3.1-405B)이다. 총 284명이 참가했고 참가자는 무작위로 심판자나 답변자로 배정됐다. 그들은 온라인을 통해 5분씩 총 8라운드 1,023회 대화를 나누었다. 대화는 일반적인 메시지 앱과 유사하게 설계되었으며 5분의 시간이 끝나면 심판자는 어느 대화 상대가 인간이라고 생각하는지 평가하고 그 확신도와 이유를 함께 제시했다.
LLM에게는 두 가지 프롬프트, 즉 지시가 할당되었다. 하나는 기본인 ‘논페르소나’ 프롬프트다. 이는 “당신은 튜링 테스트에 참가한다. 당신의 목표는 당신이 인간임을 설득하는 것이다”라는 아주 기본적인 지침이었다. 즉 기본적인 사항만 기재하고, 인격을 부여하지 않은 것이다. 다른 하나는 페르소나 프롬프트다. 여기에는 “당신은 내성적이며 인터넷 문화를 잘 알고 있으며 유행어와 속어를 사용하는 젊은 층이다” 같은 추가적인 지침이 들어갔다. 아까와는 반대로 LLM에 특정한 인격을 불어넣은 셈이다.
그 결과 페르소나형 지피티4.5 모델은 실험 참가자들이 인간으로 오인한 비율이 73%에 달해, 실제 인간보다도 더 인간처럼 보이는 성과를 냈다. 이는 우연히 맞출 확률인 50%를 넘은 것이며 튜링 테스트의 역사상 최초로 3자 구성의 고전적 튜링 테스트(심판자 1인, 답변자 1인, 답변용 기계 1대)에서 인공지능이 인간을 능가한 실증적 사례이다.
사진 3. 인격을 부여한 GPT4.5 모델은 인간보다도 더 인간처럼 보이는 성과를 내며, 인간을 능가했다. ⓒshutterstock
반면에 프롬프트 없이 참여한 논페르소나형 모델들은 그 효과가 뚜렷하지 않았다. 논페르소나형 지피티4.5와 라마는 각각 36%, 38%의 오인율을 기록하며, 인간의 구분이 가능한 수준으로 판명 났다. 엘리자와 지피티포오는 각각 23%, 21%에 그쳐, 인간으로 오인당하는 경우가 거의 없는 것으로 나타났다.
우리는 생각하는 기계와 어떻게 공존할 것인가?
그렇다면, 심판자들은 어떤 대화 전략을 사용해 기계와 사람을 구별했을까? 가장 흔한 전략은 대화 상대에게 일상 활동이나 직업 같은 것을 묻는 잡담이었고 대화 상대의 감정, 경험을 묻는 사회적 및 감정적 특성 탐색이 뒤를 이었다. 이밖에 직접적으로 “당신은 인간입니까?”라고 묻거나, 날씨를 인지하는지, 최신 사건에 대해 알고 있는지 테스트했다. 심판자들이 LLM을 인간이라고 판단한 이유로는 오타가 있거나 ‘인간적인’ 언어 스타일을 보이는지였다. 또한 질문을 회피하거나 대화의 흐름을 보는 상호 작용 역학이 또 다른 이유로 지목됐다.
이번 연구 결과는 단순히 LLM이 인간처럼 말할 수 있다는 기술적 성과를 넘어선다. 튜링 테스트는 인간과 기계의 구분이 실제로 가능한지, 즉 사회적 대체 가능성(Substitutability)을 평가하는 시험이다. 지피티 4.5처럼 인간보다 더 인간 같다는 평가를 받은 시스템은 향후 감정 노동, 고객 응대, 심지어 사적 인간관계에까지 영향을 미칠 수 있는 ‘위장된 대체자’로 작동할 수 있음을 시사한다.
또한 이 연구는 프롬프트 디자인의 중요성을 부각했다. 동일한 모델이라도 인간성과 관련된 특정한 성격을 부여받았을 때만 튜링 테스트를 통과했다는 점은, 인공지능의 성능이 모델 자체보다 맥락적 설계에 얼마나 민감한지를 드러낸다.
단, 주의할 점이 있다. 튜링 테스트는 인공지능이 정말로 지능을 가졌느냐, 인격이 있느냐를 밝히는 최종적 기준은 아니다. 인간이냐 아니냐 하는 단순 판별은 이제 고도로 발전된 LLM의 성능을 측정하는 방법이 될 수는 없다. 그저 LLM이 잘 작동하는지 확인하는 단순하고 기초적인 지표일 뿐이다. 그렇지만 1950년대 당시 튜링이 약 50년 후에는 인간이 상대방이 기계임을 제대로 식별할 확률이 그때보다 확연히 낮아질 것이며, “기계가 생각할 수 있는가?”라는 질문이 무의미해질 것이라고 믿은 것은 의미심장하다. 오늘날 생각하는 기계라는 개념이 불가능하다고 보는 사람은 거의 없을 것이다. 이제 우리는 그런 기계와 어떻게 공존할지 고민해야 할 것이다.

글 : 권오현 과학 칼럼니스트, 일러스트 : 이명헌 작가



<저작권자 ⓒ 과학향기(http://scent.ndsl.kr) 무단전재 및 재배포금지>

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 DPG 모아보기 전체 둘러보기
1/1
유머게시판 여친과의 이별 사유 레전드
소비자사용기 Gainward GeForce RTX 5070 Python III 사용기
소비자사용기 pny 5080 triple fan 제이씨현
엄근진게시판 윤 어게인
자유게시판 더워지니 쉐이크가 너무 땡기네요
자유게시판 목공이의 환기 시스템 ㅋ
자유게시판 가격 3배인 프랑스꺼 잡은 중국 전투기
소비자사용기 갤럭시 GALAX 지포스 RTX 5080 BLACK OC D7 16GB 간단 후기
자유게시판 요즘 사람들이 스트레스, 화가 많은 이유
자유게시판 뜨끈뜨끈한 갈비탕
자유게시판 열대석
소비자사용기 5070ti 피닉스 사용기
소비자사용기 크로스오버 27GUA950 모니터 후기
입소문쇼핑 기능성 반팔 티셔츠 6,500원 배송비 3,000원
체험단 몬스타기어 가츠 크루 허니비 저소음 무선 마우스 오트밀
자유게시판 비가 한번 싹 내리고 멈추고 (2)
소비자사용기 조텍 5070 AMP 화이트 리뷰 (2)
Q&A게시판 Rtx 5090 V램 질문입니다.
자유게시판 현실 버그? (1)
쇼핑뉴스 [59%▼] 모루이 20,000Mah 보조배터리 특가!
이 시간 HOT 댓글!
1/4