챗GPT 등 AI 모델, 53% 확률로 실험 의도 간파... 사회 실험 결과 신뢰도 ‘빨간불’ : 다나와 DPG는 내맘을 디피지

홍콩 중문 대학교, 미국 존스 홉킨스 대학교, 카네기 멜런 대학교 등 6개 대학 공동연구팀이 챗GPT 같은 AI로 사회 현상을 연구하는 분야에서 체계적인 문제점을 발견했다고 발표했다. 연구팀이 40개 이상의 논문을 분석한 결과, AI 사회 실험이 새로운 연구 방법으로 주목받고 있지만 지금까지 나온 연구 대부분이 신뢰할 만한 결과를 내려면 실험 방법을 대폭 개선해야 한다고 밝혔다. 연구팀은 올바른 AI 사회 실험을 위한 새 기준인 'PIMMUR 원칙'도 함께 제시했다.

최신 AI 5종이 실험 목적 절반 이상 알아맞혀

연구팀이 GPT-4o, 구글 제미나이, 클로드, 메타 라마, 중국 콴원 등 최신 AI 모델 5개를 테스트해 보니, 기존 연구의 실험 지시문만 봐도 53.1% 확률로 실험 목적을 정확히 맞혔다. 실험 대상인 AI가 연구자가 무엇을 원하는지 눈치채고 그에 맞춰 행동할 가능성이 높다는 얘기다. 특히 사람보다 AI가 실험 의도를 더 잘 간파하는 것으로 나타났다. 연구팀은 이런 현상을 "실험자가 보인다"는 효과라고 설명했는데, 이는 심리학에서 잘 알려진 현상들과 비슷하다고 했다.

실험 지시문 3분의 2가 AI를 특정 방향으로 유도

AI 모델 5개로 기존 연구 32개의 실험 방법을 분석해 보니, 64.4%의 실험 지시문이 AI를 특정 방향으로 유도하는 것으로 드러났다. 가짜 뉴스 연구에서 "사람들은 자신의 생각과 맞는 정보만 믿는 경향이 있으니, 당신도 그렇게 해야 한다"고 직접 알려준 경우가 대표적이다. 사회적 관계 실험에서도 "적의 적은 친구"라는 유명한 이론을 AI가 쉽게 알아볼 수 있게 만들어놨다. 연구팀은 이런 문제점들을 개별 AI 설계 문제와 전체 실험 설계 문제로 나누어 정리했다.

연구팀이 제시한 'PIMMUR 원칙' 6가지

연구팀은 신뢰할 만한 AI 사회 실험을 위한 6가지 기준을 'PIMMUR 원칙'으로 정리했다.

프로필(Profile): AI마다 서로 다른 성격, 배경, 인지 스타일을 부여해 동질적인 복제가 아닌 이질적인 개체들로 구성해야 한다.

상호작용(Interaction): AI들이 메시지를 주고받거나 환경 변화를 통해 서로 영향을 미쳐야 하며, 단순히 외부에서 주입한 통계 정보에만 반응해서는 안 된다.

메모리(Memory): AI가 시간이 지나도 정보를 저장하고 업데이트할 수 있어야 하며, 단순 반복이 아닌 내재화된 정보를 바탕으로 행동해야 한다.

최소 통제(Minimal-Control): 실험 지시문에서 과도한 힌트나 유도를 제거하고, 인식·행동·소통에 필요한 최소한의 정보만 제공해야 한다.

무인식(Unawareness): AI가 실험 가설이나 설계, 평가 기준을 모르게 해서 메타 인식으로 인한 편향을 막아야 한다.

현실성(Realism): 단순한 이론 모델이 아닌 실제 인간 사회의 경험 데이터를 참고 기준으로 사용해야 한다.

새로운 기준으로 다시 해보니 결과가 완전히 달라져

연구팀이 AI들에게 서로 다른 성격을 부여하고 실제로 대화를 나누게 하는 새로운 방법으로 대표적인 실험 5가지를 다시 해봤더니, 기존 연구와 판이한 결과가 나왔다. 편견을 보이는 AI 비율이 56.1%에서 32.8%로 줄어들었고, 사회적 관계에서 균형을 이루는 경우도 60.7%에서 10.9%로 크게 떨어졌다.

전화 릴레이 게임 실험에서는 "정확하게 전달하라"는 지시만 빼도 정보가 훨씬 많이 왜곡됐다. 소셜네트워크 성장 실험에서는 기존 연구의 이름 선호 문제를 해결하자 실제 트위터 데이터와 더 비슷한 결과를 얻었다. 집단 따라 하기 실험에서는 다른 사람의 선택을 직접 알려주는 대신 토론을 통해 추측하게 했더니 AI가 다른 의견에 휩쓸리는 정도가 현저히 줄어들었다.

검토한 논문 중 새 기준을 모두 충족하는 연구는 4개뿐

AI 사회 실험 관련 논문 41개를 살펴본 결과, 연구팀이 새로 제시한 6가지 기준을 모두 충족하는 연구는 고작 4개였다. 나머지 대부분은 AI들끼리 제대로 소통하지 않거나, 이전 정보를 기억하지 못하거나, 연구자가 원하는 방향으로 과도하게 유도하는 등의 문제를 안고 있었다. 제대로 된 연구 4개는 모두 실제와 비슷한 대규모 환경에서 다양한 행동이 가능하게 만들어 개별 AI가 실험 목적을 눈치채기 어렵게 설계한 연구들이었다.

AI 사회 시뮬레이션 연구, 방법론적 엄격성이 핵심 과제로 부상

이번 연구는 AI 기반 사회 시뮬레이션 분야가 직면한 근본적인 도전을 보여준다. 연구 결과에 따르면 AI 모델의 성능이 향상될수록 실험 설계의 허점을 간파하는 능력도 함께 높아지는 양상을 보인다. 이는 단순히 더 좋은 AI 모델을 사용하는 것만으로는 신뢰할 만한 사회 실험 결과를 얻기 어렵다는 점을 시사한다.

특히 주목할 점은 기존 연구들이 대부분 PIMMUR 원칙을 충족하지 못했다는 사실이다. 이는 해당 분야가 아직 초기 단계에 있으며, 표준화된 방법론이 정립되지 않았음을 보여준다. 앞으로 AI 사회 시뮬레이션을 활용한 연구가 학술 가치를 인정받으려면 실험 설계 단계부터 더욱 정교한 접근이 필요할 것으로 보인다. 연구팀이 제시한 PIMMUR 같은 체계적 기준이 관련 연구의 품질 향상에 기여할 수 있을지 지켜볼 필요가 있다.

이런 방법론적 개선 요구는 결국 AI 기반 사회 연구의 신뢰성을 높이는 방향으로 이어질 것이며, 이 분야가 성숙한 학문 영역으로 발전하는 데 중요한 전환점이 될 수 있다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: PIMMUR 원칙이 뭔가요?

A: AI 사회 실험을 제대로 하기 위한 6가지 기본 원칙입니다. AI마다 다른 성격을 주고, 서로 실제로 대화하게 하고, 이전 대화를 기억하게 하고, 연구자가 답을 미리 알려주지 않고, AI가 실험 목적을 모르게 하고, 실제 사람 데이터와 비교해야 한다는 내용입니다.

Q: 기존 연구들은 구체적으로 뭐가 문제였나요?

A: AI들이 모두 비슷비슷하고, 진짜 대화는 안 하고 혼자 생각만 하고, 이전 일은 기억 못 하고, 연구자가 어떻게 행동하라고 너무 구체적으로 지시하고, AI가 실험 의도를 쉽게 간파할 수 있고, 실제 사람 데이터 대신 간단한 이론 모델만 갖다 쓴다는 문제가 있었습니다.

Q: 이 연구가 왜 중요한가요?

A: AI로 하는 사회 실험의 신뢰도가 AI 성능뿐 아니라 실험 방법에도 크게 좌우된다는 걸 보여줍니다. AI와 사회과학 연구에서 더 믿을 만한 결과를 얻으려면 이런 엄격한 기준을 널리 사용해야 하고, 이게 관련 연구의 품질을 높이는 데 도움이 될 겁니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: The PIMMUR Principles: Ensuring Validity in Collective Behavior of LLM Societies

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

유머게시판	오버액션	M1 파노백작
유머게시판	뭐뭐뭐?	M1 파노백작
유머게시판	고소 공포증 냥이	M1 파노백작
입소문쇼핑	[네이버] HP 가성비 끝판왕 사무용 인강용 Ai 완벽 노트북 [65만원대]	L6 블루스탐
유머게시판	거울 닦기	M1 파노백작
입소문쇼핑	[네이버] ASUS 노트북 라이젠5 가성비 사무용 포토샵 대학생 직장인 인강용 (56만혜택가)	L6 블루스탐
댕냥이게시판	겁먹은 댕댕이들	M2 아콤
입소문쇼핑	[네이버] 레노버 노트북 아이디어패드 슬림 램8GB NVME256GB (혜택가 65만원대)	L6 블루스탐
자유게시판	인생이라는 이름의 레시피	M1 파노백작
입소문쇼핑	[네이버] 2025년 LG그램 노트북 AI AMD 크라켄5 노트북 [114만원대]	L6 블루스탐
입소문쇼핑	[네이버] ASUS 노트북 비보북15 사무용 포토샵 대학생 직장인 인강용 [49만원대]	L6 블루스탐
입소문쇼핑	[네이버] HP노트북 네로 라이젠5 사무용 포토샵 대학생 [43만원대 혜택가]	L6 블루스탐
입소문쇼핑	[네이버] 레노버 노트북 슬림3 램16GB NVME256GB (혜택가 52만원대)	L6 블루스탐
입소문쇼핑	[네이버] HP빅터스 게이밍 RTX4060 FC온라인 디아블로 배틀그라운드 노트북(109만혜택가)	L6 블루스탐
입소문쇼핑	[네이버] LG노트북 인텔 i5 가성비 대학생 노트북 (55만혜택가)	L6 블루스탐
체험단	씨게이트 Seagate BarraCuda 24TB, 고성능 대용량 PC 저장장치 선택 (1)	L8 IT리뷰창고
자유게시판	선선함이 있는 아침의 시간.... (2)	L20 까망여우
푸드 상품포럼	[먹거리 소개 #2731] 김치찌개와 두루치기 전문점 김촌의 김치찌개	L19 느낌하나
자유게시판	습도 높고 맑은 날씨에 토요일이네요. (2)	M3 관성
자유게시판	즐거운 주말 보내세요. (3)	L20 벗꽃엔딩
체험단	MAXTILL MAX400 ARGB CPU 쿨러 추천 (1)	L8 사악한미키
자유게시판	이동국 아들.. la 갤럭시 유스 입단 (2)	M8 무한제리사랑
엄근진게시판	언론의 침묵 -cj 이재현 회장 (1)	M8 무한제리사랑
댕냥이게시판	길고양이에게 먹을 것을 주면 발생하는 상황 (2)	L20 야거커티스
댕냥이게시판	손 만큼은 절대 주지 않는 냥냥이 (2)	L20 야거커티스
댕냥이게시판	스핑크스 냥냥이 (1)	L20 야거커티스
댕냥이게시판	은혜 갚은 고양이 (3)	L20 야거커티스
유머게시판	까다로운 꼬마 손님 (2)	L20 야거커티스
유머게시판	점심시간이 되서 회사 나오는 직원 (3)	L20 야거커티스
유머게시판	보면 참을 수 없는 다운 투 업 샷 (3)	L20 야거커티스
유머게시판	자네가 박나무꾼인가? (2)	L20 야거커티스
유머게시판	음식 포장으로 주문했다가 식당에서 먹고 가게 된 이유 (2)	L20 야거커티스
유머게시판	한국의 산들이 가소로운 청년들 (1)	L20 야거커티스
유머게시판	늑대 출몰 지역에서 실종된 강아지 (2)	L20 야거커티스
유머게시판	잠을 깨기 위한 인류의 노력 (2)	L20 야거커티스
유머게시판	허언증 갤러리의 환자들 허언 모음 (1)	L20 야거커티스
유머게시판	24살 아들이 명품을 두른 여자친구를 데리고 온다면 (2)	L20 야거커티스
유머게시판	난이도 최상 팔도의 지령 (1)	L7 다나워3
자유게시판	수압으로 배관 청소하기 (3)	L20 야거커티스
자유게시판	블라인드, 신혼 밥상 (3)	L20 야거커티스
자유게시판	전국 흐림, 제주 전라권 비 소식 (4)	M9 천사다나와
체험단	원목 패널이 적용된 미니타워 어항케이스~! 마이크로닉스 WIZMAX 우드리안 PRO (1)	L7 IT인벤Skywalkers
자유게시판	9월 26일 박스오피스 / 어쩔수가없다 50만 돌파 (3)	M3 하늘을담은와인
취미 상품포럼	공포 샌드박스 "할로윈" - 게임플레이 출시일 트레일러 (1)	L10 휘룽
취미 상품포럼	ai 피규어 관련 뉴스.. (1)	M8 무한제리사랑
취미 상품포럼	오사카·간사이 엑스포 "넥스트 유니버설 센추리"<건담 오케스트라 음악회> (1)	M8 무한제리사랑
자유게시판	올해 첫햇밤을 먹었답니다 (3)	M1 아피홀릭
푸드 상품포럼	싸고 맛있어서 강추~보누치 `와플 코코아 필드 케이크` (4)	M20 야간순찰™
자유게시판	바람이 급하게 차가와짐 (2)	L20 skybulam
취미 상품포럼	스포츠 게임 더 스파이크 크로스 스팀 론칭, 타격감을 느껴봐 (3)	L4 레이니온
자유게시판	주말의 시작이네요 (2)	L13 웅끼끼
당첨후기	MSI MAG B850M 박격포 WIFI 상품의견 이벤트 당당당~~~첨 (5)	L13 웅끼끼
유머게시판	카카오 내부 분위기 (5)	L20 시나브로69
유머게시판	병무청 댓글 이벤트+하트1등 댓글 (4)	L20 시나브로69
유머게시판	알뿜은 양배추 (6)	L20 시나브로69
유머게시판	한 회사의 추석맞이 직원복지 (6)	L20 시나브로69
자유게시판	9/26(금) 12,439보를 걸었습니다. (6)	L19 느낌하나
유머게시판	'폭군의셰프' 밀키트 상품 출시. (7)	L20 시나브로69
유머게시판	직장생활이란 (4)	L20 시나브로69
ㄷㅂㄷ	컴퓨터 부품 네이밍 레전드 모음 (논리로 설득가능) (1)	다나와
입소문쇼핑	무지 맨투맨 티셔츠 15,000원 배송비 3,000원	L6 NAPMKMCURUTXO0
당첨후기	[수령인증] 다나와래플 - RTX 5050 그래픽 카드 (6)	L13 이 방 인
소비자사용기	니코르 z 800mm f6.3 초망원렌즈 개봉 (3)	L13 하늘도둑
소비자사용기	RX 9060 XT 니트로 사용기 (1)	L1 니가그지야
취미 상품포럼	소닉 레이싱 크로스월드 정식 발매 소식, 게임 특징은? (1)	L3 NAT7F29XZOPCVM
ㄷㅂㄷ	PV5 왜 욕을 사서 먹을까?	오토기어
ㄷㅂㄷ	온 몸으로 느끼는 게이밍! 눈,귀, 촉감까지 만족하는 Razer SENSA HD 체험하기! feat. Borderlands4	무적풍화륜
Q&A게시판	호환 문의 (1)	L1 NAOF86EHGWWSH0
체험단	가성비 컴퓨터 케이스 앱코 U20MP 큐빅 미니+ 디스플레이 (블랙) 체험단 후기입니다. (1)	L19 냐흐
당첨후기	[수령 인증] DEEPCOOL PL650D ATX3.1 퀴즈이벤트! (6)	M2 Or크ㅁr
기획뉴스	커세어, 혁신적 기능과 인체공학적 디자인의 게이밍 기어 발표	미디어픽
취미 상품포럼	스팀 신작 익스트랙션 게임 더 큐브 세이브어스 10월 14일 체험판 공개 예정 (6)	L6 롤리롤리롤리
ㄷㅂㄷ	실버 등급의 효율이 담긴 브론즈 파워서플라이 등장!darkFlash 퍼펙트모스트 700W 80PLUS브론즈 ATX3.1	쿨엔조이
전문가 리뷰	새로운 가성비 프로세서의 기준 'AMD 라이젠5-6세대 9500F'	미디어픽
신상품뉴스	아스크텍 '써멀테이크 View 390 Air' 미들타워 케이스 출시	다나와
신상품뉴스	프리오텍 'JIUSHARK JF550 Elite' 시리즈 쿨러 6종 출시	다나와
신상품뉴스	서린씨앤아이, 수직 장착과 케이블 정리 지원 200mm 길이 '리안리 PW-PCI-520X 라이저 케이블' 출시	다나와
일반뉴스	이엠텍 'SAPPHIRE 니트로+, 퓨어 화이트' 구매 이벤트	다나와
신상품뉴스	다크플래쉬, 강력한 140mm 쿨링과 ARGB 조명 효과의 'C7A14' 시리즈 쿨링팬 출시	다나와
신상품뉴스	소니코리아, 게이밍 전용 헤드셋 ‘INZONE H9 II’ 출시	다나와
신상품뉴스	알파스캔, 압도적 게이밍 경험의 280Hz ‘Q27G4ZD’ 올레드 게이밍 모니터 출시	다나와
체험단	EDDY CY100A ARGB (블랙) 공랭 쿨러 (1)	L11 블라이더
구매가이드	기업과 국민이 함께 만든 보훈의 미래…갤럭시코리아의 동행 (4)	미디어픽
취미 상품포럼	파판14 한국에도 상시 카페 오픈한다고 하네요! (1)	L5 NA6DGHEM0WYU7N
ㄷㅂㄷ	돈 많이 들고 힘들었던 콘크리트 절단은 끝났다!! 벽면커팅기 구세주 3게자 【Ep.496】	공구왕황부장
자유게시판	은퇴 후 영화처럼 여생과 마지막을 보낸 폴란드 할배 (5)	L20 야거커티스
일반뉴스	넷마블 '뱀피르', 27일부터 첫 '쟁탈전 프리시즌' 진행	게임동아
일반뉴스	[TGS 2025] 컴투스 화제의 신작 '도원암귀 크림슨 인페르노', 직접 해보니	게임동아
신상품뉴스	EA, 'EA SPORTS FC 26' 글로벌 출시	게임동아
자유게시판	옷차림에 신경써야 한다고 이야기 하는 심리학자 (5)	L20 야거커티스
일반뉴스	풍성한 한가위 되세요. 추석 맞이 업데이트와 이벤트 준비한 '삼국지군주전'	게임동아
일반뉴스	드림에이지, ‘알케론’ 2차 알파 테스트 시작	게임동아
일반뉴스	카카오게임즈, ‘가디스오더’ 한국, 대만 구글 플레이 인기 1위 달성	게임동아
일반뉴스	컴투스, 선수협회장기 리틀&여자야구대회 2년 연속 후원	게임동아
일반뉴스	넷마블 '일곱 개의 대죄: 그랜드 크로스' 누적 다운로드 7777만 돌파 이벤트	게임동아
일반뉴스	“추석 이벤트도 해요”, 라인게임즈 ‘대항해시대 오리진’ 투자 시즌4 ‘동방의 물결’ 업데이트	게임동아
일반뉴스	교주님들 이제 뛸 시간입니다. 트릭컬 리바이브 2주년 명랑운동회 개최	게임동아
ㄷㅂㄷ	부러움을 완성하다 - PALIT 지포스 RTX 5090 GAMEROCK	샵다나와
입소문쇼핑	인기순위 상위권의 태흥실업 TH-112, 저렴해졌어요	쇼핑봇
입소문쇼핑	인기순위 상위권의 밀워키 M18 BBL(충전기없음, 배터리없음), 저렴해졌어요	쇼핑봇

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

챗GPT 등 AI 모델, 53% 확률로 실험 의도 간파... 사회 실험 결과 신뢰도 ‘빨간불’

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

챗GPT 등 AI 모델, 53% 확률로 실험 의도 간파... 사회 실험 결과 신뢰도 ‘빨간불’

공유하기

공감/비공감