비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

챗GPT 등 AI 모델, 53% 확률로 실험 의도 간파... 사회 실험 결과 신뢰도 ‘빨간불’

2025.09.26. 13:01:15
조회 수
83

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

홍콩 중문 대학교, 미국 존스 홉킨스 대학교, 카네기 멜런 대학교 등 6개 대학 공동연구팀이 챗GPT 같은 AI로 사회 현상을 연구하는 분야에서 체계적인 문제점을 발견했다고 발표했다. 연구팀이 40개 이상의 논문을 분석한 결과, AI 사회 실험이 새로운 연구 방법으로 주목받고 있지만 지금까지 나온 연구 대부분이 신뢰할 만한 결과를 내려면 실험 방법을 대폭 개선해야 한다고 밝혔다. 연구팀은 올바른 AI 사회 실험을 위한 새 기준인 'PIMMUR 원칙'도 함께 제시했다.

최신 AI 5종이 실험 목적 절반 이상 알아맞혀

연구팀이 GPT-4o, 구글 제미나이, 클로드, 메타 라마, 중국 콴원 등 최신 AI 모델 5개를 테스트해 보니, 기존 연구의 실험 지시문만 봐도 53.1% 확률로 실험 목적을 정확히 맞혔다. 실험 대상인 AI가 연구자가 무엇을 원하는지 눈치채고 그에 맞춰 행동할 가능성이 높다는 얘기다. 특히 사람보다 AI가 실험 의도를 더 잘 간파하는 것으로 나타났다. 연구팀은 이런 현상을 "실험자가 보인다"는 효과라고 설명했는데, 이는 심리학에서 잘 알려진 현상들과 비슷하다고 했다.


실험 지시문 3분의 2가 AI를 특정 방향으로 유도

AI 모델 5개로 기존 연구 32개의 실험 방법을 분석해 보니, 64.4%의 실험 지시문이 AI를 특정 방향으로 유도하는 것으로 드러났다. 가짜 뉴스 연구에서 "사람들은 자신의 생각과 맞는 정보만 믿는 경향이 있으니, 당신도 그렇게 해야 한다"고 직접 알려준 경우가 대표적이다. 사회적 관계 실험에서도 "적의 적은 친구"라는 유명한 이론을 AI가 쉽게 알아볼 수 있게 만들어놨다. 연구팀은 이런 문제점들을 개별 AI 설계 문제와 전체 실험 설계 문제로 나누어 정리했다.

연구팀이 제시한 'PIMMUR 원칙' 6가지

연구팀은 신뢰할 만한 AI 사회 실험을 위한 6가지 기준을 'PIMMUR 원칙'으로 정리했다.

프로필(Profile): AI마다 서로 다른 성격, 배경, 인지 스타일을 부여해 동질적인 복제가 아닌 이질적인 개체들로 구성해야 한다.

상호작용(Interaction): AI들이 메시지를 주고받거나 환경 변화를 통해 서로 영향을 미쳐야 하며, 단순히 외부에서 주입한 통계 정보에만 반응해서는 안 된다.

메모리(Memory): AI가 시간이 지나도 정보를 저장하고 업데이트할 수 있어야 하며, 단순 반복이 아닌 내재화된 정보를 바탕으로 행동해야 한다.

최소 통제(Minimal-Control): 실험 지시문에서 과도한 힌트나 유도를 제거하고, 인식·행동·소통에 필요한 최소한의 정보만 제공해야 한다.

무인식(Unawareness): AI가 실험 가설이나 설계, 평가 기준을 모르게 해서 메타 인식으로 인한 편향을 막아야 한다.

현실성(Realism): 단순한 이론 모델이 아닌 실제 인간 사회의 경험 데이터를 참고 기준으로 사용해야 한다.


새로운 기준으로 다시 해보니 결과가 완전히 달라져

연구팀이 AI들에게 서로 다른 성격을 부여하고 실제로 대화를 나누게 하는 새로운 방법으로 대표적인 실험 5가지를 다시 해봤더니, 기존 연구와 판이한 결과가 나왔다. 편견을 보이는 AI 비율이 56.1%에서 32.8%로 줄어들었고, 사회적 관계에서 균형을 이루는 경우도 60.7%에서 10.9%로 크게 떨어졌다.

전화 릴레이 게임 실험에서는 "정확하게 전달하라"는 지시만 빼도 정보가 훨씬 많이 왜곡됐다. 소셜네트워크 성장 실험에서는 기존 연구의 이름 선호 문제를 해결하자 실제 트위터 데이터와 더 비슷한 결과를 얻었다. 집단 따라 하기 실험에서는 다른 사람의 선택을 직접 알려주는 대신 토론을 통해 추측하게 했더니 AI가 다른 의견에 휩쓸리는 정도가 현저히 줄어들었다.

검토한 논문 중 새 기준을 모두 충족하는 연구는 4개뿐

AI 사회 실험 관련 논문 41개를 살펴본 결과, 연구팀이 새로 제시한 6가지 기준을 모두 충족하는 연구는 고작 4개였다. 나머지 대부분은 AI들끼리 제대로 소통하지 않거나, 이전 정보를 기억하지 못하거나, 연구자가 원하는 방향으로 과도하게 유도하는 등의 문제를 안고 있었다. 제대로 된 연구 4개는 모두 실제와 비슷한 대규모 환경에서 다양한 행동이 가능하게 만들어 개별 AI가 실험 목적을 눈치채기 어렵게 설계한 연구들이었다.

AI 사회 시뮬레이션 연구, 방법론적 엄격성이 핵심 과제로 부상

이번 연구는 AI 기반 사회 시뮬레이션 분야가 직면한 근본적인 도전을 보여준다. 연구 결과에 따르면 AI 모델의 성능이 향상될수록 실험 설계의 허점을 간파하는 능력도 함께 높아지는 양상을 보인다. 이는 단순히 더 좋은 AI 모델을 사용하는 것만으로는 신뢰할 만한 사회 실험 결과를 얻기 어렵다는 점을 시사한다.

특히 주목할 점은 기존 연구들이 대부분 PIMMUR 원칙을 충족하지 못했다는 사실이다. 이는 해당 분야가 아직 초기 단계에 있으며, 표준화된 방법론이 정립되지 않았음을 보여준다. 앞으로 AI 사회 시뮬레이션을 활용한 연구가 학술 가치를 인정받으려면 실험 설계 단계부터 더욱 정교한 접근이 필요할 것으로 보인다. 연구팀이 제시한 PIMMUR 같은 체계적 기준이 관련 연구의 품질 향상에 기여할 수 있을지 지켜볼 필요가 있다.

이런 방법론적 개선 요구는 결국 AI 기반 사회 연구의 신뢰성을 높이는 방향으로 이어질 것이며, 이 분야가 성숙한 학문 영역으로 발전하는 데 중요한 전환점이 될 수 있다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: PIMMUR 원칙이 뭔가요?

A: AI 사회 실험을 제대로 하기 위한 6가지 기본 원칙입니다. AI마다 다른 성격을 주고, 서로 실제로 대화하게 하고, 이전 대화를 기억하게 하고, 연구자가 답을 미리 알려주지 않고, AI가 실험 목적을 모르게 하고, 실제 사람 데이터와 비교해야 한다는 내용입니다.

Q: 기존 연구들은 구체적으로 뭐가 문제였나요?

A: AI들이 모두 비슷비슷하고, 진짜 대화는 안 하고 혼자 생각만 하고, 이전 일은 기억 못 하고, 연구자가 어떻게 행동하라고 너무 구체적으로 지시하고, AI가 실험 의도를 쉽게 간파할 수 있고, 실제 사람 데이터 대신 간단한 이론 모델만 갖다 쓴다는 문제가 있었습니다.

Q: 이 연구가 왜 중요한가요?

A: AI로 하는 사회 실험의 신뢰도가 AI 성능뿐 아니라 실험 방법에도 크게 좌우된다는 걸 보여줍니다. AI와 사회과학 연구에서 더 믿을 만한 결과를 얻으려면 이런 엄격한 기준을 널리 사용해야 하고, 이게 관련 연구의 품질을 높이는 데 도움이 될 겁니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: The PIMMUR Principles: Ensuring Validity in Collective Behavior of LLM Societies

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 DPG 모아보기 전체 둘러보기
1/1
유머게시판 오버액션
유머게시판 뭐뭐뭐?
유머게시판 고소 공포증 냥이
입소문쇼핑 [네이버] HP 가성비 끝판왕 사무용 인강용 Ai 완벽 노트북 [65만원대]
유머게시판 거울 닦기
입소문쇼핑 [네이버] ASUS 노트북 라이젠5 가성비 사무용 포토샵 대학생 직장인 인강용 (56만혜택가)
댕냥이게시판 겁먹은 댕댕이들
입소문쇼핑 [네이버] 레노버 노트북 아이디어패드 슬림 램8GB NVME256GB (혜택가 65만원대)
자유게시판 인생이라는 이름의 레시피
입소문쇼핑 [네이버] 2025년 LG그램 노트북 AI AMD 크라켄5 노트북 [114만원대]
입소문쇼핑 [네이버] ASUS 노트북 비보북15 사무용 포토샵 대학생 직장인 인강용 [49만원대]
입소문쇼핑 [네이버] HP노트북 네로 라이젠5 사무용 포토샵 대학생 [43만원대 혜택가]
입소문쇼핑 [네이버] 레노버 노트북 슬림3 램16GB NVME256GB (혜택가 52만원대)
입소문쇼핑 [네이버] HP빅터스 게이밍 RTX4060 FC온라인 디아블로 배틀그라운드 노트북(109만혜택가)
입소문쇼핑 [네이버] LG노트북 인텔 i5 가성비 대학생 노트북 (55만혜택가)
체험단 씨게이트 Seagate BarraCuda 24TB, 고성능 대용량 PC 저장장치 선택 (1)
자유게시판 선선함이 있는 아침의 시간.... (2)
푸드 상품포럼 [먹거리 소개 #2731] 김치찌개와 두루치기 전문점 김촌의 김치찌개
자유게시판 습도 높고 맑은 날씨에 토요일이네요. (2)
자유게시판 즐거운 주말 보내세요. (3)
이 시간 HOT 댓글!
1/4