대형 언어 모델(LLM) 연구에서 가상의 사용자를 만들어 실험하는 방법이 주요 연구 기법으로 자리 잡고 있다. 하지만 이렇게 만들어진 가상 사용자들이 실제 사람들을 얼마나 잘 대표하는지는 연구마다 천차만별인 것으로 나타났다. 독일 바이젠바움연구소와 미국 컬럼비아대학교 공동 연구팀이 2023년부터 2025년까지 주요 AI 학회에서 발표된 63편의 논문을 분석한 결과, 가상 사용자 기반 실험에서 '누구를 대상으로, 무엇을 평가하는지'가 명확하지 않은 경우가 많았다. 연구팀은 이 문제를 해결하기 위한 투명성 체크리스트를 제시했다.
가상 사용자 프로필, 겉으로만 다양해 보였다
합성 페르소나는 나이, 성별, 인종 같은 개인 특성과 가치관, 행동 패턴을 조합해 만든 가상의 사용자 프로필이다. 실제 사람을 본떠 만들 수도 있고 완전히 가상의 인물을 만들 수도 있다. "나는 여성이고 두 명의 자녀가 있다"같은 간단한 설명부터 "아이들에게 무언가 가르치는 것을 좋아한다"는 선호도, "디즈니월드에 가는 것을 즐긴다"같은 구체적인 표현까지 다양한 형태로 만들어진다.
LLM이 우리의 정보 환경을 만들고 의사결정을 돕는 도구로 사용되면서, 이런 가상 사용자 기반 평가는 필수적인 연구 방법이 되었다. AI에게 특정 사용자 역할을 부여하는 프롬프트를 통해 개인 맞춤형 서비스를 제공하거나, 더 매력적인 AI 대화 상대를 만들거나, 모델 성능을 평가하는 등 다양하게 활용된다.
실제로 쓸 수 있는 가상 사용자를 만들려면 두 가지를 분명히 해야 한다. 바로 '어떤 작업'을 위한 것인지, '어떤 사람들'을 대상으로 하는지다. 작업 범위가 불명확하면 지나치게 일반화된 주장과 평가로 이어질 수 있다. 따라서 데이터가 얼마나 다양한지를 나타내는 점수만으로는 '무엇을 위한, 누구를 위한' 연구인지 알 수 없다. 다양한 사람들의 의견을 하나의 모델로 합치려는 시도는 문제가 될 수 있다. 특히 "평균적인 관점이 암묵적으로 도덕적으로 올바른 것과 같다고 여겨질 때" 실제로 누구의 관점을 대표하는지 모호해진다.
연구팀 분석 결과, 검토된 논문의 65%가 본문에서 가상 사용자의 대표성에 대해 명확히 설명하지 않았다. 또한 60%의 연구는 실제 사용자가 LLM과 자연스럽게 대화하는 방식과는 동떨어진 실험 환경을 사용했다. 흔한 예로, 연구자들이 "정치적으로 진보적이고 군사 확장 증가에 반대하는 사람이 있다고 가정하자"처럼 설문조사 결과를 그대로 AI에게 입력하는 경우가 있다. 이런 방식으로 AI가 특정 성향을 가진 사용자처럼 행동하는지 관찰할 수 있지만, 실제 사용자들은 이런 식으로 자신을 소개하지 않는다.
연구 대상의 43%가 막연한 '일반 대중'... 구체적 집단 외면
연구팀 분석은 대상 집단을 구체적으로 밝히지 않는 문제도 드러냈다. 검토된 논문의 43%가 구체적이지 않은 "일반 대중"을 대상으로 했고, 특정 직업군(8%)이나 의료 환경의 환자(5%) 같은 명확한 집단은 훨씬 적은 관심을 받았다. 이는 앞서 지적한 작업 정의 문제와도 연결된다. 대상 집단이 명확하지 않으면 가상 사용자가 실제로 누구를 대표하는지 평가할 수 없다. 막연하게 일반 대중을 대상으로 하는 접근법은 실제로 어떤 사람들의 관점을 반영하는지 알 수 없게 만든다.
연구팀은 가상 사용자 연구에서 가장 자주 사용되는 개인 특성도 확인했다. 성별(25건), 나이(19건), 인종 및 민족(17건)이 가장 많이 나타났고, 교육 수준(14건)과 종교(12건)가 그 뒤를 이었다. 반면 플랫폼 콘텐츠 관리 가이드라인에서 일반적으로 다루는 장애 여부(5건), 성적 지향(3건), 참전 용사 여부(1건) 같은 특성은 훨씬 적게 포함되었다. 이런 특성들은 메타(Meta)가 2025년 기준으로 제시한 민감한 개인정보 범주이자, EU 개인정보보호법(GDPR)에서 정의한 내용과도 일치한다. 특히 논문의 절반(30건)은 본문에서 개인 특성을 전혀 언급하지 않았다.
다른 연구자가 똑같이 실험하기 어렵다... 완전한 데이터 공개 드물어
다른 연구자들이 똑같은 실험을 할 수 있는지를 평가하는 것도 중요하다. 이 평가가 필요해진 이유는 연구팀이 논문들을 검토하면서 문서화가 제대로 안 된 경우를 많이 발견했기 때문이다. 검토된 논문의 78%가 추가 자료 링크를 포함했고 대부분은 GitHub 코드 저장소(70%)였지만, 나머지 논문들은 가상 사용자 데이터에 대한 링크를 아예 제공하지 않았다.
데이터 링크를 포함한 논문들도 여러 한계가 있었다. 완전한 데이터 대신 몇 가지 예시만 포함하거나, 데이터를 만드는 코드가 불완전하거나, 설명이 부족한 경우가 많았다. 이렇게 투명하지 않으면 다른 연구자들이 연구 결과를 검증하거나 종합 분석을 하기 어렵다. 또한 가상 사용자가 실제 사람들을 얼마나 잘 대표하는지 평가하는 데도 큰 어려움이 생긴다. 연구팀은 이런 문제 때문에 실제 가상 사용자 데이터를 직접 모으거나 비교하는 대신, 전문가가 논문을 직접 검토하는 방식을 선택했다.
데이터를 어떻게 만들었는지 살펴본 결과, 기존 자료에 크게 의존하는 것으로 나타났다. 연구의 33%는 PersonaChat 같은 기존 데이터를 그대로 사용했고, 추가로 16%는 SyntheticPersonaChat 같은 기존 가상 사용자 모음에 약간만 수정을 가했다.
6단계 점검표로 투명한 연구 기준 제시
연구팀은 문헌 검토와 반복적인 분석을 바탕으로 가상 사용자 기반 LLM 연구를 위한 점검표를 만들었다. 이 점검표는 6가지 주요 평가 항목으로 구성된다.
첫째, 활용 분야에서는 무엇을 측정하려는지 명확히 정의되었는지, 어떤 능력을 평가하는지, 구체적으로 어떤 분야에서 쓰이는지, 실제 사용 사례가 설명되었는지를 확인한다. 연구팀 분석에 따르면 가상 사용자 연구의 작업 분포는 개인 맞춤화(44%), 안정성(22%), 편향성과 공정성(18%), 특정 분야(16%)로 나타났다. 명확하게 정의된 작업 없이는 개인 맞춤화나 다른 능력에 대한 주장이 불완전할 수밖에 없다. 구체적으로 무엇을 위한 것인지 정의하지 않으면 무엇을 개인화하는지 제대로 평가할 수 없다.
둘째, 대상 집단에서는 어떤 사람들을 대표하려는지, 어떤 개인 특성을 포함했는지, 가상 사용자를 어떻게 구성하고 제시했는지를 평가한다. 셋째, 데이터 출처에서는 기존 데이터를 그대로 쓰거나 수정했는지, 기존 데이터를 참조했는지, 가상 사용자를 어떻게 설계하고 만들었는지를 살펴본다.
넷째, 실제 환경 반영도에서는 실제 사용자 분포를 반영하는지, 사회과학 연구나 실제 사용자 데이터 같은 근거가 있는지, 실험이 실제 사람과 AI의 상호작용을 반영하는지를 검토한다. 다섯째, 재현 가능성에서는 실험 코드가 공개되었는지, 완전한 가상 사용자 데이터가 제공되었는지, 다른 연구자가 똑같이 실험할 수 있을 만큼 설명이 충분한지를 확인한다.
마지막으로 적용 범위는 기준선과 투명성으로 나뉜다. 기준선 평가는 연구자들이 기존 방법이나 다른 인구집단과 비교했는지를 검토한다. 투명성 평가는 연구 자금 출처가 명확히 공개되었는지, 가상 사용자 설계의 윤리적 고려사항이 포함되었는지, 저자들의 지리적 배경, 저자가 자신의 입장을 밝혔는지, 가상 사용자의 한계가 명확히 논의되었는지를 조사한다.
검토된 63개 논문 중 어느 것도 저자가 자신의 배경을 명시적으로 밝힌 경우가 없었다. 검토 대상 논문들은 특정 지역에 집중되어 있었는데, 저자의 34%가 미국 소속 기관에, 18%가 중국 소속 기관에 있었다. 특히 검토된 논문의 40%는 최소 한 명 이상의 미국 기반 공동 저자가 있었고, 중국은 19%였다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 합성 페르소나란 무엇이며 왜 LLM 연구에서 중요한가요?
A. 합성 페르소나는 나이, 성별, 인종 같은 개인 특성과 가치관, 행동 패턴을 조합해 만든 가상의 사용자 프로필입니다. LLM이 의료, 교육 등 중요한 분야에 활용되면서 다양한 사용자 집단에 맞춰 모델 성능을 평가하고 개선하는 필수적인 연구 방법이 되었습니다.
Q. 현재 가상 사용자 기반 연구의 가장 큰 문제점은 무엇인가요?
A. '무엇을 위한, 누구를 위한' 연구인지가 명확하지 않다는 점입니다. 개인 맞춤화가 이 두 가지에 근본적으로 의존함에도 불구하고 이를 명확히 밝히지 않습니다. 연구의 65%가 가상 사용자의 대표성을 논의하지 않았고, 43%가 막연한 일반 대중만을 대상으로 했으며, 60%가 실제 사용자 상호작용을 반영하지 못하는 실험 환경을 사용했습니다.
Q. 연구팀이 제안한 투명성 점검표의 핵심은 무엇인가요?
A. 실제 사람들을 대표하는 샘플링 강조, 실제 데이터에 기반한 명확한 근거, 실제 환경 반영도 향상을 중심으로 6가지 평가 항목(활용 분야, 대상 집단, 데이터 출처, 실제 환경 반영도, 재현 가능성, 적용 범위)을 포함합니다. 이를 통해 언어 모델 연구에서 가상 사용자 기반 평가의 엄격성과 실제 환경 적합성을 개선할 수 있습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Whose Personae? Synthetic Persona Experiments in LLM Research and Pathways to Transparency
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기



