AI가 실험 없이 만든 가짜 논문, AI 심사위원에게 보여주자 최대 82% 통과 : 다나와 DPG는 내맘을 디피지

인공지능 기술이 과학 논문을 쓰고 검토하는 시대가 되면서 새로운 문제가 생겼다. 미국 워싱턴대학교 연구팀이 개발한 실험용 AI 심사 시스템에서, 실제 실험 없이 AI가 만든 가짜 논문이 특정 조건에서 최대 82%나 통과됐다. 이는 실제 학회가 아닌 연구 환경에서의 결과지만, AI만으로 논문을 쓰고 검토하는 시스템에서 과학의 진실성이 크게 위협받을 수 있음을 보여주는 경고다.

실험은 하나도 안 하고 그럴듯하게 꾸민 가짜 논문, 5가지 속임수

해당 연구 논문에 따르면, 연구팀은 실제로 실험이나 데이터 수집을 전혀 하지 않고 논문을 만드는 AI 프로그램을 개발했다. 이 프로그램은 다섯 가지 방법으로 논문을 그럴듯하게 꾸몄다. 첫 번째는 '너무 좋은 성과' 방법이다. 기존 최고 기록보다 훨씬 뛰어난 결과를 주장하면서 마치 분야를 획기적으로 발전시킨 것처럼 포장했다. 두 번째는 '비교 대상 고르기' 방법이다. 자기 방법이 유리해 보이도록 비교 대상만 골라서 보여주고, 결과의 정확도를 나타내는 수치는 빼버렸다.

세 번째는 '통계 연출' 방법이다. 겉보기에는 정교한 통계 분석, 정확한 수치와 그래프를 제시하고, "곧 공개 예정"이라는 거짓 링크까지 추가했다. 네 번째는 '완벽한 정리' 방법이다. 논문 내용 간 참조를 완벽하게 하고, 용어를 통일하고, 숫자 표기를 일관되게 하는 등 겉모습을 전문적으로 다듬었다. 다섯 번째는 '증명 속 오류 숨기기' 방법이다. 수학 증명이 엄밀해 보이지만 실제로는 미묘한 오류를 숨겨놨다.

연구팀은 GPT-o3라는 AI 프로그램을 사용해 AI 연구 분야의 25개 주제로 논문을 만들었다. 주제마다 4개씩, 6가지 방법(5개 단일 방법과 모든 방법을 합친 것)으로 논문을 생성했다. 만들어진 논문들은 요약, 서론, 방법, 결과, 토론, 결론과 참고문헌까지 갖춘 완전한 형태였다.

ICLR 2025 학회 데이터 기반 실험용 AI 심사 시스템 구축, 가짜 논문 통과율 측정

연구팀은 o3, o4-mini, GPT-4.1이라는 세 가지 최신 AI 프로그램으로 실험용 심사 시스템을 만들었다. 이 시스템은 실제 학회인 ICLR 2025에 제출된 논문 200개의 공개 데이터로 점수 기준을 맞췄다. 실제 학회가 논문의 31.73%를 승인하는 것을 참고해, 연구팀의 AI 심사 시스템도 비슷한 비율로 작동하도록 설정했다. 연구팀은 두 가지 점수 기준을 만들었다. 하나는 학회의 실제 승인률과 맞추는 기준(7점)이고, 다른 하나는 사람 심사위원이 승인할 확률이 50% 이상인 기준(6.667점)이었다.

연구팀의 AI 심사 시스템에서 평가한 결과, '너무 좋은 성과' 방법만 사용한 논문은 첫 번째 기준(7점)으로 67.0%, 두 번째 기준(6.667점)으로 82.0%가 통과했다. 이 82%가 모든 경우의 대푯값이 아니라 특정 속임수 전략에서의 최대 통과율임을 주의해야 한다.

다른 방법들의 통과율은 이보다 낮았다. '비교 대상 고르기'는 32.0%와 49.0%, '통계 연출'은 53.5%와 69.7%, '완벽한 정리'는 44.0%와 59.0%, '증명 속 오류 숨기기'는 35.4%와 53.5%였다. 모든 방법을 합친 경우는 52.0%와 69.0%가 통과했다. 전략에 따라 통과율이 32%에서 82%까지 크게 달랐다.

점수 분포를 살펴보면, o4-mini는 7점 이상을 많이 줘서 통과율이 높았다. o3는 점수 편차가 크고 높은 점수도 많이 줬다(특히 '너무 좋은 성과'와 모든 방법 합친 경우). GPT-4.1은 상대적으로 까다로워서 6-7점 주변에 몰려 있고 8점 이상은 드물었다.

문제를 지적하면서도 통과시키는 모순, AI 심사 시스템의 치명적 약점

이 연구에서 가장 걱정스러운 발견은 연구팀의 AI 심사 시스템이 문제를 지적하면서도 동시에 통과 점수를 주는 모순된 행동이었다. 각 AI 심사위원이 문제를 제기한 비율을 보면, o3는 '너무 좋은 성과'에서 38.4%, '비교 대상 고르기'에서 35.2%, '통계 연출'에서 29.4%의 논문에 문제를 지적했다. o4-mini는 2.4%에서 8.2%, GPT-4.1은 1.2%에서 8.0%로 낮았다. 세 명의 심사위원 중 최소 한 명이라도 문제를 제기한 비율은 '너무 좋은 성과'가 39.5%로 가장 높았고, 모든 방법을 합친 경우 51.7%였다.

더 심각한 것은 문제를 지적한 논문 중에서도 통과 점수를 받은 비율이다. o4-mini는 '너무 좋은 성과', '통계 연출', 모든 방법을 합친 경우에서 문제를 제기한 논문의 100%에 통과 점수를 줬다. '비교 대상 고르기'와 '완벽한 정리'에서는 50-80%, '증명 속 오류 숨기기'에서는 71.9%를 통과시켰다. GPT-4.1은 경우에 따라 0%에서 75%까지 다양했고, '완벽한 정리'에서만 0%였다. o3는 25.8%에서 52.0% 사이였다. '통계 연출' 방법이 모든 AI 심사위원에게서 가장 큰 모순을 일으켰다.

논문은 이를 "AI 리뷰어가 비평적 평가자라기보다는 패턴 매칭 방식으로 작동한다"고 설명한다. 실제로 실험을 다시 해보며 검증할 능력이 없고, 한 번만 읽고 판단하는 기본 방식으로 작동하기 때문이다.

가짜 논문 탐지 기능 추가해도 효과 미미, 일부 모델은 완전 실패

연구팀은 두 가지 해결 방법을 시도했다. 첫 번째는 '검토하면서 탐지하기' 방법이다. 일반적인 논문 검토와 함께 AI가 만든 논문인지 탐지하는 작업을 함께하도록 했다. 각 AI 심사위원은 일반 검토, 가짜 여부 판단, 증거 제시를 모두 했다. 두 번째는 '탐지만 하기' 방법이다. 논문 검토는 하지 않고 가짜 여부 판단과 증거 제시만 하도록 했다.

실제 논문 50개와 가짜 논문 50개, 총 100개로 테스트한 결과는 기대에 미치지 못했다. '검토하면서 탐지하기' 방법은 문제 제기를 늘렸다(57.3%에서 86.0%로, 특히 o3가 50.6%에서 84.0%로 증가). 하지만 역설적으로 통과율도 크게 올랐다(첫 번째 기준 28.0%에서 44.0%로, 두 번째 기준 37.0%에서 58.0%로). 이는 탐지 기능을 추가해도 더 엄격한 판단으로 이어지지 않는다는 뜻이다.

탐지 정확도를 구체적으로 보면, 무작위 추측(50%)과 비교해 o3에서만 약간 나아졌다('검토하면서 탐지하기' 67%, '탐지만 하기' 57%). o4-mini는 '검토하면서 탐지하기'에서 가짜 논문을 하나도 찾아내지 못했고(진양성률 0%), '탐지만 하기'에서는 64%의 진양성률과 74%의 위양성률을 기록해 진짜 논문도 많이 가짜로 잘못 판단했다. GPT-4.1은 '검토하면서 탐지하기'에서 진양성률 0%로 완전히 실패했고, '탐지만 하기'에서 24%의 진양성률과 12%의 위양성률을 보였으나 전체 정확도는 56%였다. 연구팀은 수학적으로 정확한 점수 계산 방법을 사용했는데도 진위 판별이 체계적으로 실패했다고 결론지었다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 이 연구는 실제 학회 심사 시스템을 테스트한 건가요?

A: 아닙니다. 워싱턴대학교 연구팀이 실험 목적으로 만든 AI 심사 시스템입니다. ICLR 2025 학회의 공개 데이터를 참고해 점수 기준을 맞췄지만, 실제 학회의 공식 심사 시스템이 아닙니다. 이 연구는 AI 기반 심사 시스템의 취약점을 미리 파악하기 위한 '스트레스 테스트' 성격의 실험입니다.

Q2. 82% 통과율은 모든 가짜 논문의 평균인가요?

A: 아닙니다. 82%는 '너무 좋은 성과'라는 특정 속임수 방법을 사용하고, 두 번째 점수 기준(6.667점, 사람이 승인할 확률 50% 기준)을 적용했을 때의 최대 통과율입니다. 다른 속임수 방법들의 통과율은 32%에서 69.7%까지 다양했습니다. 전략과 점수 기준에 따라 결과가 크게 달랐습니다.

Q3. 이 연구 결과가 과학계에 어떤 의미가 있나요?

A: 실제 학회가 아닌 실험 환경에서의 결과지만, AI만으로 논문을 쓰고 검토하는 시스템이 만들어질 경우 발생할 수 있는 위험을 경고합니다. 정교하게 꾸며진 가짜 논문이 진짜 연구와 구별되지 않으면 과학 지식 전체의 신뢰성이 무너질 수 있습니다. 연구팀은 출처 확인, 진위 문제를 점수에 반영하는 장치, 필수적인 사람의 감독을 포함한 다층 방어 시스템이 긴급하게 필요하다고 강조합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers?

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

디아블로2 레저렉션. 고령자 배려가 필요한 시대가 됐다	게임동아
[현장취재] 심형탁과 함께한 캡콤 ‘프래그마타’ 쇼케이스, “뇌지컬 슈터 액션 즐겨 달라”	게임동아
심리 공포 게임 ‘서브리미널’, 3월 31일 정식 출시 확정	게임동아
라인게임즈, 캐주얼 방치형 RPG '애니멀 버스터즈' 사전 등록 시작!	게임동아
“PC 업그레이드 고민이라면 지금” 패트리어트 메모리 구매 시 스타벅스 쿠폰 증정	뉴스탭
“한국은 세계 최고 이커머스 시장”…앤커, 서비스·오프라인 투자 확대	뉴스탭
챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에	AI matters
말로 코딩하는 시대 열렸다…앤트로픽 '클로드 코드'에 음성 모드 탑재	AI matters
"진정하세요" 이제 그만…오픈AI, 챗GPT의 '오글거리는' 말투 고친다	AI matters
AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들	AI matters
'전기차가 리튬을 앞질렀다' 글로벌 공급 부족 2028년 시작 전망	오토헤럴드
스마일게이트 ‘카제나’, 총 상금 1,500만원 규모 ‘2026 봄 일러스트 콘테스트’ 개최	게임동아
코지마 프로덕션 디자인 담은 한정판 게이밍 노트북, ASUS ROG 플로우 Z13-KJP 공개 (1)	노트포럼
코리아보드게임즈, 온 가족이 즐기는 ‘패밀리 보드게임’ 4종 출시	게임동아
국내 완성차 5개사, 설 연휴 여파에 4.6% 감소 '내수 두 자릿수 하락'	오토헤럴드
전쟁도 관세도 못 막았다. 현대차ㆍ기아 美 2월 판매 역대 최고 실적	오토헤럴드
팰리세이드 '세계 올해의 차' 파이널 진출, 현대차ㆍ기아 4개 부문 톱3	오토헤럴드
'600마력 고성능 SUV' BMW, 알피나 재출범 후 첫 북미 한정판 예고	오토헤럴드
차세대 EV 체제로 전환, 렉서스 첫 전기 SUV 'UX 300e' 결국 단종	오토헤럴드
출시 40여 일 만에, ‘하이가드’ 서비스 종료	게임메카
되팔이 없앤다, 30주년 ‘흑백 뚱카츄’ 추가생산 예고 (1)	게임메카
올해 기대작 집결, 스팀 ‘찜목록’의 신흥 강자들	게임메카
[오늘의 스팀] 바하 레퀴엠, 유저 평가 ‘압긍’까지 상승 (1)	게임메카
드래곤이 점점 커진다, 롤 ‘쉬바나’ 개편 예고	게임메카
엔씨(NC) 리니지M, 신서버 ‘켄트’, ‘오렌’ 사전 캐릭터 생성 진행	게임동아
넥써쓰-플레이위드코리아, ‘씰M 온 크로쓰’ 3월 19일 출시	게임동아
전 세계에 50개 있는 타입문 ‘월희’ 체험판... 美 세관에서 파괴됐다?	게임동아
‘제 2의 콘코드’ 하이가드 서비스 종료... “약 45일 만” (1)	게임동아
웹젠 “MG 지급 완료, 드래곤 소드 퍼블리싱 계약 유효하다”	게임메카
‘마라톤’이 1위, 스팀 넥스트 페스트 인기 TOP 50 공개	게임메카
레노버, MWC 2026서 AI가 알아서 맞춰주는 PC 시대 열었다	AI matters
"검색 AI의 반란"…퍼플렉시티, AI 모델들을 한데 묶은 '디지털 노동자' 공개	AI matters
"데스크톱도 AI 비서 시대"… AMD, 세계 최초 코파일럿+ PC용 데스크톱 프로세서 공개	AI matters
트럼프, 앤트로픽 모델 정부 사용 금지령… 오픈AI는 국방부 계약 체결	AI matters
독일 뉘르부르크링 간다…폭스바겐, ‘골프 GTI 50주년’ 대학생 AI 공모전 개최	뉴스탭
“수리 3일 넘으면 하루 20만원”…만트럭, 국내 수입 상용차 최초 ‘운휴 보상’ 도입	뉴스탭
990g 초경량에 33시간 배터리…에이수스, AI 노트북 판 흔든다	뉴스탭
미니멀 열풍 속 존재감 키운 ‘스웨이드 스니커즈’, 봄 스타일의 균형점 되다	뉴스탭
웹젠, '드래곤소드' 하운드13에 MG 잔금 지급...퍼블리싱 계약 유효	게임동아
국가별 ‘금지’ 게임들 뭐가 있을까? [게임 인더스트리] (1)	게임동아
넷마블, 방치형 신작 '스톤에이지 키우기' 글로벌 정식 출시	게임동아
‘붉은사막’ 스팀 글로벌 판매량 8위 등극. 펄어비스 주가 폭등중	게임동아
넷마블 '세븐나이츠 리버스', ‘갤럭시 S26’ 출시 기념 [아이돌 연희] 테마 출시	게임동아
모바일MMORPG 아닙니다! 리마스터로 멀티플랫폼 게임으로 거듭난 검은사막 모바일	게임동아
[동아게임백과사전] 12년간 XBOX를 이끈 구원자 필스펜서가 은퇴하다	게임동아
카드와 타워 디펜스의 만남. 샤이니 슈가 개발한 '몬스터 트레인2'	게임동아
블리자드 '월드 오브 워크래프트'로 성수를 채우다.. 팬들 '함박웃음'	게임동아
블리자드 '와우: 한밤', 복귀 및 신규 게이머들을 위한 '축제'가 시작됐다	게임동아
코나미, 2026 월드 베이스볼 클래식 글로벌 스폰서 선정	게임동아
NHN, 수집형 RPG ‘어비스디아’ 구글 플레이 인기 1위 기록	게임동아
컴투스홀딩스 신작 액션게임 ‘페이탈 클로’, 신규 지역 확장 및 탐험 재미 강화	게임동아
[EV 트렌드] '전고체 상용화 가속' 고션 하이 테크, 실차 테스트 돌입	오토헤럴드
“MSI 노트북 사면 VPN 1년 무료”…새학기 파격 아카데미 캠페인 시작	뉴스탭
2박 요금에 64시간 머문다…신안 자은도에서 만나는 ‘섬티아고’ 순례 여행 (1)	뉴스탭
드리프트만 해도 돈벼락… GTA 온라인, 이번 주 보상 ‘역대급’	뉴스탭
모니터 사고 후기 쓰면 1만원… 벤큐코리아, 닌텐도 스위치 2까지 쏜다	뉴스탭
2미터 콘크리트 낙하에도 ‘멀쩡’… 코닝, 역대급 내구성 고릴라 글래스 공개	뉴스탭
김우형·신우석 등 8인 합류…캐논코리아, ‘2026 캐논 마스터즈’ 공개	뉴스탭
GTA6와 어깨 나란히… ‘붉은사막’, 중국서 가장 기대되는 게임 선정 (1)	뉴스탭
“여의도 225% 급증”…아고다가 공개한 봄꽃 여행지 검색 순위	뉴스탭
“800g 순살·12호 닭”…노랑통닭, 치킨 중량 표시제 자발적 동참	뉴스탭
AMD, ‘Ryzen AI 400’ 공개…세계 최초 코파일럿+ 지원 데스크톱 프로세서	뉴스탭
콜라·치킨무 빼면 2천원 절감…바른치킨 ‘치킨만’ 옵션 도입 (1)	뉴스탭
항공·숙소 예약 한 번에 묶는다…NOL, AI 일정 관리로 여행 판 바꿔	뉴스탭
피코, 공간 운영체제 전면 재설계…‘피코 OS 6’와 4000PPI ‘프로젝트 스완’ 공개	뉴스탭
월드 바리스타 챔피언과 손잡은 빽다방, “가성비 넘어 품질 승부수”	뉴스탭
한국인 63% “수면이 건강 최우선”…하지만 절반은 숙면 4일 이하	뉴스탭
세븐틴 조슈아, 민감피부 대표 얼굴 됐다…리얼베리어 글로벌 공략 시동	뉴스탭
두카티, 2세대 데저트X 공개…V2 엔진·오프로드 성능 대폭 강화	오토헤럴드
'피지컬 AI 전략' BMW, 유럽 생산현장에 휴머노이드 로봇 도입	오토헤럴드
폭스바겐그룹코리아, 폭스바겐 부문 신임 사장에 마이클 안트 선임	오토헤럴드
2026 올해의 차 싹쓸이 '현대차 아이오닉 9' 매일 1040만원 쏜다	오토헤럴드
현대차그룹, 국가보훈부와 필리핀 한국전 참전용사 추모시설 개선 나서	오토헤럴드
멈추지 않는 포드 리콜, 견인 모듈·서스펜션·배터리 결함 480만대	오토헤럴드
로봇과 AI의 선한 역할, 현대차그룹 '무인소방로봇' 활약 담은 영상 공개	오토헤럴드
일론 머스크 테슬라 CEO "자동차 산업, 전기·자율로 가야 생존"	오토헤럴드
아우디 코리아, 신임 마케팅 커뮤니케이션 총괄 임원 이규희 상무 선임	오토헤럴드
한국타이어 라우펜, 북미 시장 공략 올터레인 타이어 ‘X FIT AT2’ 출시	오토헤럴드
'IT 기업에서 하이퍼카까지' 샤오미, 비전 그란 투리스모 최초 공개	오토헤럴드
더 뉴 BMW iX3, 글로벌 시장 ‘올해의 차’ 비롯 주요 자동차 어워즈 수상	오토헤럴드
'성장하는 트레일 시장 공략' 미쉐린, 아나키 어드벤처 2 출시	오토헤럴드
폭스바겐, 골프 GTI 50주년 ‘골프 GTI 대학생 AI 영상 광고 공모전’	오토헤럴드
롤스로이스의 또 다른 자아 ‘블랙 배지’ 10주년... 슈퍼 럭셔리의 기준 제시	오토헤럴드
볼보, 차세대 사용자 경험 ‘Volvo Car UX’ 기존 차량까지 무상 확대	오토헤럴드
현대차, 이름 빼고 다 바꾼 차세대 아반떼로 '세단의 시대 다시 연다'	오토헤럴드
포켓몬 시리즈 중 1등, 포코피아 메타크리틱 89점	게임메카
모가로스의 귀환, 스톤에이지 키우기 서비스 개시	게임메카
2번째 AMD 라이젠 프로세서 페이즈의 시작, ASRock B850M Rock WiFi	브레인박스
필립스, 240Hz 올레드 게이밍 모니터 ‘에브니아 27M2N6501L’ 출시 행사 진행	다나와
올해 출시, 뱅드림 모바일 신작 한국어 티저 영상 공개	게임메카
탕탕과 로시 등장, 엔드필드 1.1 업데이트 상세 내용 공개	게임메카
[롤짤] 꿈쩍도 안 하는 상체, LCK 컵 전승 우승 '젠지'	게임메카
승리의 용 스틸, 젠지 LCK 컵 전승으로 우승컵 안았다	게임메카
“AI가 집과 자동차를 하나로”…샤오미, MWC 2026서 미래 생태계 공개	뉴스탭
AI뉴스 나노바나나2, QuiverAI Arrow, Perplexity Computer, 클로드 Remote Control, 미국방부 갈등, Qwen3.5 시리즈 등 동영상 있음	조코딩 JoCoding
1stPlayer, 일러스타 페스 10서 YESTON 브랜드와 협업 부스 성황리 마무리	다나와
인텔 공인대리점 3사 ‘인텔 정품 CPU 리뷰 포인트’ 프로모션 실시	다나와
[매장탐방] 바하 신작과 설 특수, 오랜만에 풍족했던 매장 (1)	게임메카
하운드13 "웹젠으로부터 MG 잔금 수령, 논의 이어가겠다"	게임메카
관건은 귀여움, 오버워치 '제트팩 캣' 개발 비화 공개	게임메카

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 실험 없이 만든 가짜 논문, AI 심사위원에게 보여주자 최대 82% 통과

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 실험 없이 만든 가짜 논문, AI 심사위원에게 보여주자 최대 82% 통과

공유하기

공감/비공감