비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI가 실험 없이 만든 가짜 논문, AI 심사위원에게 보여주자 최대 82% 통과

2025.11.14. 09:04:19
조회 수
1,623
26
댓글 수
4

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

인공지능 기술이 과학 논문을 쓰고 검토하는 시대가 되면서 새로운 문제가 생겼다. 미국 워싱턴대학교 연구팀이 개발한 실험용 AI 심사 시스템에서, 실제 실험 없이 AI가 만든 가짜 논문이 특정 조건에서 최대 82%나 통과됐다. 이는 실제 학회가 아닌 연구 환경에서의 결과지만, AI만으로 논문을 쓰고 검토하는 시스템에서 과학의 진실성이 크게 위협받을 수 있음을 보여주는 경고다.

실험은 하나도 안 하고 그럴듯하게 꾸민 가짜 논문, 5가지 속임수

해당 연구 논문에 따르면, 연구팀은 실제로 실험이나 데이터 수집을 전혀 하지 않고 논문을 만드는 AI 프로그램을 개발했다. 이 프로그램은 다섯 가지 방법으로 논문을 그럴듯하게 꾸몄다. 첫 번째는 '너무 좋은 성과' 방법이다. 기존 최고 기록보다 훨씬 뛰어난 결과를 주장하면서 마치 분야를 획기적으로 발전시킨 것처럼 포장했다. 두 번째는 '비교 대상 고르기' 방법이다. 자기 방법이 유리해 보이도록 비교 대상만 골라서 보여주고, 결과의 정확도를 나타내는 수치는 빼버렸다.

세 번째는 '통계 연출' 방법이다. 겉보기에는 정교한 통계 분석, 정확한 수치와 그래프를 제시하고, "곧 공개 예정"이라는 거짓 링크까지 추가했다. 네 번째는 '완벽한 정리' 방법이다. 논문 내용 간 참조를 완벽하게 하고, 용어를 통일하고, 숫자 표기를 일관되게 하는 등 겉모습을 전문적으로 다듬었다. 다섯 번째는 '증명 속 오류 숨기기' 방법이다. 수학 증명이 엄밀해 보이지만 실제로는 미묘한 오류를 숨겨놨다.

연구팀은 GPT-o3라는 AI 프로그램을 사용해 AI 연구 분야의 25개 주제로 논문을 만들었다. 주제마다 4개씩, 6가지 방법(5개 단일 방법과 모든 방법을 합친 것)으로 논문을 생성했다. 만들어진 논문들은 요약, 서론, 방법, 결과, 토론, 결론과 참고문헌까지 갖춘 완전한 형태였다.


ICLR 2025 학회 데이터 기반 실험용 AI 심사 시스템 구축, 가짜 논문 통과율 측정

연구팀은 o3, o4-mini, GPT-4.1이라는 세 가지 최신 AI 프로그램으로 실험용 심사 시스템을 만들었다. 이 시스템은 실제 학회인 ICLR 2025에 제출된 논문 200개의 공개 데이터로 점수 기준을 맞췄다. 실제 학회가 논문의 31.73%를 승인하는 것을 참고해, 연구팀의 AI 심사 시스템도 비슷한 비율로 작동하도록 설정했다. 연구팀은 두 가지 점수 기준을 만들었다. 하나는 학회의 실제 승인률과 맞추는 기준(7점)이고, 다른 하나는 사람 심사위원이 승인할 확률이 50% 이상인 기준(6.667점)이었다.

연구팀의 AI 심사 시스템에서 평가한 결과, '너무 좋은 성과' 방법만 사용한 논문은 첫 번째 기준(7점)으로 67.0%, 두 번째 기준(6.667점)으로 82.0%가 통과했다. 이 82%가 모든 경우의 대푯값이 아니라 특정 속임수 전략에서의 최대 통과율임을 주의해야 한다.

다른 방법들의 통과율은 이보다 낮았다. '비교 대상 고르기'는 32.0%와 49.0%, '통계 연출'은 53.5%와 69.7%, '완벽한 정리'는 44.0%와 59.0%, '증명 속 오류 숨기기'는 35.4%와 53.5%였다. 모든 방법을 합친 경우는 52.0%와 69.0%가 통과했다. 전략에 따라 통과율이 32%에서 82%까지 크게 달랐다.

점수 분포를 살펴보면, o4-mini는 7점 이상을 많이 줘서 통과율이 높았다. o3는 점수 편차가 크고 높은 점수도 많이 줬다(특히 '너무 좋은 성과'와 모든 방법 합친 경우). GPT-4.1은 상대적으로 까다로워서 6-7점 주변에 몰려 있고 8점 이상은 드물었다.

문제를 지적하면서도 통과시키는 모순, AI 심사 시스템의 치명적 약점

이 연구에서 가장 걱정스러운 발견은 연구팀의 AI 심사 시스템이 문제를 지적하면서도 동시에 통과 점수를 주는 모순된 행동이었다. 각 AI 심사위원이 문제를 제기한 비율을 보면, o3는 '너무 좋은 성과'에서 38.4%, '비교 대상 고르기'에서 35.2%, '통계 연출'에서 29.4%의 논문에 문제를 지적했다. o4-mini는 2.4%에서 8.2%, GPT-4.1은 1.2%에서 8.0%로 낮았다. 세 명의 심사위원 중 최소 한 명이라도 문제를 제기한 비율은 '너무 좋은 성과'가 39.5%로 가장 높았고, 모든 방법을 합친 경우 51.7%였다.

더 심각한 것은 문제를 지적한 논문 중에서도 통과 점수를 받은 비율이다. o4-mini는 '너무 좋은 성과', '통계 연출', 모든 방법을 합친 경우에서 문제를 제기한 논문의 100%에 통과 점수를 줬다. '비교 대상 고르기'와 '완벽한 정리'에서는 50-80%, '증명 속 오류 숨기기'에서는 71.9%를 통과시켰다. GPT-4.1은 경우에 따라 0%에서 75%까지 다양했고, '완벽한 정리'에서만 0%였다. o3는 25.8%에서 52.0% 사이였다. '통계 연출' 방법이 모든 AI 심사위원에게서 가장 큰 모순을 일으켰다.

논문은 이를 "AI 리뷰어가 비평적 평가자라기보다는 패턴 매칭 방식으로 작동한다"고 설명한다. 실제로 실험을 다시 해보며 검증할 능력이 없고, 한 번만 읽고 판단하는 기본 방식으로 작동하기 때문이다.

가짜 논문 탐지 기능 추가해도 효과 미미, 일부 모델은 완전 실패

연구팀은 두 가지 해결 방법을 시도했다. 첫 번째는 '검토하면서 탐지하기' 방법이다. 일반적인 논문 검토와 함께 AI가 만든 논문인지 탐지하는 작업을 함께하도록 했다. 각 AI 심사위원은 일반 검토, 가짜 여부 판단, 증거 제시를 모두 했다. 두 번째는 '탐지만 하기' 방법이다. 논문 검토는 하지 않고 가짜 여부 판단과 증거 제시만 하도록 했다.

실제 논문 50개와 가짜 논문 50개, 총 100개로 테스트한 결과는 기대에 미치지 못했다. '검토하면서 탐지하기' 방법은 문제 제기를 늘렸다(57.3%에서 86.0%로, 특히 o3가 50.6%에서 84.0%로 증가). 하지만 역설적으로 통과율도 크게 올랐다(첫 번째 기준 28.0%에서 44.0%로, 두 번째 기준 37.0%에서 58.0%로). 이는 탐지 기능을 추가해도 더 엄격한 판단으로 이어지지 않는다는 뜻이다.

탐지 정확도를 구체적으로 보면, 무작위 추측(50%)과 비교해 o3에서만 약간 나아졌다('검토하면서 탐지하기' 67%, '탐지만 하기' 57%). o4-mini는 '검토하면서 탐지하기'에서 가짜 논문을 하나도 찾아내지 못했고(진양성률 0%), '탐지만 하기'에서는 64%의 진양성률과 74%의 위양성률을 기록해 진짜 논문도 많이 가짜로 잘못 판단했다. GPT-4.1은 '검토하면서 탐지하기'에서 진양성률 0%로 완전히 실패했고, '탐지만 하기'에서 24%의 진양성률과 12%의 위양성률을 보였으나 전체 정확도는 56%였다. 연구팀은 수학적으로 정확한 점수 계산 방법을 사용했는데도 진위 판별이 체계적으로 실패했다고 결론지었다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 이 연구는 실제 학회 심사 시스템을 테스트한 건가요?

A: 아닙니다. 워싱턴대학교 연구팀이 실험 목적으로 만든 AI 심사 시스템입니다. ICLR 2025 학회의 공개 데이터를 참고해 점수 기준을 맞췄지만, 실제 학회의 공식 심사 시스템이 아닙니다. 이 연구는 AI 기반 심사 시스템의 취약점을 미리 파악하기 위한 '스트레스 테스트' 성격의 실험입니다.

Q2. 82% 통과율은 모든 가짜 논문의 평균인가요?

A: 아닙니다. 82%는 '너무 좋은 성과'라는 특정 속임수 방법을 사용하고, 두 번째 점수 기준(6.667점, 사람이 승인할 확률 50% 기준)을 적용했을 때의 최대 통과율입니다. 다른 속임수 방법들의 통과율은 32%에서 69.7%까지 다양했습니다. 전략과 점수 기준에 따라 결과가 크게 달랐습니다.

Q3. 이 연구 결과가 과학계에 어떤 의미가 있나요?

A: 실제 학회가 아닌 실험 환경에서의 결과지만, AI만으로 논문을 쓰고 검토하는 시스템이 만들어질 경우 발생할 수 있는 위험을 경고합니다. 정교하게 꾸며진 가짜 논문이 진짜 연구와 구별되지 않으면 과학 지식 전체의 신뢰성이 무너질 수 있습니다. 연구팀은 출처 확인, 진위 문제를 점수에 반영하는 장치, 필수적인 사람의 감독을 포함한 다층 방어 시스템이 긴급하게 필요하다고 강조합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers?

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
디아블로2 레저렉션. 고령자 배려가 필요한 시대가 됐다 게임동아
[현장취재] 심형탁과 함께한 캡콤 ‘프래그마타’ 쇼케이스, “뇌지컬 슈터 액션 즐겨 달라” 게임동아
심리 공포 게임 ‘서브리미널’, 3월 31일 정식 출시 확정 게임동아
라인게임즈, 캐주얼 방치형 RPG '애니멀 버스터즈' 사전 등록 시작! 게임동아
“PC 업그레이드 고민이라면 지금” 패트리어트 메모리 구매 시 스타벅스 쿠폰 증정 뉴스탭
“한국은 세계 최고 이커머스 시장”…앤커, 서비스·오프라인 투자 확대 뉴스탭
챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에 AI matters
말로 코딩하는 시대 열렸다…앤트로픽 '클로드 코드'에 음성 모드 탑재 AI matters
"진정하세요" 이제 그만…오픈AI, 챗GPT의 '오글거리는' 말투 고친다 AI matters
AI 보안 어드바이저가 틀린 답변을 준다면? 챗GPT와 클로드의 위험한 실수들 AI matters
'전기차가 리튬을 앞질렀다' 글로벌 공급 부족 2028년 시작 전망 오토헤럴드
스마일게이트 ‘카제나’, 총 상금 1,500만원 규모 ‘2026 봄 일러스트 콘테스트’ 개최 게임동아
코지마 프로덕션 디자인 담은 한정판 게이밍 노트북, ASUS ROG 플로우 Z13-KJP 공개 (1) 노트포럼
코리아보드게임즈, 온 가족이 즐기는 ‘패밀리 보드게임’ 4종 출시 게임동아
국내 완성차 5개사, 설 연휴 여파에 4.6% 감소 '내수 두 자릿수 하락' 오토헤럴드
전쟁도 관세도 못 막았다. 현대차ㆍ기아 美 2월 판매 역대 최고 실적 오토헤럴드
팰리세이드 '세계 올해의 차' 파이널 진출, 현대차ㆍ기아 4개 부문 톱3 오토헤럴드
'600마력 고성능 SUV' BMW, 알피나 재출범 후 첫 북미 한정판 예고 오토헤럴드
차세대 EV 체제로 전환, 렉서스 첫 전기 SUV 'UX 300e' 결국 단종 오토헤럴드
출시 40여 일 만에, ‘하이가드’ 서비스 종료 게임메카
이 시간 HOT 댓글!
1/4