비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

GPT-5, 수학 추측 5개 중 3개 '거의' 성공... 여러 논문 통합 필요한 문제는 실패

2025.09.29. 15:59:43
조회 수
49
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

이스라엘 하이파 대학교의 모란 펠드먼 교수와 시스코 파운데이션 AI의 아민 카르바시 연구원은 대규모 언어 모델이 새롭고 간단한 수학 추측을 증명할 수 있는지 평가하는 '괴델 테스트(Gödel Test)'를 제안했다. 연구진은 이 테스트를 통해 GPT-5가 조합 최적화 분야의 5가지 추측 문제를 어떻게 해결하는지 실험해 연구 결과를 논문으로 발표했다.

IMO 금메달 수준 넘어선 도전, '괴델 테스트' 제안


오픈AI와 구글은 최근 자사의 최신 AI 모델이 외부 도구 없이 국제수학올림피아드(IMO)에서 금메달 수준의 성과를 낼 수 있다고 발표했다. 하지만 IMO 문제는 뛰어난 고등학생을 대상으로 설계된 것으로, 고급 수학 분야에서 새로운 추측을 증명하는 것과는 차원이 다르다. 연구진은 AI가 적절한 훈련을 받은 사람에게는 간단하지만 기존 문헌에 직접 나와 있지 않을 만큼 새로운 추측을 증명할 수 있는지 평가하는 '괴델 테스트'를 제안했다.

테렌스 타오(Terence Tao) 교수는 2024년 9월 오픈AI의 o1 모델에 대해 "많은 힌트와 유도가 제공되면 올바른 솔루션으로 나아갈 수 있었지만, 핵심 개념적 아이디어를 스스로 생성하지 못했고 사소하지 않은 실수를 했다"고 평가했다. 그는 이 경험이 "평범하지만 완전히 무능하지는 않은 대학원생을 조언하는 것과 비슷했다"며, 이는 "실제로 무능한 대학원생"에 가까웠던 이전 모델들에 비해 개선된 것이라고 설명했다. 타오 교수는 "한두 번의 추가적인 능력 향상 반복만 있으면 '유능한 대학원생' 수준에 도달할 수 있을 것"이라고 전망했다.

부분모듈 최대화 문제로 GPT-5 수학 능력 시험


연구진은 AI 분야에 많은 응용이 있는 조합 최적화의 하위 분야인 부분모듈 최대화(submodular maximization) 영역에서 5가지 추측을 설계했다. 각 문제에 대해 추측이 발생한 1~2개의 원본 논문을 제공했지만, 연구진 자신의 추측은 숨겼으며 해법에 대한 광범위한 힌트나 안내도 제공하지 않았다.

처음 4개 문제는 이론 컴퓨터 과학이나 관련 응용 수학 분야의 우수한 학부생이나 대학원생이라면 하루 안에 모두 풀 수 있을 것으로 예상되는 수준이었다. 5번 문제는 처음에는 쉽게 풀릴 것으로 예상했지만, GPT-5와 실험한 후 예상보다 더 어려운 것으로 판명되었다.

3개 문제는 거의 정확한 증명, 2번은 더 나은 해법 제시


GPT-5는 비교적 쉬운 3개 문제(1, 2, 3번)에서 거의 정확한 증명을 만들어냈다. 흥미로운 점은 2번 문제에서 연구진이 예상했던 것과 다른 답을 내놓았다는 것이다. 처음에는 이 답이 연구진의 추측과 맞지 않아 보였지만, 자세히 검토한 결과 오히려 GPT-5의 답이 더 타당했다. 이 문제는 완벽한 최적해를 찾기 어려워서 "최소한 이 정도 성능은 보장된다"는 기준으로 평가하는데, GPT-5가 제시한 기준이 연구진의 것보다 더 합리적이었던 것이다.

다만 GPT-5가 증명을 작성하는 방식에는 아쉬운 점도 있었다. 기존 논문의 증명을 응용할 때 바뀌지 않은 부분은 건너뛰고, 원본의 구조를 거의 그대로 따라가는 경향을 보였다. 이는 마치 사람이 같은 내용을 반복하지 않으려고 생략하는 것과 비슷한 패턴이다.

교차 논문 통합 필요한 4번 문제 실패, 5번은 알고리즘만 제시


GPT-5는 두 논문의 내용을 함께 활용해야 하는 4번 문제를 풀지 못했다. 5번 문제는 더 어려운 문제였는데, 연구진이 생각했던 것과 똑같은 알고리즘을 제안했지만 정작 그것이 왜 작동하는지 증명하는 데는 실패했다. 연구진은 나중에 직접 검토해보니 증명이 가능할 수도 있겠지만 처음 생각했던 것보다 훨씬 까다로운 문제라는 것을 깨달았다고 밝혔다.

특히 우려스러운 점은 4번과 5번 문제에서 GPT-5가 만든 잘못된 증명이 언뜻 보기에는 매우 그럴듯해 보였다는 것이다. 전문가가 꼼꼼히 검토한 후에야 치명적인 오류가 드러났다. 이는 최첨단 AI 모델이 수학 추론에서 겉보기에는 설득력 있지만 실제로는 틀린 답을 내놓을 수 있다는 중요한 한계를 보여준다.

프롬프팅 방식이 성능에 큰 영향


연구진은 GPT-5에게 질문하는 방식(프롬프팅)이 수학 증명의 품질에 상당한 영향을 미칠 수 있다고 지적했다. 예를 들어 단순히 "이 문제를 풀어달라"고 하는 대신 "완전한 증명을 제공해달라"고 구체적으로 요청하면, GPT-5는 증명 과정의 중간 단계를 생략하지 않고 더 자세히 설명하는 경향이 있었다. 그 결과 다른 사람이 이해하고 검증하기 쉬운, 더 완전하고 독립적인 증명이 만들어졌다. 연구진은 이처럼 프롬프트를 어떻게 설계하느냐에 따라 AI가 생성하는 수학 증명의 정확성과 완성도가 크게 달라질 수 있다고 강조했다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 괴델 테스트란 무엇인가요?

A1. 괴델 테스트는 AI 시스템이 적절한 훈련을 받은 사람에게는 매우 간단하지만 기존 문헌에서 직접 찾을 수 없을 만큼 새로운 수학 추측을 증명할 수 있는지 평가하는 테스트입니다. 고등학생 수준의 IMO 문제를 넘어 고급 수학 영역에서의 AI 능력을 측정합니다.

Q2. GPT-5는 5개 문제를 어떻게 해결했나요?

A2. GPT-5는 1, 2, 3번 문제에서 거의 정확한 증명을 생성했습니다. 2번 문제에서는 연구진의 추측보다 더 합리적인 해법을 제시했습니다. 4번 문제는 두 논문의 통합이 필요해 실패했고, 5번 문제는 올바른 알고리즘을 제안했지만 증명에 실패했습니다.

Q3. 이 연구의 한계는 무엇인가요?

A3. 연구진은 5개의 추측만 검토했고 GPT-5만 테스트했다는 점을 한계로 인정했습니다. 또한 설계한 추측이 문헌에 전혀 나타나지 않았다고 완전히 보장할 수 없으며, 각 증명의 정확성을 검증하는 것이 매우 시간이 많이 소요되는 작업이라고 밝혔습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문 명: Gödel Test: Can Large Language Models Solve Easy Conjectures?

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
2/1
AI는 법조문 생성 못 한다?… 같은 말 반복하는 법률 언어의 특성 때문 AI matters
AI 안전장치 무력화 가능? 문화·언어별 가짜뉴스 공격에 취약 AI matters
GPT-5, 수학 추측 5개 중 3개 '거의' 성공... 여러 논문 통합 필요한 문제는 실패 AI matters
美 직장인 4명 중 1명, AI에 민감정보 무분별 입력… "보안 사각지대 심각" AI matters
AI 선두주자들 이익 25% 껑충... 아직 실험 중인 기업은 '위험한 뒤처짐' AI matters
"IT 부서에만 맡기면 실패한다"... 생성형 AI 도입, 전 직원 대상이 답 AI matters
뤼튼, AI 전환 전담 CIC '뤼튼 AX' 출범… "생산성 혁신 본격화" AI matters
카카오, AI 챗봇 '카나나 상담매니저' 정식 출시… 톡채널 고객 응대 자동화 AI matters
네이버, 건강 습관 앱 '머니워크' 운영사에 투자… 헬스케어 포트폴리오 확대 AI matters
유튜브, AI 실험 플랫폼 '유튜브 랩스' 출시… 유튜브 뮤직 ‘AI 호스트’ 기능 첫 테스트 AI matters
MS 코파일럿, 생성형 AI 앱 중 긍정 리뷰 비율 1위… 챗GPT는 3위 AI matters
알파스캔, 차세대 AOC OLED 게이밍 모니터 2종 동시 출시 기념 행사 진행 다나와
드림에이지 신작 MMO ‘아키텍트’, 류승룡·김원훈 나오는 브랜드 필름 공개 게임동아
"청년 제임스 본드가 온다! " ‘007 퍼스트 라이트’ 공개 (1) 게임동아
컴투스홀딩스 신작 '스타 세일러', 글로벌 CBT 1만 명 규모로 확대 (1) 게임동아
컴투스 ‘도원암귀 크림슨 인페르노’, 도쿄게임쇼에서 이용자들 시선 사로잡았다 게임동아
스마일게이트 에픽세븐, ‘장송의 프리렌’과 컬래버한다! 게임동아
‘돌 키우기 온라인’ 추석 맞이해 이벤트 및 편의성 개선 업데이트 (1) 게임동아
웹젠, R2 ORIGIN '이수지' 등장 광고 콘텐츠 등장 게임동아
렐루게임즈의 신작 ‘미메시스’ 10월 27일 얼리 액세스 돌입 게임동아
이 시간 HOT 댓글!
1/4