
이스라엘 하이파 대학교의 모란 펠드먼 교수와 시스코 파운데이션 AI의 아민 카르바시 연구원은 대규모 언어 모델이 새롭고 간단한 수학 추측을 증명할 수 있는지 평가하는 '괴델 테스트(Gödel Test)'를 제안했다. 연구진은 이 테스트를 통해 GPT-5가 조합 최적화 분야의 5가지 추측 문제를 어떻게 해결하는지 실험해 연구 결과를 논문으로 발표했다.
IMO 금메달 수준 넘어선 도전, '괴델 테스트' 제안
오픈AI와 구글은 최근 자사의 최신 AI 모델이 외부 도구 없이 국제수학올림피아드(IMO)에서 금메달 수준의 성과를 낼 수 있다고 발표했다. 하지만 IMO 문제는 뛰어난 고등학생을 대상으로 설계된 것으로, 고급 수학 분야에서 새로운 추측을 증명하는 것과는 차원이 다르다. 연구진은 AI가 적절한 훈련을 받은 사람에게는 간단하지만 기존 문헌에 직접 나와 있지 않을 만큼 새로운 추측을 증명할 수 있는지 평가하는 '괴델 테스트'를 제안했다.
테렌스 타오(Terence Tao) 교수는 2024년 9월 오픈AI의 o1 모델에 대해 "많은 힌트와 유도가 제공되면 올바른 솔루션으로 나아갈 수 있었지만, 핵심 개념적 아이디어를 스스로 생성하지 못했고 사소하지 않은 실수를 했다"고 평가했다. 그는 이 경험이 "평범하지만 완전히 무능하지는 않은 대학원생을 조언하는 것과 비슷했다"며, 이는 "실제로 무능한 대학원생"에 가까웠던 이전 모델들에 비해 개선된 것이라고 설명했다. 타오 교수는 "한두 번의 추가적인 능력 향상 반복만 있으면 '유능한 대학원생' 수준에 도달할 수 있을 것"이라고 전망했다.
부분모듈 최대화 문제로 GPT-5 수학 능력 시험
연구진은 AI 분야에 많은 응용이 있는 조합 최적화의 하위 분야인 부분모듈 최대화(submodular maximization) 영역에서 5가지 추측을 설계했다. 각 문제에 대해 추측이 발생한 1~2개의 원본 논문을 제공했지만, 연구진 자신의 추측은 숨겼으며 해법에 대한 광범위한 힌트나 안내도 제공하지 않았다.
처음 4개 문제는 이론 컴퓨터 과학이나 관련 응용 수학 분야의 우수한 학부생이나 대학원생이라면 하루 안에 모두 풀 수 있을 것으로 예상되는 수준이었다. 5번 문제는 처음에는 쉽게 풀릴 것으로 예상했지만, GPT-5와 실험한 후 예상보다 더 어려운 것으로 판명되었다.
3개 문제는 거의 정확한 증명, 2번은 더 나은 해법 제시
GPT-5는 비교적 쉬운 3개 문제(1, 2, 3번)에서 거의 정확한 증명을 만들어냈다. 흥미로운 점은 2번 문제에서 연구진이 예상했던 것과 다른 답을 내놓았다는 것이다. 처음에는 이 답이 연구진의 추측과 맞지 않아 보였지만, 자세히 검토한 결과 오히려 GPT-5의 답이 더 타당했다. 이 문제는 완벽한 최적해를 찾기 어려워서 "최소한 이 정도 성능은 보장된다"는 기준으로 평가하는데, GPT-5가 제시한 기준이 연구진의 것보다 더 합리적이었던 것이다.
다만 GPT-5가 증명을 작성하는 방식에는 아쉬운 점도 있었다. 기존 논문의 증명을 응용할 때 바뀌지 않은 부분은 건너뛰고, 원본의 구조를 거의 그대로 따라가는 경향을 보였다. 이는 마치 사람이 같은 내용을 반복하지 않으려고 생략하는 것과 비슷한 패턴이다.
교차 논문 통합 필요한 4번 문제 실패, 5번은 알고리즘만 제시
GPT-5는 두 논문의 내용을 함께 활용해야 하는 4번 문제를 풀지 못했다. 5번 문제는 더 어려운 문제였는데, 연구진이 생각했던 것과 똑같은 알고리즘을 제안했지만 정작 그것이 왜 작동하는지 증명하는 데는 실패했다. 연구진은 나중에 직접 검토해보니 증명이 가능할 수도 있겠지만 처음 생각했던 것보다 훨씬 까다로운 문제라는 것을 깨달았다고 밝혔다.
특히 우려스러운 점은 4번과 5번 문제에서 GPT-5가 만든 잘못된 증명이 언뜻 보기에는 매우 그럴듯해 보였다는 것이다. 전문가가 꼼꼼히 검토한 후에야 치명적인 오류가 드러났다. 이는 최첨단 AI 모델이 수학 추론에서 겉보기에는 설득력 있지만 실제로는 틀린 답을 내놓을 수 있다는 중요한 한계를 보여준다.
프롬프팅 방식이 성능에 큰 영향
연구진은 GPT-5에게 질문하는 방식(프롬프팅)이 수학 증명의 품질에 상당한 영향을 미칠 수 있다고 지적했다. 예를 들어 단순히 "이 문제를 풀어달라"고 하는 대신 "완전한 증명을 제공해달라"고 구체적으로 요청하면, GPT-5는 증명 과정의 중간 단계를 생략하지 않고 더 자세히 설명하는 경향이 있었다. 그 결과 다른 사람이 이해하고 검증하기 쉬운, 더 완전하고 독립적인 증명이 만들어졌다. 연구진은 이처럼 프롬프트를 어떻게 설계하느냐에 따라 AI가 생성하는 수학 증명의 정확성과 완성도가 크게 달라질 수 있다고 강조했다.
FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 괴델 테스트란 무엇인가요?
A1. 괴델 테스트는 AI 시스템이 적절한 훈련을 받은 사람에게는 매우 간단하지만 기존 문헌에서 직접 찾을 수 없을 만큼 새로운 수학 추측을 증명할 수 있는지 평가하는 테스트입니다. 고등학생 수준의 IMO 문제를 넘어 고급 수학 영역에서의 AI 능력을 측정합니다.
Q2. GPT-5는 5개 문제를 어떻게 해결했나요?
A2. GPT-5는 1, 2, 3번 문제에서 거의 정확한 증명을 생성했습니다. 2번 문제에서는 연구진의 추측보다 더 합리적인 해법을 제시했습니다. 4번 문제는 두 논문의 통합이 필요해 실패했고, 5번 문제는 올바른 알고리즘을 제안했지만 증명에 실패했습니다.
Q3. 이 연구의 한계는 무엇인가요?
A3. 연구진은 5개의 추측만 검토했고 GPT-5만 테스트했다는 점을 한계로 인정했습니다. 또한 설계한 추측이 문헌에 전혀 나타나지 않았다고 완전히 보장할 수 없으며, 각 증명의 정확성을 검증하는 것이 매우 시간이 많이 소요되는 작업이라고 밝혔습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: Gödel Test: Can Large Language Models Solve Easy Conjectures?
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기