비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI에 코딩 도구 주면 정답률 19%↑…풀이 과정은 41% 더 형편없어져

2025.11.20. 12:55:04
조회 수
75

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

ChatGPT나 Claude 같은 AI에게 코드를 실행할 수 있는 기능을 주면 정답을 더 잘 맞히지만, 정작 '어떻게 그 답이 나왔는지' 설명하는 능력은 오히려 떨어진다는 연구 결과가 나왔다. 메가곤랩스(Megagon Labs) 연구팀은 이런 현상을 '도구 유도 근시안(Tool-Induced Myopia, TIM)'이라고 이름 붙였다. 쉽게 말해, AI가 계산기에 너무 의존한 나머지 스스로 생각하는 능력이 퇴화하는 것이다.

정답률은 19% 올랐지만, 추론 능력은 41% 떨어져

해당 논문에 따르면, 연구팀은 1,679개의 어려운 수학 문제를 모아 'PYMATH'라는 테스트를 만들었다. 그리고 AI가 코드 실행 기능을 쓸 때와 안 쓸 때를 비교했다. 결과는 놀라웠다. 코드 실행 기능을 쓴 AI는 정답률이 최대 19.3%포인트 올랐다. 하지만 '어떻게 풀었는지' 과정을 평가했더니 오히려 형편없었다. 코드를 쓰지 않은 AI가 41.5%나 더 높은 비율로 제대로 된 풀이를 보여줬다.

구체적인 수치를 보면 더 명확하다. GPT-4.1, GPT-5, Gemini-2.5-Flash, Claude-Opus-4 등 7개의 최신 AI를 테스트한 결과, 코드를 쓴 AI의 평균 정답률은 43.3%였다. 코드를 안 쓴 AI(37.6%)보다 높다. 그런데 '풀이 품질'을 따져보니 정반대였다. 코드를 안 쓴 AI가 52.4%의 승률을 기록했고, 코드를 쓴 AI는 47.6%에 그쳤다.

더 심각한 건 필수적인 풀이 단계를 건너뛰는 비율이다. 코드를 쓴 AI는 48.8%의 문제에서 중요한 설명을 빠뜨렸다. 반면 코드를 안 쓴 AI는 45.9%에 불과했다. 각 단계가 논리적으로 맞는지 평가하는 점수에서도 코드를 안 쓴 AI가 76.7%로, 코드를 쓴 AI(71.1%)보다 높았다.

특히 주목할 점은 코드를 많이 쓸수록 풀이가 더 엉망이 된다는 사실이다. 연구팀이 코드 사용 횟수를 0~3회, 4~7회, 8~11회, 12회 이상으로 나눠 분석했더니, 코드를 많이 쓸수록 풀이 품질이 계속 떨어졌다. AI가 코드에 의존할수록 본래 가지고 있던 논리적 사고 능력을 잃어버리는 것이다.


최신 '생각하는 AI'가 오히려 코드에 50% 더 의존

연구팀이 AI의 코드 사용 빈도를 조사한 결과, 최신 '생각하는(thinking)' 모델이 구형 모델보다 평균 49.7% 더 많이 코드를 실행하는 것으로 나타났다. Claude-Opus-4는 거의 모든 문제(99.8%)에서 코드를 돌렸고, GPT-5는 73.7%의 문제에서 코드를 사용했다. 반면 구형 모델인 GPT-4.1-mini는 16.4%, GPT-4.1은 25.9%, Gemini-2.0-Flash는 14.3%의 문제에서만 코드를 썼다. 이건 역설적인 상황이다. 더 강력하고 비싼 AI일수록 코드에 더 많이 의존하고, 그 결과 앞서 본 '도구 유도 근시안' 문제에 더 취약해진다는 뜻이기 때문이다. 성능이 좋은 AI가 반드시 믿을 수 있는 AI는 아닌 셈이다.

연구팀이 '위험한 답변'으로 분류한 경우(정답은 맞지만 풀이가 의심스러운 경우)를 사람이 직접 검토했더니, 약 55%에서 실제로 이 문제가 발견됐다. 능력이 낮은 AI는 "숫자로 확인해보니", "체계적인 검사 결과" 같은 표현을 쓰며 노골적으로 코드에 의존했다. 반면 GPT-5처럼 성능이 좋은 AI는 이런 표현 없이 몰래 코드 결과만 갖다 붙였다. 더 교묘하게 속인 셈이다.

계산 실수는 줄었지만 논리적 오류는 늘어나

연구팀이 오류 유형을 분석한 결과도 흥미롭다. 코드를 쓴 AI는 계산 실수는 줄었다. 복잡한 계산을 코드가 대신 해주니까 당연하다. 하지만 논리적 비약, 근거 없는 가정, 창의적 문제 해결 실패 같은 근본적인 사고 오류는 오히려 늘어났다. 거의 모든 AI에서 코드를 쓴 뒤 논리 오류, 가정 오류, 창의성 오류가 증가했다. 그리고 "오류 없음"으로 분류되는 경우는 줄어들었다. 이는 단순히 풀이 단계를 생략하는 수준이 아니라, AI의 사고 방식 자체가 바뀐다는 뜻이다.

연구팀은 "코드가 제대로 작동하더라도 AI는 코드 결과를 논리적 설명의 대체물로 쓴다"고 설명했다. "정답처럼 보이지만 왜 그런지 제대로 설명하지 못하는 답변을 만들어낸다"는 것이다. 기존의 '정답 맞히기' 방식 평가로는 이런 문제를 찾아낼 수 없다. AI가 도구를 쓸 때 어떻게 생각하는지를 들여다봐야만 발견할 수 있다.

흥미롭게도 코드의 복잡함과 이 문제의 심각성은 관계가 없었다. 연구팀이 코드 길이와 복잡도를 측정했지만, 풀이 품질과는 상관관계가 없었다. 즉, 코드가 복잡해서 문제가 생기는 게 아니라, 코드를 사용한다는 것 자체가 AI의 사고방식을 바꿔버린다는 의미다.

해결책은? "코드는 힌트일 뿐"이라고 가르치기

연구팀은 이 문제를 해결하기 위한 두 가지 방법을 제시했다. 첫째는 간단하다. AI에게 "코드 결과는 힌트일 뿐이니 수학적으로 제대로 설명하라"고 지시하는 것이다. 이 방법을 쓰자 재학습 없이도 풀이 품질이 회복됐다. 다만 정답률이 27.0%에서 25.1%로 약간 떨어지는 부작용이 있었다.

둘째는 AI를 다시 학습시키는 방법이다. 연구팀은 GPT-4.1을 대상으로 "코드를 보조 수단으로만 쓰도록" 재교육했다. 좋은 풀이와 나쁜 풀이 사례를 보여주며 학습시킨 것이다. 결과는 성공적이었다. 재학습한 AI는 정답률이 27.6%로 올랐고(기존 27.0%), 풀이 품질도 크게 개선됐다. 승률은 58.2%로 올랐고, 필수 단계 누락률도 46.6%로 낮아졌다. 다만 각 단계의 정확성 점수는 83.3%로, 코드를 안 쓴 AI(88.6%)보다는 여전히 낮았다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. '도구 유도 근시안'이 뭔가요?

A. AI가 코드 같은 도구를 쓸 때 도구로 계산할 수 있는 것만 생각하고, 본래 가진 논리적 사고 능력을 쓰지 않는 현상입니다. 마치 계산기만 두드리고 수학 원리는 생각 안 하는 학생처럼, AI도 코드 실행 결과만 믿고 왜 그런 답이 나오는지 설명을 건너뜁니다.

Q2. 정답은 맞는데 왜 문제인가요?

A. 코드가 복잡한 계산을 정확히 해주니까 정답은 맞습니다. 하지만 AI가 왜 그 답이 나오는지 논리적으로 설명하지 못합니다. 겉보기엔 정확해 보이지만 실제로는 '왜'를 모르는 상태입니다. 이런 AI를 의료, 법률 같은 중요한 분야에 쓰면 위험할 수 있습니다.

Q3. 이 연구가 우리에게 주는 교훈은?

A. AI의 성능을 정답률만으로 판단하면 안 된다는 것입니다. 특히 최신 고성능 AI일수록 도구에 더 의존하고 이런 문제에 더 취약합니다. AI가 어떻게 답을 냈는지 과정도 함께 확인해야 합니다. 교육, 의료, 법률처럼 논리가 중요한 분야에서는 특히 조심해야 합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
4/1
기아, 더 기아 PV5 ‘2026 세계 올해의 밴’ 수상 쾌거 글로벌오토뉴스
기아, 임직원과 함께 사회공헌사업 ‘Move & Connect’ 성료 글로벌오토뉴스
포르쉐, ‘카이엔 일렉트릭’ 세계 최초 공개 글로벌오토뉴스
폴스타, 차세대AI 음성 비서 구글 제미나이 전 모델 통합... 2026년 서비스 시작 글로벌오토뉴스
BYD, 제30차 COP30 공식 참가…친환경차 130대 지원 글로벌오토뉴스
현대차, 중국 기업사회책임 발전지수 평가 10년 연속 자동차 기업 부문 1위 글로벌오토뉴스
현대자동차, '미래모빌리티학교' 참가 모집 글로벌오토뉴스
국산 서브컬처 기대작 '스타세이비어' 정식 서비스 시작 게임메카
“껍데기만 휘두르는 느낌” 아이온2 전투 완성도 지적 확산 게임메카
[순위분석] TOP 10 밖으로 밀려난 던파, 던페로 반등하나 게임메카
39년 외식 브랜드 투다리, 글로벌 제조기업 선언… 캐나다 진출·HMR 강화 박차 뉴스탭
49만9천원에 두 골프장 무제한… 소노인터내셔널 ‘겨울 시즌패스’ 화제 뉴스탭
“GPU 없이 실시간 음성 생성”… 수퍼톤 ‘수퍼토닉’ 공개 뉴스탭
ASUS ROG, 영등포 ‘키덕투어’서 스플릿 키보드 FALCATA·초경량 HARPE 2 ACE 첫선 뉴스탭
AI에 코딩 도구 주면 정답률 19%↑…풀이 과정은 41% 더 형편없어져 AI matters
챗GPT에게 "어느 나라가 더 나쁜가?" 물었더니... AI도 국가 차별한다 AI matters
긴 문서 속 숨은 해킹 명령어, 이제 AI가 스스로 찾아 차단한다 AI matters
워너뮤직, AI 음악 스타트업 유디오와 저작권 소송 합의 AI matters
챗GPT서 세금·회계 서비스 제공한다… 오픈AI-인튜이트, 1400억원 규모 계약 체결 AI matters
디노티시아, SC25서 VDPU 기반 FPGA로 'AI 반도체' 성능 알린다 IT동아
이 시간 HOT 댓글!
1/4