비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI에 코딩 도구 주면 정답률 19%↑…풀이 과정은 41% 더 형편없어져

2025.11.20. 12:55:04
조회 수
76

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

ChatGPT나 Claude 같은 AI에게 코드를 실행할 수 있는 기능을 주면 정답을 더 잘 맞히지만, 정작 '어떻게 그 답이 나왔는지' 설명하는 능력은 오히려 떨어진다는 연구 결과가 나왔다. 메가곤랩스(Megagon Labs) 연구팀은 이런 현상을 '도구 유도 근시안(Tool-Induced Myopia, TIM)'이라고 이름 붙였다. 쉽게 말해, AI가 계산기에 너무 의존한 나머지 스스로 생각하는 능력이 퇴화하는 것이다.

정답률은 19% 올랐지만, 추론 능력은 41% 떨어져

해당 논문에 따르면, 연구팀은 1,679개의 어려운 수학 문제를 모아 'PYMATH'라는 테스트를 만들었다. 그리고 AI가 코드 실행 기능을 쓸 때와 안 쓸 때를 비교했다. 결과는 놀라웠다. 코드 실행 기능을 쓴 AI는 정답률이 최대 19.3%포인트 올랐다. 하지만 '어떻게 풀었는지' 과정을 평가했더니 오히려 형편없었다. 코드를 쓰지 않은 AI가 41.5%나 더 높은 비율로 제대로 된 풀이를 보여줬다.

구체적인 수치를 보면 더 명확하다. GPT-4.1, GPT-5, Gemini-2.5-Flash, Claude-Opus-4 등 7개의 최신 AI를 테스트한 결과, 코드를 쓴 AI의 평균 정답률은 43.3%였다. 코드를 안 쓴 AI(37.6%)보다 높다. 그런데 '풀이 품질'을 따져보니 정반대였다. 코드를 안 쓴 AI가 52.4%의 승률을 기록했고, 코드를 쓴 AI는 47.6%에 그쳤다.

더 심각한 건 필수적인 풀이 단계를 건너뛰는 비율이다. 코드를 쓴 AI는 48.8%의 문제에서 중요한 설명을 빠뜨렸다. 반면 코드를 안 쓴 AI는 45.9%에 불과했다. 각 단계가 논리적으로 맞는지 평가하는 점수에서도 코드를 안 쓴 AI가 76.7%로, 코드를 쓴 AI(71.1%)보다 높았다.

특히 주목할 점은 코드를 많이 쓸수록 풀이가 더 엉망이 된다는 사실이다. 연구팀이 코드 사용 횟수를 0~3회, 4~7회, 8~11회, 12회 이상으로 나눠 분석했더니, 코드를 많이 쓸수록 풀이 품질이 계속 떨어졌다. AI가 코드에 의존할수록 본래 가지고 있던 논리적 사고 능력을 잃어버리는 것이다.


최신 '생각하는 AI'가 오히려 코드에 50% 더 의존

연구팀이 AI의 코드 사용 빈도를 조사한 결과, 최신 '생각하는(thinking)' 모델이 구형 모델보다 평균 49.7% 더 많이 코드를 실행하는 것으로 나타났다. Claude-Opus-4는 거의 모든 문제(99.8%)에서 코드를 돌렸고, GPT-5는 73.7%의 문제에서 코드를 사용했다. 반면 구형 모델인 GPT-4.1-mini는 16.4%, GPT-4.1은 25.9%, Gemini-2.0-Flash는 14.3%의 문제에서만 코드를 썼다. 이건 역설적인 상황이다. 더 강력하고 비싼 AI일수록 코드에 더 많이 의존하고, 그 결과 앞서 본 '도구 유도 근시안' 문제에 더 취약해진다는 뜻이기 때문이다. 성능이 좋은 AI가 반드시 믿을 수 있는 AI는 아닌 셈이다.

연구팀이 '위험한 답변'으로 분류한 경우(정답은 맞지만 풀이가 의심스러운 경우)를 사람이 직접 검토했더니, 약 55%에서 실제로 이 문제가 발견됐다. 능력이 낮은 AI는 "숫자로 확인해보니", "체계적인 검사 결과" 같은 표현을 쓰며 노골적으로 코드에 의존했다. 반면 GPT-5처럼 성능이 좋은 AI는 이런 표현 없이 몰래 코드 결과만 갖다 붙였다. 더 교묘하게 속인 셈이다.

계산 실수는 줄었지만 논리적 오류는 늘어나

연구팀이 오류 유형을 분석한 결과도 흥미롭다. 코드를 쓴 AI는 계산 실수는 줄었다. 복잡한 계산을 코드가 대신 해주니까 당연하다. 하지만 논리적 비약, 근거 없는 가정, 창의적 문제 해결 실패 같은 근본적인 사고 오류는 오히려 늘어났다. 거의 모든 AI에서 코드를 쓴 뒤 논리 오류, 가정 오류, 창의성 오류가 증가했다. 그리고 "오류 없음"으로 분류되는 경우는 줄어들었다. 이는 단순히 풀이 단계를 생략하는 수준이 아니라, AI의 사고 방식 자체가 바뀐다는 뜻이다.

연구팀은 "코드가 제대로 작동하더라도 AI는 코드 결과를 논리적 설명의 대체물로 쓴다"고 설명했다. "정답처럼 보이지만 왜 그런지 제대로 설명하지 못하는 답변을 만들어낸다"는 것이다. 기존의 '정답 맞히기' 방식 평가로는 이런 문제를 찾아낼 수 없다. AI가 도구를 쓸 때 어떻게 생각하는지를 들여다봐야만 발견할 수 있다.

흥미롭게도 코드의 복잡함과 이 문제의 심각성은 관계가 없었다. 연구팀이 코드 길이와 복잡도를 측정했지만, 풀이 품질과는 상관관계가 없었다. 즉, 코드가 복잡해서 문제가 생기는 게 아니라, 코드를 사용한다는 것 자체가 AI의 사고방식을 바꿔버린다는 의미다.

해결책은? "코드는 힌트일 뿐"이라고 가르치기

연구팀은 이 문제를 해결하기 위한 두 가지 방법을 제시했다. 첫째는 간단하다. AI에게 "코드 결과는 힌트일 뿐이니 수학적으로 제대로 설명하라"고 지시하는 것이다. 이 방법을 쓰자 재학습 없이도 풀이 품질이 회복됐다. 다만 정답률이 27.0%에서 25.1%로 약간 떨어지는 부작용이 있었다.

둘째는 AI를 다시 학습시키는 방법이다. 연구팀은 GPT-4.1을 대상으로 "코드를 보조 수단으로만 쓰도록" 재교육했다. 좋은 풀이와 나쁜 풀이 사례를 보여주며 학습시킨 것이다. 결과는 성공적이었다. 재학습한 AI는 정답률이 27.6%로 올랐고(기존 27.0%), 풀이 품질도 크게 개선됐다. 승률은 58.2%로 올랐고, 필수 단계 누락률도 46.6%로 낮아졌다. 다만 각 단계의 정확성 점수는 83.3%로, 코드를 안 쓴 AI(88.6%)보다는 여전히 낮았다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. '도구 유도 근시안'이 뭔가요?

A. AI가 코드 같은 도구를 쓸 때 도구로 계산할 수 있는 것만 생각하고, 본래 가진 논리적 사고 능력을 쓰지 않는 현상입니다. 마치 계산기만 두드리고 수학 원리는 생각 안 하는 학생처럼, AI도 코드 실행 결과만 믿고 왜 그런 답이 나오는지 설명을 건너뜁니다.

Q2. 정답은 맞는데 왜 문제인가요?

A. 코드가 복잡한 계산을 정확히 해주니까 정답은 맞습니다. 하지만 AI가 왜 그 답이 나오는지 논리적으로 설명하지 못합니다. 겉보기엔 정확해 보이지만 실제로는 '왜'를 모르는 상태입니다. 이런 AI를 의료, 법률 같은 중요한 분야에 쓰면 위험할 수 있습니다.

Q3. 이 연구가 우리에게 주는 교훈은?

A. AI의 성능을 정답률만으로 판단하면 안 된다는 것입니다. 특히 최신 고성능 AI일수록 도구에 더 의존하고 이런 문제에 더 취약합니다. AI가 어떻게 답을 냈는지 과정도 함께 확인해야 합니다. 교육, 의료, 법률처럼 논리가 중요한 분야에서는 특히 조심해야 합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
AI에 코딩 도구 주면 정답률 19%↑…풀이 과정은 41% 더 형편없어져 AI matters
챗GPT에게 "어느 나라가 더 나쁜가?" 물었더니... AI도 국가 차별한다 AI matters
긴 문서 속 숨은 해킹 명령어, 이제 AI가 스스로 찾아 차단한다 AI matters
디노티시아, SC25서 VDPU 기반 FPGA로 'AI 반도체' 성능 알린다 IT동아
AI 여러 개 쓰면 답 정확해진다더니... 토큰비용 5배에 정답률은 제자리 AI matters
챗GPT가 원전을 부른다… 데이터센터 전력 수요 폭증에 기업들 원전에 '올인' AI matters
구글 CEO, “AI 맹신 금물”… 급격한 확산 속 과열 우려 제기 다나와
윈도우 11, AI 비서 기능 강화되지만… 새 악성코드 위협도 동반 (1) 다나와
폭스뉴스, 팔란티어와 손잡고 AI 기반 뉴스룸 구축… “미래 뉴스 절반은 AI가 만든다” 전망도 다나와
인도, AI 확산 영향으로 초보 개발자 일자리 최대 25퍼센트 감소 다나와
"AI가 CCTV 속 폭력 포착"... 제미나이가 ‘주먹 드는 순간’ 95% 정확도로 잡는다 AI matters
"챗GPT도 속았다"... AI에게 '답 없는 질문'하자 60% 이상 틀려 AI matters
'의학 드라마'로 AI 진단 실력 측정했더니... 희귀질환 진단 정확도 38% 그쳐 AI matters
AI 설득 실험, 챗GPT는 유연한 반면 제미나이는 상당한 고집불통 AI matters
구글 딥마인드 "AI도 사람처럼 소송 걸 수 있다"...중세 해양법 법에서 찾은 해법 AI matters
AI 과학자 '코스모스', 6개월 연구를 하루 만에 완료 AI matters
구글, AI 여행 도구 전면 확장…‘플라이트 딜스’ 글로벌 출시와 개인화 예약 기능 강화 (2) 다나와
마이크로소프트, 대기 예측용 AI ‘오로라’ 공개…극한 기상 대응 능력 높인다 다나와
AI 데이터센터 폭증 속 재생에너지 활용 가능성 주목… 지속가능성 논의 본격화 (1) 다나와
고어 버빈스키 감독, “생성형 AI가 영화 제작을 잠식 중”… 창작자 역할 약화 우려 다나와
이 시간 HOT 댓글!
1/4