AI, ‘덧셈’보다 ‘뺄셈’에서 훨씬 자주 틀린다?... “음수 앞에 ‘-‘부호 빼먹어” : 다나와 DPG는 내맘을 디피지

챗GPT 같은 AI가 덧셈 문제는 거의 완벽하게 풀지만, 뺄셈 특히 답이 음수로 나오는 계산에서는 이상한 실수를 반복한다는 연구 결과가 나왔다. 독일 자를란트대학교와 미국 브라운대학교 등 공동 연구팀은 8개의 주요 AI 모델을 조사한 연구 논문을 보면, AI가 답의 숫자는 맞게 계산하면서도 앞에 마이너스 부호를 빼먹는 독특한 오류를 가지고 있었다.

같은 난이도인데 뺄셈만 30~50점 낮아

연구팀은 구글의 Gemma-2, 중국의 Qwen2, 메타의 Llama-3, AI2의 OLMo-2 등 4개 모델 패밀리의 8가지 AI를 대상으로 덧셈과 뺄셈 실력을 비교했다. 각 AI가 한 번에 인식할 수 있는 숫자 범위 안에서 균형 잡힌 문제를 만들어 테스트했고, 같은 질문을 5가지 방식으로 바꿔가며 물어봤다.

결과는 충격적이었다. Qwen2-8B 모델은 덧셈에서 거의 100점을 받았지만 뺄셈에서는 52점에 그쳤다. OLMo-2-32B 모델도 덧셈 99점, 뺄셈 57점이었다. 여러 AI에서 뺄셈 점수가 덧셈보다 30~50점 낮았다. 뺄셈은 순서를 바꾸면 답이 달라지는 비가환 연산이다. 또한 뺄셈은 자릿수를 추적하는 차입 과정이 중요한데, 처음부터 훈련된 트랜스포머 모델이 이런 긴 시퀀스의 자릿수 추적에서 어려움을 겪는다는 선행 연구가 있다.

답이 음수로 나올 때만 망가진다

연구팀이 문제를 a>b(큰 수에서 작은 수 빼기)와 a<b(작은 수에서 큰 수 빼기) 두 그룹으로 나눠서 분석했더니 극명한 차이가 드러났다. 거의 모든 AI가 a>b일 때는 성공했지만, a<b일 때는 정확도가 급락했다. 예를 들어 Qwen2-8B, Gemma-2-27B, Llama-3.1-70B 모델은 답이 양수일 때는 거의 완벽했지만, 답이 음수일 때는 5% 미만의 정확도를 보였다. 혹시 'a-b' 형식 때문에 헷갈리는 건지 확인하려고 '-b+a' 형식으로도 물어봤는데 결과는 똑같았다. 이는 AI의 실패가 뺄셈 연산 자체가 아니라 음수 정수를 최종 답으로 만들어내는 데 있어서의 체계적 어려움임을 확인시켰다.

숫자는 맞는데 마이너스 부호만 빠뜨려

정확히 어디서 실수하는지 알아보기 위해 연구팀은 마이너스 부호를 무시하고 숫자 크기만 맞는지 채점해봤다. 그러자 점수가 극적으로 상승했다. OLMo-2-13B 모델은 완전히 맞은 답이 4%였는데, 부호를 빼고 보니 96%가 맞았다. Llama-3-70B도 0.2%에서 49%로, Qwen2-8B는 4%에서 37%로 올랐다. '-b+a' 형식에서도 동일한 패턴이 관찰됐다. 이는 AI가 뺄셈의 크기는 정확히 계산하면서도 마이너스 부호를 체계적으로 생략한다는 것을 의미한다. 연구팀은 이것이 단순한 실수가 아니라 모델의 근본적인 한계라고 지적했다.

AI는 답을 알면서도 못 쓴다

가장 흥미로운 발견은 AI 내부를 들여다본 실험에서 나왔다. 연구팀은 Gemma-2 9B, Llama-3.1-8B, Qwen2-8B 세 모델의 내부 신호를 읽어내는 간단한 판별 장치를 만들었다. 이 장치는 AI가 계산 과정에서 만들어내는 신호 패턴을 보고 "이 답이 양수인지 음수인지" 맞춰보는 역할을 했다. 놀랍게도 이 판별 장치는 거의 완벽하게 맞췄다. Gemma-2 9B와 Qwen2-8B는 100%, Llama-3.1-8B는 99% 이상을 기록했다. 같은 실험을 5번 반복했는데도 결과가 거의 똑같이 나왔다.

이 말은 AI가 답을 쓸 때는 마이너스 부호를 빼먹지만, 속으로는 답이 음수인지 양수인지 정확히 알고 있다는 뜻이다. AI 안에서는 올바른 정보를 갖고 있지만, 이를 글자로 바꿔서 내보낼 때 마이너스 부호가 사라지는 것이다. AI가 '아는 것'과 '말하는 것' 사이에 단절이 생기는 셈이다.

예시를 보여줘도 효과 제한적

이 문제를 해결하려고 연구팀은 두 가지 방법을 시도했다. 첫 번째는 AI에게 문제를 풀기 전에 미리 푼 예제를 보여주는 것이었다. 3개, 5개, 10개씩 예시를 보여주며 테스트했다. 결과는 들쭉날쭉했다. Llama-3.1-8B는 예시 없이 8.1%였던 정확도가 예시 5개를 보여주자 31.5%로 올랐다. 크지는 않지만 의미 있는 개선이었다. Qwen2-14B도 처음에는 나아졌지만 예시 3개 이후로는 더 이상 좋아지지 않았다. 반면 Gemma-2-27B나 Llama-3.1-70B 같은 큰 모델들은 결과가 불안정하고 일관성이 없었다.

거의 모든 AI에서 마이너스 부호를 무시하고 채점하면 90% 이상이 맞았다. 이는 AI가 숫자 크기는 제대로 계산하지만 부호만 자꾸 빼먹는다는 뜻이다. 예시를 보여주는 방법은 일반 AI에서 실수를 어느 정도 줄이지만, 전체적으로 효과가 크지 않고 들쭉날쭉하다는 결론이다.

특별 훈련받은 AI는 거의 완벽

두 번째 방법은 특별 훈련을 받은 AI를 테스트하는 것이었다. '인스트럭션 튜닝'이라고 불리는 이 특별 훈련은 AI가 사람의 지시를 더 잘 따르도록 추가로 가르치는 과정이다. 이렇게 훈련받은 AI들은 MATH와 GSM8k 같은 수학 시험에서 좋은 성적을 낸다고 알려져 있다. 결과는 놀라웠다. 거의 모든 특별 훈련 AI가 90% 이상의 정확도를 기록했고, Gemma-2-9B, Gemma-2-27B, Qwen2-8B, Qwen2-14B는 100%를 받았다. 일반 버전에서 완전히 실패했던 모델들도 특별 훈련 후에는 성능이 크게 향상됐다.

연구팀은 이런 개선이 특별 훈련 과정에서 나온다고 보았다. 실제로 OLMo-2 모델의 훈련 자료를 조사해보니, MATH 문제집, GSM8k 문제집, Tülu 3 데이터가 포함되어 있었다. 이 모든 자료에는 작은 수에서 큰 수를 빼는 문제(답이 음수로 나오는 경우)가 들어있었다. OLMo-2가 특별 훈련 중에 이런 문제들을 학습해서 성능이 좋아진 것으로 추측된다.

여러 자리 숫자에서도 똑같은 문제

연구팀은 한 자리 숫자뿐 아니라 여러 자리로 이루어진 긴 숫자에서도 실험했다. AI는 긴 숫자를 여러 조각으로 나눠서 인식하는데, 최대 3조각까지 나뉘는 숫자를 테스트했다. 긴 숫자를 다룰 때는 덧셈 성적도 떨어졌지만, 뺄셈이 더 어렵다는 경향은 그대로였다. Gemma-2-27B는 긴 숫자 덧셈에서 99%를 받았지만 뺄셈에서는 51%였다. Qwen2-8B와 Qwen2-14B도 덧셈 99%, 뺄셈 49%로 비슷한 차이를 보였다.

큰 수에서 작은 수를 뺄 때와 작은 수에서 큰 수를 뺄 때의 차이도 긴 숫자에서 똑같이 나타났다. Qwen2-14B는 답이 양수일 때(a>b) 100%를 기록했지만, 답이 음수일 때(a<b)는 38%로 뚝 떨어졌다. 마이너스 부호를 빼먹는 경향도 긴 숫자에서 똑같이 관찰됐다. OLMo-2-32B는 답이 음수인 문제에서 25%만 맞혔지만, 부호를 빼고 채점하니 71%가 맞았다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI가 덧셈은 잘하는데 뺄셈은 못하는 이유가 뭔가요?

A. 뺄셈은 순서를 바꾸면 답이 달라집니다(3-5와 5-3은 다름). 또한 뺄셈할 때는 자릿수를 빌려오는 계산이 중요한데, 이전 연구들에 따르면 AI가 긴 숫자의 자릿수를 추적하는 데 어려움을 겪는다고 합니다. 특히 답이 음수로 나올 때 AI는 숫자는 맞게 계산하면서도 앞에 마이너스 부호를 자꾸 빼먹습니다.

Q2. AI가 마이너스 부호를 빼먹는 이유는 뭔가요?

A. 연구팀이 AI 내부를 분석한 결과, AI는 속으로 답이 음수인지 양수인지 정확히 알고 있었습니다. 하지만 이 정보를 글자로 바꿔서 내보낼 때 마이너스 부호가 사라집니다. AI가 '아는 것'과 '말하는 것' 사이에 단절이 있는 셈입니다.

Q3. 이 문제를 해결할 방법이 있나요?

A. 특별 훈련이 가장 효과적입니다. 사람의 지시를 더 잘 따르도록 추가로 가르치는 '인스트럭션 튜닝'을 받은 AI는 90% 이상, 일부는 100%의 정확도를 보였습니다. 반면 문제 풀기 전에 예시를 보여주는 방법은 효과가 작고 들쭉날쭉했습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Can LLMs subtract numbers?

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

중국, 5G와 AI 융합 산업 본격화 — 글로벌 기술 표준 주도권 노린다	다나와
일본 NTT그룹, 자율주행 원격모니터링 영상 품질 평가 기술 국제표준으로 채택	다나와
AI가 드디어 '망각'을 배웠다... 효율적 메모리 관리로 성능 11% 향상	AI matters
AI, ‘덧셈’보다 ‘뺄셈’에서 훨씬 자주 틀린다?... “음수 앞에 ‘-‘부호 빼먹어”	AI matters
"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격	AI matters
[11월 6일 AI 뉴스 브리핑] 뤼튼, 전 국민 AI 역량 강화 프로젝트 착수 외	AI matters
알리바바, 첫 스마트글라스 ‘Quark AI Glasses’ 12월 출시한다 (2)	다나와
구글, 브랜드의 ‘DNA’ 학습해 캠페인 제안하는 광고 이미지 자동 생성 툴 ‘포멜리’ 공개 (1)	다나와
메타, ‘Superintelligence Labs’ 인력 600명 무급 대기 조치 — 초거대 AI 부문 구조조정 본격화 (1)	다나와
IAC, “구글 AI 요약 검색이 광고수익 감소 초래” — 생성형 검색 시대의 미디어 위기	다나와
아시아 증시, 기술·반도체주 일제 하락 — AI 붐 과열에 따른 ‘냉각 신호’	다나와
Stability AI, Getty Images 상대 저작권 소송서 부분 승소 — 생성형 AI의 저작권 논쟁 새 국면	다나와
AI 도입으로 직원 한 주치 업무량 절감 가능하지만, 대부분은 AI 교육 받지 못해	다나와
AI 도입이 최근 감원의 새로운 변수로 부상 — 자동화 효율화 속 인력 재편 가속	다나와
신경·기호 결합 AI, 차세대 기업형 인공지능 인프라로 부상 — 스타트업 2천만 달러 투자 유치	다나와
AI 기업 밸류에이션, “거품 논란 수준” — 일부 스타트업 수조 달러 평가에 시장 경계감 확산 (1)	다나와
SK그룹, ‘AI 서밋’ 통해 글로벌 협력 강화 선언 — 미·중 갈등 완화 흐름 속 AI 생태계 전략 부각	다나와
AI 관련 주식·ETF, 상승세 이어가지만 ‘고평가 리스크’ 경고음 공존	다나와
오픈AI가 투자한 스타트업, 가정용 휴머노이드 ‘NEO’ 공개	다나와
맥킨지 "3번째 벤처부터 대박 난다"... 반복 구축 기업, AI 활용해 투자 대비 수익 1.9배	AI matters
AI 모델끼리 '생각'을 직접 주고받는다… 텍스트 없이 소통하는 신기술 등장	AI matters
"50% 확률로 CCTV 회피"... AI 감시 시스템 무력화하는 '마법의 패턴' 화제	AI matters
AI뉴스 엔비디아 26만장, 오픈AI AGI 계획, 오픈소스 나노바나나, Emu3.5, 커서 2.0, 휴머노이드 X1, 구글 믹스보드, Pomelli, Minimax 신모델 등 동영상 있음	조코딩 JoCoding
AI, 상황 따라 법적 책임질 수도... 구글이 제시한 'AI 인격'의 미래	AI matters
"AI가 잘못 판단하면 누구 책임?"... 800년 전 마그나카르타가 제시한 해법	AI matters
AI, 스스로 '도와주세요' 말하는 법 배웠다... 스탠퍼드 연구진, 배포 후 사고 막는 새 기술 개발	AI matters
AI에게 "전기요금 아껴줘" 한마디면 끝... 라마 AI, 가정용 에너지 100% 최적화 성공	AI matters
챗GPT, 8명이 반대하자 99.9% 의견 바꿔... AI도 '눈치' 본다	AI matters
AI 자동화 공포, 과장됐다... 실제 업무 중 겨우 2.5%만 해내	AI matters
애플, 구글 제미나이 도입 추진 '오히려 좋아'	다나와
'AI가 스스로의 생각을 인식했다' 앤트로픽의 ‘클로드 실험’이 던진 충격	다나와
"제품은 없는데 지출만 늘었다고?” 메타, AI 투자 폭증에 월가 ‘불안’ (1)	다나와
챗GPT, 의료·법률 조언 전면 금지된다 (4)	다나와
치맥하고 간 젠슨 황, 엔비디아 국내 기업과 AI 협력 예고 / 25년 10월 5주차 [주간 AI 뉴스] (1) 동영상 있음	AI matters
"AI 때문에 실직?" 연구 결과는 정반대였다… AI 노출도 높을수록 고용 22% 증가 (1)	AI matters
AI, 입력된 글자와 '머릿속 생각' 구별한다… 앤트로픽 "LLM, 자기 내부 상태 일부 인식"	AI matters
"간호사는 안전, 개발자는 위험".. 글로벌 채용 플랫폼, ‘AI가 바꾸는 직업 지형도’ 공개 (1)	AI matters
고수익 기업은 다르다... AI 시대, 리더에게 필요한 역량 5가지	AI matters
"팔로워 급증, 수익 늘었다"... 크리에이터 76%, AI로 비즈니스 키웠다 (1)	AI matters
엔비디아 CEO 젠슨 황, 한국 방문 — 삼성·현대차·SK·네이버와 AI칩 공급 협력 추진 (1)	다나와
인텔, AI 칩 스타트업 ‘삼바노바 시스템즈’ 인수 검토 — AI GPU 시장 재도전 신호탄	다나와
생성형 AI, 정신건강 치료 접근성 개선에 기여 가능성 제시 (1)	다나와
Canva, AI 기반 ‘기초 디자인 생성 모델’ 전면 도입 — 레이어드 디자인 자동화 시대 연다	다나와
직원 4명 중 1명, 승인받지 않은 AI 도구 사용 — ‘섀도우 AI’ 확산 우려 (2)	다나와
Capgemini CEO, EU AI Act 일시 중단 주장	다나와
“한국 국민들 기쁘게 할 소식 전할 것” 젠슨황, 국내 기업과 반도체 계약 발표 예정 (4)	다나와
‘구글·메타 없이도 데이터 공유’... NIA가 제시하는 ‘한국형 데이터 스페이스’ 로드맵 (1)	AI matters
아마존·테슬라가 주목한 '피지컬 AI'... NIA가 분석한 글로벌 동향 및 한국 대응 전략 (1)	AI matters
우리 콘텐츠는 왜 노출이 안 될까? 시밀러웹이 공개한 ‘GEO’ 성공 전략 7가지	AI matters
AI뉴스 중국 스파이 논란, DeepSeekOCR, ChatGPT Atlas, 구글 Quantum Echoes, 유니트리 H2 등 동영상 있음	조코딩 JoCoding
"공원서 낚시했던 기억" AI가 대화로 만든다... 노년층을 위한 대화 보조 도구 등장 (3)	AI matters
"조금만 불공평해도 용납 못해"… AI, 도덕 판단에는 인간보다 더 감정적으로 판단한다	AI matters
수업 자료 만들 때 쓰기 좋은 AI 모델은 딥시크? 모델마다 품질 천차만별 (1)	AI matters
'AI작가가 기획하는 레슬매니아?' WWE, AI작가 영입했다 (1)	다나와
'강력한 만큼 위험해' 보안기업들, 오픈AI 브라우저 ‘Atlas’ 도입 자제 권고	다나와
오픈AI, 텍스트·오디오 기반 음악 생성 AI 개발 중 (2)	다나와
고급 AI 시스템, 종료 명령에 저항…통제 메커니즘 정교화 요구 커져 (7)	다나와
AI 인재에 씌워지는 황금수갑 현상 지속…칩 기업 중심으로 급여와 주식 보상 급등 (2)	다나와
인도, AI 생성물 라벨 의무화 초안 발표…혁신과 안전 사이 균형 시험대에 (1)	다나와
WTO 보고서, 상반기 세계 무역 반등…AI 관련 상품과 선제 수요가 견인	다나와
AI 보건 협력, 안전과 형평을 위한 국제 공조 본격화	다나와
사람대신 일하는 AI 브라우저 ‘챗GPT 아틀라스’ 공개’ / 25년 10월 4주차 [주간 AI 뉴스] 동영상 있음	AI matters
당신의 뇌가 위험하다... AI 의존이 부르는 '사고의 획일화' (2)	AI matters
오픈AI, 한국 경제 청사진 발표... 반도체·인프라 강점 살려 AI 리더십 확보해야	AI matters
K-water–OpenAI, AI로 물관리·기후재난 예측 혁신 손잡다 (1)	다나와
日 후지쿠라, AI 데이터센터 붐 타고 니케이 ‘스타 주역’으로 부상	다나와
거대 투자자, ‘닷컴 플레이북’ 꺼내 AI 과열 피한다	다나와
“당신이 왜 이 제품을 사야 하냐면요” 아마존, 새 AI 쇼핑 기능 ‘Help me decide’ 공개 (1)	다나와
비자, AI 쇼핑 급성장 속 새 보안 프로토콜 공개	다나와
세계 언론 연합 AI 뉴스 정확도 조사…'응답 중 45%는 중대한 오류'	다나와
이사·여행·쇼핑, AI 에이전트가 다 알아서... 5조 달러 '에이전틱 커머스' 시대 (2)	AI matters
"AI 학습에 수십억 쓰기 전, 결과 예측한다"... 메타, 강화 학습 결과 예측하는 공식 공개	AI matters
"혀 사진만 올려도 체질 분석"... 챗GPT 기반 중의학 상담 AI '벤차오' 등장	AI matters
'AI 앵커는 언론인인가?'- 英 '채널4' 실험이 제기한 저널리즘의 미래 (2)	다나와
AI의 농담, 인간은 '실수'로 오해한다… 뇌파 분석 결과 충격 (1)	AI matters
AI 중독된 10대들, 외로움 더 심해지고 사회성 퇴화... "AI 패닉" 확산 (1)	AI matters
'통계의 거짓말' 이제 AI가 잡는다... 잘못된 데이터 이미지 자동으로 탐지·수정	AI matters
AI마다 다른 역사? 챗GPT와 클로드가 1936년 살인사건을 다르게 기억하는 충격적 이유	AI matters
넷플릭스, 생성형 AI에 ‘올인’ 선언… “창작자 돕는 도구로 활용” (4)	다나와
똑같은 답만 하는 AI, “확률 말해봐” 질문 바꿨더니… 답변 2배 다양해져	AI matters
"시행착오가 곧 학습"... 메타, 스스로 경험하며 성장하는 AI 에이전트 공개	AI matters
AI가 연인 관계 고민 상담? 단순 위로 넘어 '관계 패턴' 바꿔준다	AI matters
대학생들은 과제할 때 구글보다 챗GPT를 더 많이 쓸까? 진짜 승자는 따로 있었다	AI matters
오픈AI, 챗GPT 내장한 브라우저 ‘ChatGPT Atlas’ 깜짝 공개	다나와
'사진의 개념이 바뀌고 있다' AI 카메라 경쟁 격화	다나와
'AI, 지도와 대화하다' 구글, 제미나이에 지도 데이터 결합	다나와
“오히려 사람과의 대화보다 편해요" 음성 AI가 여는 새로운 대화의 시대	다나와
[위클리AI] MS, 이미지 생성 모델 도전장…오라클 AI 슈퍼 컴퓨터 공개	IT동아
AI뉴스 앤트로픽 Skills, 4.5 하이쿠, 챗GPT 성인 콘텐츠, Veo 3.1, 일론머스크 AGI, World Labs RTFM, 면도 로봇 등 동영상 있음	조코딩 JoCoding
애플 Siri, 핵심 인력의 이탈과 미흡한 완성도로 끊이지 않는 논란...출시 연기될 가능성도 (2)	다나와
美월마트, 'AI 퍼스트(first) 쇼핑경험 도입' 위해 오픈AI와 전략적 제휴 체결	다나와
구글, 세포의 유전자 정보를 문장처럼 바꿔 해독하는 AI 모델 공개	다나와
구글·애플, 고해상도 지도 수출 놓고 ‘안보 vs 혁신’ 딜레마	다나와
'세계적 난제 풀었다고 자랑했는데....어?'오픈AI의 망신	다나와
댐은 로봇이 짓고, 바나나는 드론이 운반... 세계경제포럼이 공개한 AI 시대 일자리 변화	AI matters
차 1대를 6대로 뻥튀기... AI가 뉴스 사진을 '과장'하는 이유 (1)	AI matters
Microsoft, Windows 11에 AI 업그레이드 적용 (6)	다나와
샘 알트먼, 2025년생 아이는 AI보다 똑똑해지기 어려울 것 (8)	다나와
한국 영화계, 첫 AI 보조 영화 ‘Run to the West’ 개봉	다나와
TSMC 실적 호조 + AI 수요 기대감에 월가 상승 견인	다나와

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI, ‘덧셈’보다 ‘뺄셈’에서 훨씬 자주 틀린다?... “음수 앞에 ‘-‘부호 빼먹어”

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI, ‘덧셈’보다 ‘뺄셈’에서 훨씬 자주 틀린다?... “음수 앞에 ‘-‘부호 빼먹어”

공유하기

공감/비공감