비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

메타, 기존 통념 뒤집는 연구 결과 공개… “추론 시간 짧으면 LLM 정확도 34.5% 향상”

2025.06.04. 12:49:00
조회 수
80

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning


기존 통념을 뒤집는 발견: 짧은 추론이 34.5% 더 정확

복잡한 수학 문제를 해결하는 대형언어모델(LLM)에서 긴 추론 과정이 반드시 더 나은 성능을 보장하지 않는다는 연구 결과가 발표됐다. 메타(Meta)와 히브리대학교 공동 연구진이 발표한 논문에 따르면, 오히려 짧은 추론 과정이 최대 34.5% 더 정확한 결과를 도출하는 것으로 나타났다. 연구진은 3개의 주요 추론 LLM인 라마-3.3-네모트론-슈퍼-49B(Llama-3.3-Nemotron-Super-49B), R1-디스틸-콰인-32B(R1-Distill-Qwen-32B), QwQ-32B를 대상으로 실험을 진행했다. 각 모델에 동일한 수학 문제를 20회씩 풀게 한 뒤, 가장 짧은 답안과 가장 긴 답안의 정확도를 비교 분석했다.

실험 결과는 놀라웠다. 가장 짧은 추론 과정을 거친 답안이 무작위로 선택한 답안보다 최대 18.8% 더 높은 정확도를 보였으며, 가장 긴 추론 과정을 거친 답안보다는 무려 34.5% 더 정확했다. 특히 짧은 추론 과정은 무작위 선택 대비 50%, 긴 추론 대비 67% 더 적은 토큰을 사용하면서도 이런 성과를 달성했다.


short-m@k 방법론: 병렬 처리로 효율성과 정확성 동시 확보

이러한 발견을 바탕으로 연구진은 'short-m@k'라는 새로운 추론 방법을 제안했다. 이 방법은 k개의 독립적인 생성 과정을 병렬로 실행하다가, 첫 번째 m개의 추론 과정이 완료되는 즉시 모든 계산을 중단하는 방식이다. 최종 답안은 이 m개의 짧은 추론 과정에서 다수결 투표로 결정된다.

실험에서 short-1@k 방법은 저연산 환경에서 기존의 다수결 투표 방식과 비슷하거나 더 우수한 성능을 보이면서도 추론 토큰을 최대 40% 절약했다. short-3@k 방법은 모든 연산 예산에서 일관되게 다수결 투표를 능가했으며, 처리 시간을 최대 33% 단축시켰다.

실험 데이터: AIME와 HMMT 벤치마크에서 일관된 결과

연구진은 AIME 2024, AIME 2025, HMMT 2025년 2월 등 3개의 경쟁적인 수학 벤치마크를 사용해 실험을 진행했다. 각 벤치마크는 30개의 다양한 난이도 문제로 구성됐으며, 총 5,400개의 답안을 생성해 분석했다. 흥미롭게도 어려운 문제일수록 더 많은 토큰을 사용하는 경향을 보였지만, 동일한 문제 내에서는 정답이 오답보다 더 짧은 추론 과정을 거치는 것으로 나타났다. 예를 들어, LN-Super-49B 모델의 경우 쉬운 문제에서 정답은 평균 5,300개 토큰을 사용한 반면 오답은 11,100개 토큰을 사용했다.

짧은 추론 데이터로 훈련하면 성능도 향상

연구진은 추가로 콰인-2.5-32B(Qwen-2.5-32B) 모델을 짧은 추론, 긴 추론, 무작위 추론 데이터로 각각 파인튜닝했다. 그 결과 짧은 추론 데이터로 훈련한 모델이 다른 두 모델보다 더 나은 성능을 보였다. S1-short 모델은 S1-random 모델 대비 2.8% 높은 정확도를 달성하면서도 추론 토큰을 5.8% 적게 사용했다. 반면 긴 추론 데이터로 훈련한 S1-long 모델은 더 많은 토큰을 소모했지만 성능 향상은 미미했다. 이는 훈련 단계에서부터 짧은 추론을 활용하는 것이 효율성과 정확성을 동시에 개선할 수 있음을 시사한다.

병렬 처리 의존성과 메모리 제약이라는 한계점

이번 연구의 short-m@k 방법론은 뛰어난 성과를 보였지만 몇 가지 제약사항도 존재한다. 가장 큰 한계는 배치 디코딩(batch decoding)에 의존한다는 점이다. 이 방법은 여러 추론 과정을 동시에 병렬로 실행해야 하므로, 추론 메모리가 제한된 환경에서는 적용이 어려울 수 있다.

연구진은 병렬 처리 없이도 short-m@k를 사용할 수 있지만, 이 경우 효율성 개선 효과가 줄어든다고 밝혔다. 또한 이번 파인튜닝 실험은 특정 모델(콰인-2.5-32B-인스트럭트)과 데이터셋(S1)에 한정되어 진행됐기 때문에, 다른 모델과 데이터셋에서도 동일한 효과를 보일지는 추가 검증이 필요하다.

FAQ

Q: 왜 짧은 추론이 더 정확한 결과를 낳나요?

A: 연구진은 긴 추론 과정이 오히려 모델을 혼란스럽게 만들고 잘못된 경로로 이끌 수 있다고 분석했습니다. 짧은 추론은 핵심적인 문제 해결 과정에 집중하여 더 직접적이고 정확한 답안을 도출합니다.

Q: short-m@k 방법은 어떤 상황에서 가장 효과적인가요?

A: 이 방법은 특히 연산 자원이 제한된 환경에서 뛰어난 효과를 보입니다. 병렬 처리가 가능한 환경에서 사용할 때 최대 40%의 연산 비용을 절약하면서도 더 높은 정확도를 달성할 수 있습니다.

Q: 이 연구 결과가 실제 AI 서비스에 어떤 영향을 미칠까요?

A: 이 연구는 AI 서비스의 연산 비용을 크게 줄이면서도 성능을 향상시킬 수 있는 방법을 제시합니다. 특히 수학 문제 해결, 코딩, 논리적 추론이 필요한 AI 애플리케이션에서 효율성과 정확성을 동시에 개선할 수 있을 것으로 기대됩니다.


해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
'번아웃' 고백한 김비오, KPGA 부산오픈 첫날 단독 선두(종합) 연합뉴스
크로스오버존 '34WP165 커브드 리얼 165 울트라와이드 멀티스탠드' 무결점 업그레이드 이벤트 다나와
서린씨앤아이, 클레브 DDR5 RGB 메모리 구성 완제 PC 구매 시 사은품 증정 다나와
골프 전문 여행사 자이언트골프, 박민지 등 선수 5명 후원 연합뉴스
"여전히 비싸고 정책 오락가락" 美 전기차 구매 의향 2019년 이후 최저 오토헤럴드
현대차, 부산시에 무공해 수소청소차 공급… "2028년까지 65대 전환" 오토헤럴드
[가이드] “‘도감작’을 아시나요?” 쏠쏠하게 써먹는 서머너즈 워 러쉬 팁&쿠폰 모음! 게임동아
골프존, 싱가포르에 대형 골프 시뮬레이터 센터 2곳 개장 연합뉴스
'번아웃' 고백한 김비오, KPGA 부산오픈 첫날 6언더파 연합뉴스
KLPGA 상금·대상 포인트 선두 이예원 "올해 목표는 4승 이상" 연합뉴스
KLPGA 사상 첫 5연패 노리는 박민지 "감사한 마음으로 도전" 연합뉴스
3,000명 출전, 전국 장애학생 e페스티벌 예선 시작 (1) 게임메카
[순위분석] 4년 만에, 리니지가 리니지 2에 밀렸다 게임메카
[Q&AI] 이재명 정부 ‘AI 정책수석’ 후보 4명 누구? (1) AI matters
AI가 최고의 '노이즈'를 찾아낸다... 삼성, 비디오 품질 높이는 ‘ANSE’ 기술 공개 (1) AI matters
백송홀딩스-아시아드CC 부산오픈 개막 연합뉴스
OECD가 제시한 AI 능력 측정 새 기준, 정책 결정을 위한 종합 프레임워크 공개 AI matters
알리바바, 12만 토큰 고맥락 거대 문서도 척척 이해하는 AI '큐원롱-L1' 공개... “오픈AI o3-mini 성능 뛰어넘어” AI matters
'팀장님 필독', MS가 만든 ‘회의 목적 찾아주는’ AI는 회의 지옥에서 구출해 준다 AI matters
"누군가의 자유 침해하면 안 돼" 이해 못 하는 AI… 2,500개 상황서 도덕 테스트한 결과 AI matters
이 시간 HOT 댓글!
1/4