비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

메타, 기존 통념 뒤집는 연구 결과 공개… “추론 시간 짧으면 LLM 정확도 34.5% 향상”

2025.06.04. 12:49:00
조회 수
385
6

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning


기존 통념을 뒤집는 발견: 짧은 추론이 34.5% 더 정확

복잡한 수학 문제를 해결하는 대형언어모델(LLM)에서 긴 추론 과정이 반드시 더 나은 성능을 보장하지 않는다는 연구 결과가 발표됐다. 메타(Meta)와 히브리대학교 공동 연구진이 발표한 논문에 따르면, 오히려 짧은 추론 과정이 최대 34.5% 더 정확한 결과를 도출하는 것으로 나타났다. 연구진은 3개의 주요 추론 LLM인 라마-3.3-네모트론-슈퍼-49B(Llama-3.3-Nemotron-Super-49B), R1-디스틸-콰인-32B(R1-Distill-Qwen-32B), QwQ-32B를 대상으로 실험을 진행했다. 각 모델에 동일한 수학 문제를 20회씩 풀게 한 뒤, 가장 짧은 답안과 가장 긴 답안의 정확도를 비교 분석했다.

실험 결과는 놀라웠다. 가장 짧은 추론 과정을 거친 답안이 무작위로 선택한 답안보다 최대 18.8% 더 높은 정확도를 보였으며, 가장 긴 추론 과정을 거친 답안보다는 무려 34.5% 더 정확했다. 특히 짧은 추론 과정은 무작위 선택 대비 50%, 긴 추론 대비 67% 더 적은 토큰을 사용하면서도 이런 성과를 달성했다.


short-m@k 방법론: 병렬 처리로 효율성과 정확성 동시 확보

이러한 발견을 바탕으로 연구진은 'short-m@k'라는 새로운 추론 방법을 제안했다. 이 방법은 k개의 독립적인 생성 과정을 병렬로 실행하다가, 첫 번째 m개의 추론 과정이 완료되는 즉시 모든 계산을 중단하는 방식이다. 최종 답안은 이 m개의 짧은 추론 과정에서 다수결 투표로 결정된다.

실험에서 short-1@k 방법은 저연산 환경에서 기존의 다수결 투표 방식과 비슷하거나 더 우수한 성능을 보이면서도 추론 토큰을 최대 40% 절약했다. short-3@k 방법은 모든 연산 예산에서 일관되게 다수결 투표를 능가했으며, 처리 시간을 최대 33% 단축시켰다.

실험 데이터: AIME와 HMMT 벤치마크에서 일관된 결과

연구진은 AIME 2024, AIME 2025, HMMT 2025년 2월 등 3개의 경쟁적인 수학 벤치마크를 사용해 실험을 진행했다. 각 벤치마크는 30개의 다양한 난이도 문제로 구성됐으며, 총 5,400개의 답안을 생성해 분석했다. 흥미롭게도 어려운 문제일수록 더 많은 토큰을 사용하는 경향을 보였지만, 동일한 문제 내에서는 정답이 오답보다 더 짧은 추론 과정을 거치는 것으로 나타났다. 예를 들어, LN-Super-49B 모델의 경우 쉬운 문제에서 정답은 평균 5,300개 토큰을 사용한 반면 오답은 11,100개 토큰을 사용했다.

짧은 추론 데이터로 훈련하면 성능도 향상

연구진은 추가로 콰인-2.5-32B(Qwen-2.5-32B) 모델을 짧은 추론, 긴 추론, 무작위 추론 데이터로 각각 파인튜닝했다. 그 결과 짧은 추론 데이터로 훈련한 모델이 다른 두 모델보다 더 나은 성능을 보였다. S1-short 모델은 S1-random 모델 대비 2.8% 높은 정확도를 달성하면서도 추론 토큰을 5.8% 적게 사용했다. 반면 긴 추론 데이터로 훈련한 S1-long 모델은 더 많은 토큰을 소모했지만 성능 향상은 미미했다. 이는 훈련 단계에서부터 짧은 추론을 활용하는 것이 효율성과 정확성을 동시에 개선할 수 있음을 시사한다.

병렬 처리 의존성과 메모리 제약이라는 한계점

이번 연구의 short-m@k 방법론은 뛰어난 성과를 보였지만 몇 가지 제약사항도 존재한다. 가장 큰 한계는 배치 디코딩(batch decoding)에 의존한다는 점이다. 이 방법은 여러 추론 과정을 동시에 병렬로 실행해야 하므로, 추론 메모리가 제한된 환경에서는 적용이 어려울 수 있다.

연구진은 병렬 처리 없이도 short-m@k를 사용할 수 있지만, 이 경우 효율성 개선 효과가 줄어든다고 밝혔다. 또한 이번 파인튜닝 실험은 특정 모델(콰인-2.5-32B-인스트럭트)과 데이터셋(S1)에 한정되어 진행됐기 때문에, 다른 모델과 데이터셋에서도 동일한 효과를 보일지는 추가 검증이 필요하다.

FAQ

Q: 왜 짧은 추론이 더 정확한 결과를 낳나요?

A: 연구진은 긴 추론 과정이 오히려 모델을 혼란스럽게 만들고 잘못된 경로로 이끌 수 있다고 분석했습니다. 짧은 추론은 핵심적인 문제 해결 과정에 집중하여 더 직접적이고 정확한 답안을 도출합니다.

Q: short-m@k 방법은 어떤 상황에서 가장 효과적인가요?

A: 이 방법은 특히 연산 자원이 제한된 환경에서 뛰어난 효과를 보입니다. 병렬 처리가 가능한 환경에서 사용할 때 최대 40%의 연산 비용을 절약하면서도 더 높은 정확도를 달성할 수 있습니다.

Q: 이 연구 결과가 실제 AI 서비스에 어떤 영향을 미칠까요?

A: 이 연구는 AI 서비스의 연산 비용을 크게 줄이면서도 성능을 향상시킬 수 있는 방법을 제시합니다. 특히 수학 문제 해결, 코딩, 논리적 추론이 필요한 AI 애플리케이션에서 효율성과 정확성을 동시에 개선할 수 있을 것으로 기대됩니다.


해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
롤 TCG 리프트바운드, T1 우승 기념 컬렉션 공개 (1) 게임메카
대통령배 아마추어 e스포츠 대회, 광주 대표 선발전 모집 게임메카
소프트뱅크, 오픈AI 지분 담보 15조 원 대출 협상 재개…기업 보증 추가 AI matters
구글 탄소배출 1년 새 25% 급증…아마존도 16% 늘었다 (2) AI matters
AI 데이터센터 크루소, 4조 7천억 원 조달 협의…기업가치 46조 원 거론 (1) AI matters
테슬라, 직원 AI 지출 주 31만 원으로 제한…xAI 제품은 예외 AI matters
오픈AI, 미 정부에 지분 5% 제안…66조 원 규모 AI matters
[오늘의 스팀] 새로운 안전지대? 러스트 ‘아파트’ 생겼다 게임메카
소니에 이어, MS도 Xbox에서 실물 디스크 없앤다? 게임메카
[리뷰] 독특한 구성 속 탄탄한 기본기, 에이수스 프로아트 PZ14 IT동아
"10년 타기는 옛 말" 폐차 직전까지 21만km... LPG, 가장 오래 타는 차 (1) 오토헤럴드
현대차·기아, 美 상반기 88만대 돌파... 하이브리드로 역대급 기록 (1) 오토헤럴드
트럼프, USMCA 연장 거부 '자동차 원산지 규정 강화 가능성' 오토헤럴드
"브레이크 페달 없는 테슬라 나온다" 美 자율주행 규제 대수술 오토헤럴드
기아, 해양 폐플라스틱 EV3 트렁크 매트로 재탄생…오션클린업 협력 확대 오토헤럴드
[EV 트렌드] 'EV9·아이오닉 9 정조준' 테슬라 모델 Y L 미국 판매 시작 오토헤럴드
지커, 유럽서 EREV 카드 '들썩' 전기차 시장 둔화에 전략 수정 오토헤럴드
테슬라 독주·BYD 돌풍…6월 수입차 시장 판도 바꾼 전기차 50% 돌파 오토헤럴드
스텔란티스코리아, 개소세 인하 종료 대응 지프·푸조 7월 특별 프로모션 전개 글로벌오토뉴스
가상 세계에서 태어나는 자동차, 현대차 남양연구소 AMS동을 가다 (1) 글로벌오토뉴스
이 시간 HOT 댓글!
1/4