알리바바, 12만 토큰 고맥락 거대 문서도 척척 이해하는 AI '큐원롱-L1' 공개... “오픈AI o3-mini 성능 뛰어넘어” : 다나와 DPG는 내맘을 디피지

QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

기존 AI 모델들이 긴 문서에서 겪던 학습 효율성 저하와 불안정성 문제

알리바바 통이랩(Tongyi Lab)이 강화학습을 통해 장문 맥락에서의 추론 능력을 크게 향상시킨 대형 추론 모델 '큐원롱-L1(QwenLong-L1)'을 발표했다. 이 모델은 기존의 단문 맥락 추론에 최적화된 모델들과 달리, 12만 토큰 규모의 긴 문서에서도 안정적인 추론 성능을 보여준다.

큐원롱-L1은 기존 대형 추론 모델(LRM)들이 갖고 있던 근본적인 한계를 해결했다. 기존 모델들은 주로 4천 토큰 내외의 짧은 텍스트에서는 뛰어난 성능을 보였지만, 긴 문서를 처리할 때는 학습 효율성 저하와 최적화 과정의 불안정성이라는 문제에 직면했다. 연구팀은 이러한 문제를 체계적으로 분석하고 해결책을 제시했다.

2만→6만 토큰 단계적 확장과 난이도별 샘플링으로 안정성 확보

큐원롱-L1의 핵심 혁신은 점진적 맥락 확장(Progressive Context Scaling) 전략이다. 이 방법은 짧은 맥락에서 시작해 단계적으로 긴 맥락으로 확장하는 커리큘럼 기반 학습을 적용한다. 구체적으로 1단계에서는 2만 토큰, 2단계에서는 6만 토큰으로 점진적으로 입력 길이를 늘려가며 모델을 훈련시킨다.

또한 난이도 인식 회고적 샘플링(Difficulty-Aware Retrospective Sampling) 기법을 도입해 이전 단계의 어려운 문제들을 다음 단계 훈련에 포함시켜 모델의 탐색 능력을 향상시켰다. 이는 평균 보상이 낮은 문제들을 우선적으로 선별해 다시 학습에 활용하는 방식으로 구현된다.

규칙 기반 검증+AI 판정자 결합으로 정확성과 유연성 동시 달성

기존의 수학이나 코딩 문제에서 사용되던 규칙 기반 보상 시스템은 정확한 답 매칭에만 의존해 다양한 답변 형태를 인정하지 못하는 한계가 있었다. 큐원롱-L1은 이를 해결하기 위해 규칙 기반 검증과 LLM 판정자(LLM-as-a-Judge)를 결합한 하이브리드 보상 메커니즘을 개발했다.

규칙 기반 검증은 정확한 문자열 매칭을 통해 정밀도를 보장하고, LLM 판정자는 의미적 동등성을 평가해 다양한 표현 방식의 정답을 인정한다. 최종 보상은 두 방식 중 높은 점수를 선택하는 방식으로 결정되어, 정확성과 유연성을 모두 확보했다.

7개 벤치마크 평균 70.7점 달성... 오픈AI o3-mini(70.4점) 앞서

연구팀은 문서 질의응답을 중심으로 한 7개의 장문 맥락 추론 벤치마크에서 큐원롱-L1의 성능을 평가했다. 그 결과 큐원롱-L1-32B 모델은 평균 70.7점을 기록해 오픈AI의 o3-mini(70.4점), 큐원3-235B-A22B(70.6점)를 뛰어넘었으며, 클로드-3.7-소네트-씽킹(70.7점)과 동등한 성능을 보였다. 특히 DocMath에서 67.5점, 2WikimQA에서 90.5점, HotpotQA에서 83.0점을 기록하며 수학적 추론과 다중 홉 추론 모두에서 우수한 성능을 입증했다. 또한 Pass@K 평가에서도 적은 샘플 수로도 높은 성능을 달성해 테스트 시점 확장성도 확인했다.

RL 훈련으로 4가지 핵심 추론 행동 패턴 강화...그라운딩 행동 9.17회로 최다

큐원롱-L1의 가장 흥미로운 발견 중 하나는 강화학습 훈련 과정에서 AI 모델의 '생각하는 방식'이 어떻게 진화하는지를 관찰한 것이다. 연구팀은 4가지 핵심 추론 행동 패턴을 추적했다. 장문 맥락에서 가장 중요한 '그라운딩(Grounding)' 행동은 모델이 긴 문서에서 관련 정보를 찾아 인용하는 능력으로, 훈련 후 평균 9.17회로 가장 높은 빈도를 보였다. 이는 "제공된 텍스트에서 관련 정보를 찾아보겠습니다"와 같은 표현으로 나타난다.

'백트래킹(Backtracking)' 행동은 모델이 자신의 오류를 인식하고 접근 방식을 수정하는 능력으로 3.33회, '검증(Verification)' 행동은 예측한 답변의 정확성을 체계적으로 확인하는 과정으로 2.90회 관찰됐다. '서브골 설정(Subgoal Setting)'은 복잡한 문제를 관리 가능한 하위 목표로 분해하는 능력으로 4.79회 나타났다. 흥미롭게도 지도학습(SFT) 모델도 이러한 추론 행동들을 보였지만, 실제 성능 향상으로는 이어지지 않았다. 연구팀은 이를 "SFT는 표면적인 패턴 모방에 그치지만, RL은 실질적인 추론 능력 개발로 이어진다"고 분석했다.

FAQ

Q: 큐원롱-L1이 기존 AI 모델과 다른 점은 무엇인가요?

A: 큐원롱-L1은 12만 토큰 규모의 긴 문서에서도 안정적인 추론이 가능한 최초의 장문 맥락 전용 강화학습 모델입니다. 기존 모델들이 짧은 텍스트에만 특화되어 있던 것과 달리, 점진적 맥락 확장 방식을 통해 긴 문서 처리 능력을 확보했습니다.

Q: 하이브리드 보상 시스템이 왜 중요한가요?

A: 기존의 규칙 기반 시스템은 정확한 문자 일치만 인정해 다양한 정답 표현을 놓칠 수 있습니다. 하이브리드 시스템은 정확한 매칭과 의미 기반 평가를 결합해 정확성은 유지하면서도 답변의 다양성을 인정합니다.

Q: 이 기술이 실제로 어떤 분야에 활용될 수 있나요?

A: 긴 문서 분석이 필요한 법률, 금융, 학술 연구 분야에서 활용 가능합니다. 특히 복잡한 계약서 분석, 재무제표 해석, 연구논문 요약 등 정보 집약적 환경에서의 의사결정 지원에 유용합니다.

해당 기사에 인용한 논문 원문은 링크에서 확인 가능하다.

이미지 출처: QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

이미지 출처: 이디오그램 생성

AI Matters 뉴스레터 구독하기

“AI가 가짜뉴스 잡는다”… X, 커뮤니티 노트에 AI 챗봇 투입 (1)	AI matters
아마존, 창고 로봇 누적 100만 대 배치… AI 모델로 창고 자율주행 10% 향상	AI matters
플리토와 협력 나선 퓨리오사AI, AI 반도체는 왜 언어 데이터가 필요할까?	IT동아
세컨드팀, "슈퍼코더, AI가 면접관이 되는 시대 연다”	IT동아
'챗GPT는 제 고객관리의 핵심이예요' LLM, 성인 산업의 판도를 바꾸다	다나와
애플, ‘개인화 시리’ 자체 개발 한계로 오픈AI·앤트로픽과 제휴 검토	다나와
'지금 자판기 쪽으로 와. 내가 진짜라는 걸 보여주지' AI의 웃기지만 섬뜩한 '착각'	다나와
KRDS 준수해야 하는 공공 웹, AI 기반 검증 기술에도 ‘주목’	IT동아
구글, 가상 착장 앱 ‘도플’ 출시… “스타일 탐색을 더 쉽게” (2)	다나와
퓨리오사AI NPU 도입 앞둔 딥노이드, "운영비용 최적화·서비스 응용에 기대"	IT동아
작곡 AI 수노, 편집 기능 강화 위해 ‘웨이브툴’ 인수… 음반사와 법적 분쟁은 지속	AI matters
스플렁크, AI 시대 데이터 관리 강조…“데이터 연합 전략이 대안”	IT동아
[생성AI길라잡이] 구글 제미나이로 '고품질 음식 사진' 생성하기	IT동아
테슬라 로보택시, 출시 초반부터 사고 속출	다나와
넥스트라이즈 2025, 우주/방산/콘텐츠 부문 AI 스타트업 '눈길'	IT동아
AI 무인 회수기, 페트병·캔 재활용으로 포인트 적립까지…선순환 효과 ‘톡톡’	IT동아
“형태보다 판단력이 중요하다" FCA, AI 금융 규제 패러다임 개혁 요구 (1)	다나와
리벨리온, SKT와 함께 AI 서비스 구현 나서··· '핵심은 AI 주권 확보'	IT동아
AI 챗봇 또타24, 서울지하철 민원 접수 간단하고 빠르게 (4)	IT동아
구글 AI 검색, 영국 경쟁당국 조사 착수…“시장 왜곡 우려”	다나와
업스테이지·퓨리오사AI 맞손, '국산NPU에 국산 LLM 올린다'	IT동아
과기정통부·중기부 장관에 ‘AI 전문가’ 전면 배치… “국가 디지털 전략 가속화”	다나와
美 유통업계 '도난 피해' 연 57조에 달해....해결 위해 프랑스 AI 나선다 (3)	다나와
BBC, AI 스타트업 '퍼플렉시티'에 '무단 콘텐츠 사용'에 따른 법적 조치 경고	다나와
"너 말투, ChatGPT 같아"…AI가 우리의 말하는 방식을 바꾸고 있다 (6)	다나와
인고의 시간 거친 티맥스 ANC, 슈퍼앱 '가이아'에 사활 걸어 (1)	IT동아
공공 AI의 주축으로 떠오른 '소버린 AI', 해외 주요 국가 동향은	IT동아
MS, 수천명 추가 감원…AI 집중 전략 위한 조직 재편 (1)	다나와
애플, 검색 패권 흔든다. Perplexity 인수 검토로 본 전략 전환	다나와
"AI 투자 3배 늘리는데 인재는 홀대"... 액센추어가 경고한 기업 회복력의 함정	AI matters
아마존·구글·MS 324조 원 쏟아부었다... 'AI 인프라 전쟁' 분석 보고서	AI matters
파일럿부터 전면 도입까지… AI로 생산성 7.8% 높인 기업들의 성공 공식	AI matters
터치스크린 고장부터 튀김기 오류까지… 전 세계 패스트푸드 매장의 AI 활용법	AI matters
국민 3명 중 2명 “AI 서비스, 삶에 긍정적 영향”… 60대 이상은 거리감 여전 (1)	AI matters
에이전틱 AI가 바꾸는 4가지 비즈니스 혁신… 내가 놓친 업무 조각 찾아낸다	AI matters
데이터 분석 1위, 콘텐츠 제작 2위... MZ 직장인이 AI 사용하는 방법	AI matters
오픈AI, 기업 대상 챗GPT 할인 나서… MS와의 관계 악영향 때문? (1)	AI matters
中 AI 아바타, 라이브 커머스서 7시간 만에 76억원 매출… 인간 인플루언서 압도 (3)	AI matters
알리바바 클라우드, 한국에 두 번째 데이터센터 개설… “AI 수요 급증에 대비”	AI matters
애플, AI로 자체 칩 설계 가속화... "설계 속도 대폭 향상 기대"	AI matters
어도비, 핀터레스트와 개인화 AI 스타일 분석 '스타일 리딩' 체험 선보여	AI matters
하정우 AI수석 첫 브리핑… “AI 골든타임 3~5년… 이공계 인재 육성 책무 강화할 것”	AI matters
엔비디아, AI 스타트업 투자 광폭 확대… 2년간 80곳 이상 (1)	AI matters
[생성 AI 길라잡이] 바짝 앞으로 다가온 6G 시대, AI가 핵심? (1)	IT동아
인공지능 공세에 '애플 프리미엄' 가치 위협 받는다	IT동아
‘다크웹 전문가’ S2W, 사이버 범죄 AI 추적 기술 세계로	IT동아
영국 환경청, AI 데이터센터 급증에 "물 부족 위기 경고" (2)	다나와
OpenAI, 미 국방부와 2억 달러 초대형 계약 체결	다나와
라틴아메리카 최초의 AI 언어 모델 ‘Latam-GPT’, 2025년 출시 예정	다나와
메타, 오클리·프라다와 손잡고 AI 스마트 글라스 확장…패션 브랜드 협업 본격화 (3)	다나와
AI와 실사 촬영의 만남, 단편 영화 ‘ANCESTRA’	다나와
일반인이 AI로 법률문제 해결한다? 변호사 63% “위험하다” (5)	AI matters
빅테크가 'AI' 기술 깎을 때, 세일즈포스는 '도입 가능성'에 집중했다	IT동아
최신 AI 에이전트도 현실 업무 성공률 58%... 기밀 유지 성능은 0% 수준 (1)	AI matters
시청·병원·학교까지 AI 바람... 공공기관 94% AI 활용하지만 ‘보안’은 엉망	AI matters
챗GPT 많이 쓸수록 멍청해진다? MIT의 실험 결과 충격 (1)	AI matters
속도냐 안전이냐, AI 기업들의 딜레마… 절반이 '빠른 출시' 택했다	AI matters
中, 챗GPT·메타 AI 군에 투입... “군사정보 전 과정 자동화 시도” (1)	AI matters
"AI만으로 상업 포스터 완성" 바이트댄스, 풀스택 편집 가능한 디자인 시스템 공개	AI matters
AI 규제 완화냐 vs. 연구비 삭감이냐, 트럼프 2기 AI 정책 동향 분석	AI matters
과기정통부, 국내 AI 스타트업 8곳 해외 실증 지원… 6개국서 사업 실증	AI matters
英, 세계 최초 AI 기반 로펌 공식 승인… 법률 서비스 혁신 신호탄	AI matters
AI 코딩 툴 ‘커서’, 월 200달러 ‘울트라 요금제’ 출시… 기업 고객 공략 가속화 (1)	AI matters
샘 알트만, "메타, 오픈AI 인재 영입 위해 1억 달러 제안했지만 실패"	AI matters
G7, AI·핵심 광물·퀀텀 등 6대 글로벌 협정 채택 (1)	다나와
오픈AI, 美 국방부와 최대 2억 달러 계약… MS-정부 사업과 충돌 우려 (1)	AI matters
韓 기업 AI 도입 현주소는?...“인재·데이터 확보가 고민” (1)	IT동아
오픈AI도 한다, 美 정부용 ‘OpenAI for Government’ 공식 출범 (1)	AI matters
어도비, '파이어 플라이' 모바일 앱 출시… 이동 중 작업 가능해진다 (1)	AI matters
아마존 CEO "AI 도입으로 인력 감축 불가피"... 사무직 인력 줄인다 (2)	AI matters
메타, AI 스마트 글래스 오클리·프라다로 출시한다 (1)	AI matters
[기고] AI와 미래 산업기술 - 4. AI 시대, 세상을 바꾸는 산업 기술 전문가의 미래	IT동아
AI, 전 인류 위협할 수 있다 (6)	다나와
DISCO, 유럽 시장 공략 본격화…생성 AI로 법률 문서 검토 서비스 시작	다나와
Adobe, AI 기반 웹·모바일 트래픽 분석 툴 발표…마케팅 자동화에 속도	다나와
'AI에 의한 대규모 재난 미리 방지한다' 뉴욕주, AI 재앙 방지 위한 'RAISE 법안' 통과	다나와
'명화 복원도 이제 AI로 하세요' 전문가의 수작업보다 최대 66배 빨라 (4)	다나와
ABBA의 뵈른 울바에우스, AI로 새로운 뮤지컬 작업 중… “AI는 환상적인 도구이자 창작 파트너”	다나와
마텔, 오픈AI와 손잡고 AI 기반 장난감 개발…올해 첫 출시 예정	다나와
“클릭없는 세상 올 것” — 웹을 장악하는 새로운 'AI 검색 봇'	다나와
ChatGPT 최신 모델이 47년 전 아타리 체스 엔진에 완패	다나와
Meta, Scale AI에 대규모 투자 검토… 기존 파트너십 균열 조짐	다나와
‘통합검색을 통합 에이전트로’, 네이버 키워드·생성 AI 검색 두마리 토끼 잡을까	IT동아
[생성 AI 길라잡이] 8년간 공방 ‘로톡 사태’ 계기로 마련된 후속조치 살펴보니	IT동아
'영상 편집이 이렇게 쉽다고?' 메타, 생성형 AI 기반 영상 편집 기능 출시 (3)	다나와
현대백화점, 외국인 고객 위한 AI 쇼핑 어시스턴트 '헤이디' 출시한다	다나와
OpenAI, 차세대 지능형 모델 ‘o3-pro’ 출시… ChatGPT 유료 이용자 대상 제공 시작	다나와
아마존, 광고주 위해 비디오 생성기 등 AI 광고 도구 발표 (1)	다나와
ChatGPT 성장에 힘입어 오픈AI, 연간 반복 매출 100억 달러 돌파...'2029년 매출 4배 목표' (2)	다나와
구글, 제미나이 앱에 ‘예약 작업’ 기능 도입…AI 비서 전쟁 본격화 (1)	다나와
AI가 만든 아이스크림에 맞춤형 서비스까지···배스킨라빈스 청담점 가보니 (3)	IT동아
2025 대한민국 AI 50 발표…포티투닷·뷰노·스트라드비젼 등 혁신 주역 부상 (1)	다나와
일런 머스크, 오랜 숙원인 '로보택시' 서비스 드디어 출시...이번엔 진짜 '완전자율주행'? (1)	다나와
美 정부 백신 홈페이지, 해킹으로 인해 AI 생성 스팸 콘텐츠로 도배 (1)	AI matters
위키피디아, AI 자동 요약 실험 중단… 편집자들의 강력 반발 영향	AI matters
디즈니·유니버설, AI 이미지 생성 플랫폼 ‘미드저니’ 고소…“무단 저작물 활용” (1)	AI matters
사람처럼 행동 전 생각... 메타 AI 모델 ‘V-JEPA 2’ 공개 "로봇에 적용한다면?"	AI matters
前 오픈AI 연구원 “챗GPT, 생명 위협 상황에서도 종료 거부”	AI matters
美 정부가 선택할 정도의 보안 성능, 앤트로픽 '클로드 Gov' 배포	AI matters
데이터 유출 54% 폰에서 발생…기업용 안드로이드에 AI 보안·협업 기능 강화	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

알리바바, 12만 토큰 고맥락 거대 문서도 척척 이해하는 AI '큐원롱-L1' 공개... “오픈AI o3-mini 성능 뛰어넘어”

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

알리바바, 12만 토큰 고맥락 거대 문서도 척척 이해하는 AI '큐원롱-L1' 공개... “오픈AI o3-mini 성능 뛰어넘어”

공유하기

공감/비공감