
알리바바의 Qwen 팀은 24일(현지 시간) 자사 블로그를 통해 새로운 시각-언어 모델인 Qwen2.5-VL-32B-Instruct를 오픈소스로 공개했다. 이 모델은 기존 Qwen2.5-VL 시리즈의 최적화 버전으로, 인간 선호도에 더 부합하는 응답과 수학적 추론 능력, 세밀한 이미지 이해 및 추론 기능을 크게 향상시켰다.
Qwen 팀이 공개한 정보에 따르면, 이번에 출시된 Qwen2.5-VL-32B는 강화학습을 통해 출력 스타일을 조정하여 더 상세하고 형식이 개선된 응답을 제공한다. 이는 사용자들이 선호하는 응답 방식에 더 가깝게 설계되었다는 점이 특징이다. 모델은 특히 복잡한 수학 문제 해결 정확도를 크게 개선했으며, 이미지 파싱, 콘텐츠 인식, 시각적 논리 추론과 같은 작업에서 향상된 정확성과 상세 분석 능력을 보여준다.
Qwen2.5-VL-32B-Instruct는 유사한 규모의 최신 모델들, 예를 들어 미스트랄 스몰-3.1-24B(Mistral-Small-3.1-24B)와 젬마-3-27B-IT(Gemma-3-27B-IT)와 같은 기준 모델들을 능가하는 성능을 보여주었다. 심지어 더 큰 규모의 Qwen2-VL-72B-Instruct도 뛰어넘는 성과를 달성했다. 특히 MMMU, MMMU-Pro, MathVista와 같은 복잡한 다단계 추론에 중점을 둔 멀티모달 작업에서 상당한 이점을 보여주었다. 주관적인 사용자 경험 평가를 강조하는 MM-MT-Bench 벤치마크에서 Qwen2.5-VL-32B-Instruct는 기존의 Qwen2-VL-72B-Instruct보다 상당한 차이로 앞서는 성능을 보였다.
이미지 이해 능력 외에도, Qwen2.5-VL-32B-Instruct는 순수 텍스트 처리 능력에서도 같은 규모에서 최고 수준의 성능을 달성했다.
Qwen 팀은 모델의 능력을 시연하기 위한 사례로 교통 상황에서의 추론 문제를 공개했다. 이 사례에서는 사용자가 대형 트럭을 운전하며 시속 제한이 100km인 도로에서 12시에 출발하여 110km 떨어진 곳에 13시 전에 도착할 수 있는지를 질문했다. 모델은 이에 대해 단계별 분석을 통해 필요한 이동 시간을 계산했다. 거리 110km를 최대 속도 100km/h로 이동할 경우 1.1시간이 소요되며, 이는 1시간 6분에 해당한다. 따라서 12시에 출발하면 도착 시간은 13시 6분이 되어, 13시 전에 도착하는 것은 불가능하다는 결론을 정확히 도출했다.
Qwen 팀은 공식 블로그를 통해 "Qwen2.5-VL-32B가 '빠른 사고' 패러다임 내에서 강화학습을 통해 주관적 경험과 수학적 추론을 최적화하는 데 중점을 두었다면, 다음 연구 방향은 길고 효과적인 추론 과정을 우선시하여 고도로 복잡한 다단계 시각적 추론 작업에서 시각 모델의 한계를 뛰어넘는 것이 될 것"이라고 밝혔다.
해당 기사의 원문은 링크에서 사용할 수 있다.
이미지 출처: 큐웬
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기