
구글 딥마인드(Google DeepMind)가 25일(현지 시간) 자사 블로그를 통해, 지금까지 개발한 AI 모델 중 가장 지능적인 AI 모델인 '제미나이 2.5(Gemini 2.5)'를 출시했다고 밝혔다. 첫 번째 2.5 릴리스인 '제미나이 2.5 프로 실험 버전(Gemini 2.5 Pro Experimental)'은 다양한 벤치마크에서 최첨단 성능을 보이며 LM아레나(LMArena) 순위에서 상당한 차이로 1위를 차지했다.
제미나이 2.5 모델은 '사고 모델(thinking model)'로 설계되어 응답하기 전에 생각 과정을 거쳐 더욱 복잡한 문제를 해결할 수 있다. 이를 통해 성능이 향상되고 정확도가 개선되었다. 구글은 오랫동안 강화 학습이나 사고 연쇄 프롬프팅(chain-of-thought prompting)과 같은 기술을 통해 AI를 더 스마트하고 추론 능력이 있게 만드는 방법을 탐구해왔다. 최근에는 첫 번째 사고 모델인 '제미나이 2.0 플래시 씽킹(Gemini 2.0 Flash Thinking)'을 소개했고, 이번 제미나이 2.5에서는 크게 향상된 기본 모델과 개선된 후속 훈련을 결합하여 새로운 수준의 성능을 달성했다.
제미나이 2.5 프로 실험 버전은 복잡한 작업을 위한 구글의 가장 발전된 모델이다. 인간의 선호도를 측정하는 LM아레나 리더보드에서 상당한 차이로 1위를 차지했으며, 이는 고품질 스타일을 갖춘 매우 유능한 모델임을 보여준다. 또한 제미나이 2.5 프로는 일반적인 코딩, 수학 및 과학 벤치마크에서 우수한 추론 및 코드 작성 능력을 보여주고 있다.
제미나이 2.5 프로는 현재 구글 AI 스튜디오(Google AI Studio)와 제미나이 어드밴스드(Gemini Advanced) 사용자를 위한 제미나이 앱에서 사용 가능하며, 곧 버텍스 AI(Vertex AI)에서도 제공될 예정이다. 또한 구글은 앞으로 몇 주 내에 가격을 발표할 예정이며, 이를 통해 사용자들은 대규모 생산 환경에서 더 높은 요율 한도로 2.5 프로를 사용할 수 있게 될 것이다.
제미나이 2.5 프로는 고급 추론이 필요한 다양한 벤치마크에서 최첨단 성능을 보인다. 과반수 투표와 같이 비용을 증가시키는 테스트 시간 기술 없이도, 2.5 프로는 GPQA 및 AIME 2025와 같은 수학 및 과학 벤치마크에서 선두에 있다. 또한 도구 사용 없이도 인간 지식과 추론의 최전선을 포착하기 위해 수백 명의 주제 전문가들이 설계한 데이터셋인 '인류의 마지막 시험(Humanity's Last Exam)'에서 18.8%라는 최첨단 점수를 기록했다.
구글은 코딩 성능에 중점을 두어왔으며, 제미나이 2.5에서는 2.0 버전보다 큰 도약을 이루었다. 2.5 프로는 시각적으로 매력적인 웹 앱과 에이전트 코드 애플리케이션을 만드는 데 탁월하며, 코드 변환 및 편집 능력도 갖추고 있다. 에이전트 코드 평가의 업계 표준인 SWE-Bench Verified에서 제미나이 2.5 프로는 맞춤형 에이전트 설정으로 63.8%의 점수를 기록했다.
제미나이 2.5는 네이티브 멀티모달리티와 긴 컨텍스트 윈도우라는 제미나이 모델의 장점을 기반으로 한다. 2.5 프로는 현재 100만 토큰 컨텍스트 윈도우(곧 200만으로 확장 예정)로 출시되었으며, 이전 세대보다 개선된 강력한 성능을 보인다. 텍스트, 오디오, 이미지, 비디오 및 전체 코드 저장소를 포함한 다양한 정보 소스에서 방대한 데이터셋을 이해하고 복잡한 문제를 처리할 수 있다.
개발자와 기업은 구글 AI 스튜디오에서 제미나이 2.5 프로 실험을 시작할 수 있으며, 제미나이 어드밴스드 사용자는 데스크톱과 모바일의 모델 드롭다운에서 이를 선택할 수 있다. 앞으로 몇 주 내에 버텍스 AI에서도 사용할 수 있게 될 예정이다.
해당 기사의 원문은 링크에서 사용할 수 있다.
이미지 출처: 구글
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기