구글(Google)이 5일(현지시간) 시각과 언어를 함께 처리할 수 있는 AI 모델 '팔리젬마2(PaliGemma 2)'를 공개했다. 구글 개발자 블로그에 따르면, 팔리젬마2는 지난 5월 출시된 젬마(Gemma) 제품군의 첫 번째 시각-언어 모델인 팔리젬마의 후속 버전이다. 구글은 "고급 시각 AI를 더욱 접근하기 쉽게 만들기 위한 중요한 진전"이라고 설명했다.
팔리젬마2는 젬마2 모델을 기반으로 시각적 능력을 추가했다. 3가지 모델 크기(3B, 10B, 28B 파라미터)와 3가지 해상도(224px, 448px, 896px)를 지원해 작업별 최적화가 가능하다. 이미지 설명 생성 능력이 크게 향상되어 단순한 객체 인식을 넘어 행동, 감정, 전반적인 장면의 맥락까지 상세히 설명할 수 있다. 화학식 인식, 악보 인식, 공간 추론, 흉부 X-ray 리포트 생성 등 새로운 영역에서도 우수한 성능을 보인다.
젬마 제품군은 출시 이후 수만 개의 모델과 응용 프로그램이 개발되며 '젬마버스'라는 생태계를 형성했다. 콜팔리(ColPali)의 시각적 문서 검색 발전, 로보플로우(RoboFlow)의 파인튜닝 기술, 실시간 객체 추적 등의 혁신 사례들이 젬마버스의 가능성을 보여주고 있다.
기존 팔리젬마 사용자들은 대부분의 작업에서 코드 수정 없이 즉각적인 성능 향상을 경험할 수 있다. 또한 특정 작업과 데이터셋에 맞춘 파인튜닝도 쉽게 할 수 있다.
개발자들은 다음과 같은 방법으로 팔리젬마2를 시작할 수 있다:
- 허깅페이스(Hugging Face)와 캐글(Kaggle)에서 사전 학습된 모델과 코드 다운로드
- 포괄적인 문서와 예제 노트북을 통한 학습 및 통합
- 허깅페이스 트랜스포머(Hugging Face Transformers), 케라스(Keras), 파이토치(PyTorch), JAX, 젬마.cpp(Gemma.cpp) 등 선호하는 프레임워크 활용
구글은 팔리젬마2를 통해 개발자들이 더 많은 혁신을 이룰 것으로 기대하며, 젬마 커뮤니티 참여와 젬마버스에서의 프로젝트 공유를 장려하고 있다. 또한 이러한 피드백과 기여가 모델의 미래를 형성하고 AI 분야의 혁신을 주도하는 데 중요하다고 강조했다.
PaliGemma 2에 대한 자세한 사항은 구글에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기