구글(Google) 딥마인드(DeepMind) 연구팀이 대형 AI 모델의 크기를 대폭 줄이면서도 성능 손실을 최소화하는 새 양자화(quantization) 기술 '터보퀀트(TurboQuant)'를 공개했다. 더뉴런(The Neuron)이 3월 25일(현지 시각) 보도한 바에 따르면, 터보퀀트는 기존 양자화 기법 대비 최대 2배 빠른 추론 속도를 달성하면서 모델의 응답 정확도 저하를 2% 이내로 제한하는 데 성공했다.
AI 모델 양자화란 모델 가중치(weight)를 32비트 또는 16비트 부동소수점에서 8비트 혹은 4비트 정수로 변환해 모델 파일 크기와 연산량을 줄이는 기술이다. 기존 양자화 방식은 정밀도 손실로 인한 성능 저하가 뚜렷한 단점이 있었다. 터보퀀트는 레이어별로 최적의 양자화 비트 수를 동적으로 선택하는 '혼합 정밀도(mixed-precision)' 접근법을 통해 이 한계를 극복했다고 구글 측은 설명했다.
실제 적용 결과, 터보퀀트를 적용한 700억 파라미터 모델이 양자화 없는 70억 파라미터 모델과 유사한 메모리를 사용하면서 성능은 훨씬 뛰어난 것으로 나타났다. 이는 고성능 AI를 더 저렴한 하드웨어에서도 구동할 수 있게 해 주는 중요한 진전이다. 구글은 이 기술을 오픈소스로 공개해 제미나이(Gemini)를 포함한 다양한 AI 모델에 적용할 수 있도록 할 계획이다.
AI 모델 경량화 기술은 클라우드 컴퓨팅 비용 절감, 모바일 및 엣지(edge) 기기에서의 AI 구동, 그리고 환경적 측면에서의 에너지 소비 감소 등 다양한 이점을 가져온다. 터보퀀트가 업계 표준으로 자리잡을 경우, AI 서비스 제공 비용이 크게 낮아져 더 많은 기업과 개발자가 고성능 AI 모델에 접근할 수 있는 환경이 조성될 것으로 기대된다.
전문가들은 터보퀀트가 AI 모델 배포 방식에 상당한 영향을 미칠 것으로 전망한다. 특히 온프레미스(on-premise) 환경에서 대형 AI 모델을 운영해야 하는 기업들에게 비용 효율적인 대안을 제공한다는 점에서 의의가 크다. AI 모델의 경량화와 고성능화가 동시에 실현되는 시대가 성큼 다가오고 있다.
자세한 내용은 더뉴런에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
AI Matters 뉴스레터 구독하기








