[IT동아 남시현 기자] AI 반도체 제조사 리벨리온이 AI 추론 최적화 기술기업 ‘스퀴즈비츠(SqueezeBits)’를 인수한다. 리벨리온은 AI 추론에 필요한 서버용 반도체 및 서버용 신경망 처리 장치(NPU) 양산에 돌입했으며, 스퀴즈비츠의 AI 모델 양자화 및 추론 서빙 기술, 추론 최적화 오픈소스 vLLM 생태계 지원 등 전방위적인 분야에서 2년 이상 긴밀히 협력해 왔다. 리벨리온이 스퀴즈비츠를 인수함에 따라 앞으로 리벨리온의 NPU 기반 오픈소스 생태계 지원 및 소프트웨어 역량은 한층 더 견고해질 전망이다.
박성현 리벨리온 대표는 “기술적 역량과 훌륭한 인재들이 개별 기업의 경계를 넘어 결집할 때 한국의 AI 인프라 생태계가 새로운 가능성을 만들어낸다고 믿는다”라며 “리벨리온과 스퀴즈비츠의 협력으로 하드웨어, 소프트웨어, 그리고 서버 시스템 수준의 대규모 AI 인프라를 아우르는 AI 반도체 기업으로 거듭나 전 세계 시장에서 실력을 증명하겠다”라고 밝혔다.
스퀴즈비츠, AI 모델 양자화 및 기술 기업으로 잘 알려져
스퀴즈비츠는 일반인 입장에서는 생소한 AI 기업이지만 AI 하드웨어 및 소프트웨어, 오픈소스 생태계 전문가들 사이에서는 실력 있는 기술 기업으로 통한다. 스퀴즈비츠는 2022년 김형준 대표와 서울대, 포항공대, 한국과학기술원 출신 AI 연구진과 관련 전문가들이 모여 구성됐다. 사업 영역은 AI 서비스 비용 절감을 위한 AI 모델 경량화 및 최적화 부문으로 쉽게 말해 기업의 AI 구동 속도는 높이고 운영 비용을 낮추기 위한 기술을 제공한다.
핵심 기술은 AI 연산 정밀도를 저정밀도로 변환해 모델의 크기와 메모리 사용량은 줄이면서 성능은 최대한 유지하는 모델 양자화, 특정 칩에 종속되지 않고 다양한 AI 가속기 및 온디바이스 AI를 동작 환경에 최적화하는 풀스택 최적화 기술을 제공한다. 서비스로는 서비스형 소프트웨어(SaaS) 기반으로 AI 모델 경량화를 지원하는 아울라이트, 특정 AI 가속기에 맞는 맞춤형 서빙 및 배포 환경, 시나리오 등을 찾아 LLM 효율을 극대화하는 핏츠온 칩스, 독자적인 양자화 및 최적화 기술을 담은 생성형 AI 추론 엔진 예터(Yetter) 등이 있다.
스퀴즈비츠는 지난해 네이버, 한국과학기술원과 함께 인텔의 AI 가속기에서 대형언어모델을 효율적으로 구동하도록 모델 경량화 및 추론 최적화 기술을 공동 개발한 바 있으며, 엔비디아의 스타트업 지원 프로그램인 엔비디아 인셉션에 선정돼 본사 개발팀과의 기술 협력 및 기술 검증 등도 거친 바 있다. 올해 4월에는 미국 AI 인프라 기업 모듈라와 전략적 업무협약을 체결해 글로벌 AI 추론 시장에서도 목소리를 내기 시작했다.
2025년 vLLM 밋업으로 인연··· 하드웨어·생태계 지원에 광범위한 협력
리벨리온과의 인연은 지난해 8월 개최된 국내 최초의 vLLM 코리아 밋업에서 시작됐다. vLLM은 오픈소스 기반의 LLM 추론 및 서빙 엔진으로 엔비디아 GPU를 비롯한 다양한 AI 반도체에서 LLM을 처리하기 위한 인프라 표준이다. vLLM을 이용하면 동시에 대화를 연속적으로 처리할 수 있어 인프라 비용을 크게 절감하는 것은 물론 코드 몇 줄만 변경해도 오픈AI GPT, 메타 라마 3, 딥시크 등과 호환된다.
소프트웨어 지원 측면에서는 엔비디아 쿠다 뿐만 아니라 AMD ROCm, 인텔 가우디, 리벨리온 NPU 등에서도 사용할 수 있다. 즉 리벨리온 NPU로 LLM을 효율적으로 서비스할 수 있고, vLLM으로 LLM을 다루는 글로벌 AI 기업들이 엔비디아 제품을 쓰듯 리벨리온 칩을 활용하도록 vLLM 생태계 지원에 나선 것이다. 리벨리온과 레드햇이 지난해 파이토치 한국 사용자모임을 대상으로 국내 첫 vLLM 밋업을 개최한 배경이다. 당시 밋업에서는 vLLM 생태계의 주축인 레드햇의 기술 개요 및 협력 방안, 리벨리온의 vLLM 지원 노력 등이 발표됐다. 이때 행사를 파이토치 한국사용자모임과 스퀴즈비츠가 함께 기획했었다.
아울러 국내 AI 개발자들이 리벨리온 NPU를 쉽게 써볼 수 있도록 ‘vLLM 핸즈온 워크숍’ 등의 실습 프로그램도 공동 운영했다. 현재 대다수 NPU는 클라우드 기업들이 서버를 설치하고 고객 기업들이 인스턴스를 임대하는 형태로 활용한다. NPU가 기존 엔비디아 쿠다 생태계와는 달라 새롭게 학습이 필요하고 회사의 활용 환경에서 적합할지 시험해야 한다. 일반적인 개발자 입장에서는 이런 시험과정 자체를 구성하기가 쉽지않다.NPU 기업도 개발자들이 직접 NPU를 운용할 수 있도록 지침을 제공하지만 이론과 실전 수준의 차이가 난다.
그래서 리벨리온 엔지니어들과 스퀴즈비츠가 직접 별도의 워크숍을 운용해 리벨리온 NPU에서 vLLM을 활용하고 궁금증을 해결하는 자리를 마련했던 것이다. 워크숍에는 단순히 AI 개발자 뿐만 아니라 개발 경력이 있으면서 차세대 AI 반도체에 관심이 많은 직장인 개발자들이 대거 참여했고, 이를 통해 국내 AI 생태계에 직접적으로 체험 기회를 제공할 수 있었다. vLLM 밋업은 올해 4월에도 개최됐으며, 핸즈온 워크숍 역시 여러 차례 개최됐다.
리벨리온과 스퀴즈비츠의 협업, 어떻게 도움 될까?
AI 반도체 기업과 AI 양자화 기업간의 시너지는 뚜렷하다. 쉽게 말해 하드웨어 성능을 끌어올릴 수 있는 가장 좋은 선택지다. 업계 선두주자인 엔비디아는 AI 모델 자동 압축 및 컴파일러 최적화 기술을 보유한 데시AI, 온디바이스 AI 및 엣지 디바이스용 모델 경량화 기술을 보유한 옴니ML을 인수해 엔비디아 GPU에서 AI 모델 경량화를 지원 중이다.
4비트 이하 초저정밀도 양자화 분야에서도 네덜란드의 IoT, 차량용 반도체 기업 NXP와 미국의 엣지 AI 기업 시냅틱스, 미국 브로드컴, 퀄컴 등도 국내 기업인 에너자이와 AI 모델 양자화 협력을 맺는 등 AI 반도체 기업들과 모델 양자화 기업 간의 기술 지원은 전 세계적으로 활발한 상황이다.
리벨리온이 스퀴즈비츠를 인수한 것도 쉽게 말해 NPU 고객사가 AI 모델을 더 많이, 더 효율적으로 구동할 수 있도록 하기 위함이다. 리벨리온의 주력 반도체는 AI 모델을 구축하는 학습보다는 AI 모델을 운용하는 추론 용도다. 엔비디아 칩은 학습과 추론 작업에 모두 적합하고 표준 생태계라 할 만큼 작업 효율 등도 우수하다. 하지만 단가가 비싸고 추론에 활용하기엔 전력 효율 등도 떨어진다. 그래서 AI 모델 구축은 엔비디아 GPU로 진행하고, 만들어진 AI 모델은 NPU로 추론하는 조합이 제안된다.
리벨리온은 오픈소스 프레임워크를 기반으로 소프트웨어 지원 생태계를 구축 중이며, 파이토치, 텐서플로 등 다양한 머신러닝 프레임워크에서 작성된 모델을 조율 작업 없이 바로 활용할 수 있도록 구축 중이다. 이 과정에서 스퀴즈비츠는 리벨리온 NPU를 기반으로 모델 경량화 기술 및 전용 소프트웨어를 공동 개발해 왔다. 스퀴즈비츠가 리벨리온에 합류함에 따라 앞으로 더 강력한 모델 양자화와 AI 모델 최적화 등이 기대되며, 제품 경쟁력 강화를 통해 사업성이 더욱 좋아질 전망이다.
김형준 스퀴즈비츠 대표는 “짧은 것 같으면서도 길었던 지난 여정 동안 스퀴즈비츠를 더 단단하고 빛나는 팀으로 만들어주신 팀원들, 언제나 믿고 지지해준 네이버 D2SF, 포항공과대학교 기술지주, 카카오벤처스, 삼성 넥스트, 포스코기술투자, 고객사와 파트너 분들께도 감사드린다. 앞으로 박성현 리벨리온 대표와 함께 더 큰 미션을 향해 달려가겠다”라고 말했다.
IT동아 남시현 기자 (sh@itdonga.com)








