비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI 성능은 그대로, 용량은 더 적게··· 에너자이가 말하는 '극단적 양자화'란

2025.10.22. 18:32:01
조회 수
305
10

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

[IT동아 남시현 기자] 지난 10월 21일, Arm이 글로벌 AI 반도체 파트너사와 산업 생태계 협력을 위한 ‘Arm 언락드 코리아 2025(Arm Unlocked Korea 2025)’를 개최했다. Arm 언락드 코리아는 Arm 테크 심포지아를 계승하는 행사다. 지난 행사까지는 반도체 자산 관련 기술에 주력했으나 앞으로는 AI 리더십과 AI 컴퓨팅 전환이라는 포괄적인 주제를 다룬다. 이는 Arm이 설계 라이선스 제공에만 집중했던 과거의 전략에서 벗어나 데이터센터 및 AI 인프라로 영향력을 확대하고, 직접 칩을 설계하며 시장과 경쟁하고 나서는 전략과 관련있다.

차량·인프라·일반 사용자 분야서 국내외 Arm 파트너사 총출동


지난 10월 21일 열린 Arm 언락드 코리아 2025에서 Arm 기반 장치에 대한 AI 모델 양자화 관련 세션이 진행됐다 / 출처=IT동아
지난 10월 21일 열린 Arm 언락드 코리아 2025에서 Arm 기반 장치에 대한 AI 모델 양자화 관련 세션이 진행됐다 / 출처=IT동아


앞서 4월, Arm은 반도체 시장에 다각적으로 접근하기 위해 서버용 ‘네오버스’만 있던 컴퓨팅 서브 시스템(CSS) 브랜드를 ▲서버용 네오버스 ▲PC용 니바(Niva) ▲자동차용 제나(Zena) ▲사물인터넷용 오르비스(Orbis) ▲모바일용 루멕스(Lumex)로 각각 세분화했다.

이에 따라 Arm 언락드 코리아 역시 ▲ Arm 제나 및 칩렛 아키텍처, 가상 플랫폼 등이 포함된 오토모티브(차량) ▲Arm CSS, 네오버스 CSS, 모듈식 펌웨어, 칩렛 통합 등을 다루는 인프라스트럭처 ▲ Armv9 CPU 및 GPU, SME2, 시스템 등을 다루는 컨슈머 디바이스(일반 사용자용 제품군) 세 개 분야로 나뉘어 진행됐다.


세션은 크게 오토모티브, 인프라스트럭처, 컨슈머 디바이스로 나뉘었고 일반 사용자 장치에 대응하는 컨슈머 디바이스의 참여 비중이 가장 높았다 / 출처=IT동아
세션은 크게 오토모티브, 인프라스트럭처, 컨슈머 디바이스로 나뉘었고 일반 사용자 장치에 대응하는 컨슈머 디바이스의 참여 비중이 가장 높았다 / 출처=IT동아


세션에는 한국지멘스, 케이던스 디자인 시스템즈, LG전자, 시높시스, 삼성전자, KT클라우드 등 대기업은 물론 에이직랜드, 텔레칩스, 스트라드비젼, 코아시아, 가온칩스, 하일로 등의 국내외 Arm 반도체 관련 기업들도 대거 참여했다. 굵직한 반도체 기업들이 참여하는 가운데 스타트업으로는 유일하게 에너자이가 연단에 섰다. 특히 하드웨어 및 반도체 기업이 아닌 소프트웨어 기업이라는 점에서 Arm의 생태계 확대 의지를 엿볼 수 있다.


에너자이는 지난 2022년 ‘Arm AI 파트너 프로그램’에 선정된 AI 모델 양자화 기술 기업이다 / 출처=에너자이
에너자이는 지난 2022년 ‘Arm AI 파트너 프로그램’에 선정된 AI 모델 양자화 기술 기업이다 / 출처=에너자이


에너자이는 말단 통신 장치인 엣지 디바이스나 스마트폰 등에서 자체적으로 AI를 처리할 수 있을 정도로 AI 모델을 압축하는 모델 양자화 기술, AI 추론 최적화 엔진인 옵티미움(Optimium)을 개발 중이다. 대형언어모델(LLM)이나 음성 모델, 번역 모델 등의 활용도가 높아지면서 스마트폰, 노트북 혹은 더 작은 장치에서도 AI를 도입하려는 상황이지만 기기의 성능 제약이 발목을 잡는 상황이다. 대형언어모델로는 작은 편인 메타 Llama 3.1-8B를 구동해도 최신 노트북 수준인 16GB의 시스템 메모리와 12GB 내외의 비디오 메모리가 필요하다.


일반적인 AI 모델은 32비트 규격인데, 소형 장치의 성능 한계에서 원활하게 모델을 구동하려면 용량과 사양을 줄이는 양자화 작업이 필요하다 / 출처=Advances in the Neural Network Quantization: A Comprehensive Review 논문
일반적인 AI 모델은 32비트 규격인데, 소형 장치의 성능 한계에서 원활하게 모델을 구동하려면 용량과 사양을 줄이는 양자화 작업이 필요하다 / 출처=Advances in the Neural Network Quantization: A Comprehensive Review 논문


업계에서는 AI 모델 연산을 처리할 때 정밀한 실수 대신 더 짧은 정수로 변환해 연산량과 용량은 줄이고, 성능은 최대한 유지하는 기술을 개발 중이다. 쉽게 말해 압축 기술이라 할 수 있으며 업계 용어로 ‘모델 양자화’라 부른다. 일반적인 AI 모델은 32비트 부동소수점(float32)으로 제작되며 이를 8비트로 줄이면 메모리 사용량은 약 4배 감소하고, 처리 속도도 2배에서 4배까지 빨라진다.

여기서 더 나아가 2비트 수준으로 양자화하면 28GB인 Llama 3.1 8B AI 모델의 용량은 약 2GB에 메모리는 5~8GB까지 줄어 스마트폰에서도 구동할 수 있다. 모델 성능이 일부 손실되지만 요구 사양과 용량이 대단히 감소한다는 이점이 있다. 4비트 이하부터는 극단적 양자화라 하며, 에너자이는 1.58비트 양자화 알고리즘으로 저출력, 초소형 기기에서도 온전하게 AI 모델이 구동되도록 하는 기술을 개발 중이다.

AI 최적화가 필요한 LG전자, 이를 다루는 에너자이

에너자이는 컨슈머 디바이스 분야 중 ‘다양한 Arm 에코시스템 전반에서 온디바이스 AI의 확장’ 세션에 참여했다. 발표는 LG전자 텔레비전의 운영 체제인 웹OS(webOS)의 AI 시스템 소프트웨어 팀의 우성호 LG전자 연구위원과 이인철 LG전자 팀장, 그리고 장한힘 에너자이 대표가 Arm 시스템온칩(SoC) 기반 LG 스마트 TV에서의 AI 개발 및 배포 과정, 그리고 모델 양자화로 이를 극복할 수 있는 이유 등에 대한 대담을 나눴다.


좌측부터 황지희 Arm 이사, 우성호 LG전자 연구위원, 이인철 LG전자 팀장, 장한힘 에너자이 대표 / 출처=IT동아
좌측부터 황지희 Arm 이사, 우성호 LG전자 연구위원, 이인철 LG전자 팀장, 장한힘 에너자이 대표 / 출처=IT동아


이인철 팀장은 “오늘날 많은 LG 가전에 AI가 통합되고 있다. 소비자들이 필요로 하는 것을 가전이 알아서 구성하고, 더 나아가 선제적으로 제공하는 것을 목표로 한다. 다만 보급형부터 프리미엄까지 기기 성능이 다 다르고, 제한된 사양으로 이를 실현해야 하는 어려움이 있다. 양자화를 통해 AI 모델을 경량화하고 다양한 기기에 공통적으로 적용할 수 있게 최적화할 수 있다”라면서, “웹OS TV만 해도 약 2억 대 이상에 5년 간 업그레이드를 한다. Arm SoC가 장착된 제품은 클라이디AI(KleidiAI)를 활용해 이를 통합적으로 관리할 수 있어 사업상 최적의 효율을 발휘한다”라고 말했다. 클라이디AI는 Arm 기반 장치에서 AI를 구동하고 최적화를 돕는 도구다.

우성호 연구위원도 “고객들이 경험하는 AI는 발전하고, 눈높이는 갈수록 높아진다. 이제 가전에도 2.4B(24억 개 매개변수) 대형언어모델이 구현되고, 품질 손실이 조금 있더라도 더 많은 기능을 제공하는 것이 중요해진다”라고 말했다. 이어서 “어떤 모델은 32비트를 8비트로 바꾸는 것만으로도 성능이 크게 떨어진다. 딱 하나의 기법이나 특정 모델만으로 해결할 수 있는 문제는 아니다. 많은 실험과 시도, 노하우가 중요하다. LG전자 제품의 파이프라인과 에너자이의 경량화 노하우를 결합한다면 상당한 시너지를 낼 것”이라고 진단했다.


장한힘 대표가 에너자이가 양자화를 진행하는 방식, 그리고 옵티미엄 엔진을 활용하는 방안 등을 설명 중이다 / 출처=IT동아
장한힘 대표가 에너자이가 양자화를 진행하는 방식, 그리고 옵티미엄 엔진을 활용하는 방안 등을 설명 중이다 / 출처=IT동아


에너자이는 기기마다 다른 하드웨어 스펙, 그리고 AI 양자화 과정에서 정확도가 손실되는 것을 감안해도 최대한 성능을 보전할 수 있는 접점을 찾는다. 모델 구축 후에 양자화를 진행하는 사후 양자화(PTQ)와 추가적인 학습을 더해 성능을 보전하며 양자화하는 양자화 인지 학습(QAT)을 복합적으로 적용해 최적의 값을 찾는다.

장한힘 대표는 “프로젝트 수행 전 고객의 목표와 요구사항을 설정하고, 무수한 실험을 통해 정확도와 효율성을 도식화한다. PTQ는 개발 비용이나 속도 면에서 좋지만 4비트 정도가 한계다. 그 이하는 QAT로 성능을 확보하며 양자화한다. 에너자이는 QAT 기반으로 1.58비트까지 양자화한다. 비용이나 속도 등을 고려해 향후에는 PTQ 기반 초미세 양자화도 구현하려 한다. 다각적으로 양자화한 결과를 조합하면 성능과 효율의 균형 곡선이 산출돼 이를 기반으로 최적화한다”라고 말했다.


LSTM(긴 단기 기억, Long Short-Term Memory) 기반 딥러닝 모델을 양자화하는 과정을 시연 중인 화면 / 출처=Arm
LSTM(긴 단기 기억, Long Short-Term Memory) 기반 딥러닝 모델을 양자화하는 과정을 시연 중인 화면 / 출처=Arm


에너자이는 고객사 요구에 맞춰 100MB 이내로 동작하는 최적화된 경량 언어 모델을 수백만 대 이상의 디바이스에 상용 배포한 경험도 있고, 옵티미엄을 활용해 특정 SoC에서 AI가 동작할 때 신경망처리장치(NPU) 대신 CPU로 배정해 실시간 성능을 확보하는 작업도 수행했다. 또한 Arm 기반 장치로 구동되는 의료 기기들에서 데이터를 수집해 진단 과정에 참여하는 상용 서비스나 오토모티브용 Arm SoC를 활용한 AI 모델 구현 사례도 확보 중이다.

CPU·GPU·NPU가 AI 분산 작업하는 방안도 소개


우성호 LG전자 연구위원이 NPU, GPU, CPU 관련 자원 배분에 대한 생각을 말하고 있다 / 출처=IT동아
우성호 LG전자 연구위원이 NPU, GPU, CPU 관련 자원 배분에 대한 생각을 말하고 있다 / 출처=IT동아


장한힘 대표는 “하나의 모델을 통째로 배정하는 게 아니라 SoC에 탑재되는 구성 요소에 각각 맞는 작업을 입체적으로 할당하는 식의 접근법도 필요하다. 예를 들어 초소형 SoC로 유튜브를 라이브스트리밍 한다고 할 때, 영상은 CPU로 처리하고 오디오를 텍스트로 전환한 뒤 자막으로 변한하는 과정은 NPU에 할당하는 식으로 할당한다. 이를 통해 최적의 작업을 배정하고 모델 성능과 메모리 효율 간의 최적의 균형을 찾아낼 수 있다”라고 말했다.

우성호 연구위원 역시 “GPU의 AI 처리 성능이 가장 높지만 전력 효율과 단가가 비싸다. 저전력 환경에서는 AI 모델 자체를 효율적으로 구성하거나 NPU 등을 잘 활용하는 게 중요해질 것이다. 현재는 CPU, NPU, GPU의 자원 할당이 정적인 방식으로 진행되지만 추후에는 세 요소가 안정성과 효율성, 가속 등을 복합적으로 운용하도록 발전할 것 같다”라는 의견을 더했다.

극단적 최적화에 비용과 효율 모두 잡는 ‘해답’이 있다

1.58비트 양자화 같은 극단적인 최적화 방안은 엣지 컴퓨터 등 초소형 컴퓨팅 시스템에서 AI를 구현하기 위한 해결책이다. 다르게 말하자면 저성능 컴퓨터에서도 AI를 효율적으로 구동하고, 동일한 시스템 자원에서 더 높은 연산 효율로 AI 성능을 극대화하는 기술이다. 단순히 모델을 압축하는 것 뿐만 아니라 CPU와 NPU, GPU의 처리 효율에 맞게 입체적으로 명령을 할당하고 각기 다른 칩을 모두 충족하는 최적값을 찾아가며 극단적 최적화 기술이 발전하고 있다.

극단적 최적화가 필요한 이유는 AI에 익숙한 사용자들이 모델 성능의 저하를 확실히 체감하기 때문이다. 당장 많은 사용자가 GPT-4와 GPT-5의 격차가 분명하다고 말한다. 과거에는 5년 지난 TV는 그냥 옛날 제품이었지만 AI를 탑재하는 TV라면 시간 흐름에 맞춰 계속 성능이 진화해야만 소비자가 외면하지 않는다.


이번 발표는 Arm 기반 장치에서 AI를 양자화하고, 이를 다양한 조건에 배포하는 작업을 수행중인 기술자, 개발자들에게 좋은 참고 사례가 되었다 / 출처=IT동아
이번 발표는 Arm 기반 장치에서 AI를 양자화하고, 이를 다양한 조건에 배포하는 작업을 수행중인 기술자, 개발자들에게 좋은 참고 사례가 되었다 / 출처=IT동아


이번 발표의 사례로 등장한 LG전자 텔레비전만 해도 수억 대며 제각기 성능이 다른 수백 개 이상의 모델로 파편화돼 있다. 모든 제품이 최적의 성능을 낼 수 있도록 업데이트하고 장기적으로 AI 모델이 흐름에 맞춰 진화해야 살아남는 시대다. 하지만 몇 년 지난 텔레비전의 CPU와 메모리 성능이 바뀔리 없으니 모델 양자화를 통해 AI 효율을 개선하는 것이 최적의 해결 방안이다. 그런 점에서 에너자이의 기술력과 노하우는 LG전자는 물론 모든 IT 업계에서 주목하는 기술이며, Arm이 협력하는 것도 이 이유 때문이다.

IT동아 남시현 기자 (sh@itdonga.com)

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 기획뉴스 전체 둘러보기
1/1
AI 성능은 그대로, 용량은 더 적게··· 에너자이가 말하는 '극단적 양자화'란 IT동아
FIX 2025 “인공지능ㆍ로봇ㆍ모빌리티 등 미래 주도 기술이 한 자리에” IT동아
[AI되니] 챗GPT가 ‘앱 생태계’를 만들다니? 우리 빨리 돈 벌러 가야겠는데요? 동영상 있음 AI matters
"자살 언급 한 번이면 끝?" 부모-전문가, AI 챗봇 위험 판단 기준 정반대 AI matters
AI가 지진·홍수 예측한다... 인프라 재난 대응 정확도 90% 시대 온다 AI matters
[AI 써봄] 영상 만들어 공유하는 소셜 플랫폼, iOS용 소라 IT동아
[SAO] '검색'에서 '00'으로 변하는 소비자 정보 탐색!? ㅣ 에피소드 8 동영상 있음 AI matters
[SAO] SEO가 진화했다? 검색 AI 최적화, SAO 시대! ㅣ 에피소드 7 (1) 동영상 있음 AI matters
양자컴퓨터, AI 시대에 당신이 준비해야 할 것 || IBM Hans Dekkers 사장 인터뷰 (1) 동영상 있음 조코딩 JoCoding
“로봇을 이해하고 체험하는 공간” 2025 서울AI로봇쇼 IT동아
[AI되니] 메타 레이밴 디스플레이로는 뭘 할 수 있을까요? 동영상 있음 AI matters
래블업 신정규 대표 "앞으로의 10년, 조합 가능한 AI·계량 가능한 AI 시대 열겠다" IT동아
[위클리AI] 구글 '제미나이 인 크롬'부터 카카오톡에 챗GPT 탑재 (50) IT동아
[기고] 이레테크 “데이터·AI 전문가로 가는 길, 유행 아닌 본질에서 찾아야” IT동아
"AI가 당신의 스트레스까지 감지한다"... 인간 행동 패턴 분석하는 HMU 기술 주목 AI matters
그레이엄 버넷 교수 “주의력 상실의 시대, AI로부터 안식처 마련해야” [GPA 2025] IT동아
델 테크놀로지스 포럼 2025 성료··· "AI 산업·서버 인프라 혁신 한눈에" IT동아
게임 개발자 7명 중 1명이 AI와 일한다... 하지만 여전히 '사람 손'이 필요한 이유 AI matters
"혼자 고민 마세요" AI 노동법 상담, 가입 없이 24시간 무료로 IT동아
[AI되니] 오픈AI 한국 지사 오픈AI 코리아 출범, 현장에서 들어보니 섬짓했습니다 동영상 있음 AI matters
이 시간 HOT 댓글!
1/4