컴퓨텍스 2024가 오랜만에 활기를 되찾았다.
PC 시장의 주역인 AMD와 인텔이 차세대 프로세서를 공개 했고 코파일럿+ PC를 전면에 내세운 마이크로소프트와 퀄컴도 많은 볼거리와 제품들을 소개했다.
신제품이나 신기술 없이 그저 상투적인 전시행사 였던 과거에서 많이 달리진 모습이었고 해당 분야의 전문 매체 뿐만 아니라 대중 매체들까지 이 소식을 다룰 만큼 분위기 자체는 그 어느해 보다 좋았다.
아무래도 AI 시대가 만들어낼 혁신과 변화 그리고 이에 대한 기대가 워낙 크다보니 컴퓨텍스 2024 같은 대형 행사에 관심이 집중될 수 밖에 없었던 것 같다.
오늘은 그 AI 시대에 대한 이야기를 해볼까 한다. 아직은 잘 그려지지 않는 AI 시대의 모습을 어떻게 준비하는 것이 맞을지에 대해 NPU에 대한 이야기를 해볼까 한다.
■ AI=NPU, 이게 정답일까?
컴퓨텍스 2024 만의 이야기는 아니다. 이미 지난해 부터 AI 기반 산업이 활성화 되면서 GPU를 대신 할 혁신적인 하드웨어로 NPU가 급부상했고 실제 서비스 단계에서 요구되는 추론 성능과 온 디바이스 AI에 대한 대안으로 지목 됐다.
이미 NPU를 채택한 퀄컴과 메테오 레이크 부터 NPU를 탑재한 인텔, 이번에 고성능 NPU를 적용한 AMD까지 모두가 AI 시대의 대표 아이템으로 NPU를 꺼내든 것이다. 거기다 마이크로소프트까지 새로운 윈도우의 핵심 기술로 AI를 꺼냈으니 NPU=AI 라는 공식이 만들어지게 됐다.
그럼 NPU가 AI에 꼭 필요한 하드웨어일까?
답은 그럴 수도 아닐 수도 있다.
AI 작업을 처리할 수 있느냐만 따지면 NPU가 아니어도 된다. 하지만 그 작업을 처리하며 소모하는 전력량이나 작업 시간을 얼마나 단축할 수 있느냐를 따진다면 NPU가 더 우월한 것도 사실이다.
물론, LLM 기반 대규모 연산을 필요로 하는 상황이 되면 CPU에 통합된 NPU만으로는 부족한 것이 현실이라서 고성능 GPU로 처리할 수 밖에 없다.
결론적으로 CPU와 GPU 그리고 NPU가 통합된 하나의 프로세서 기준에서 AI 작업을 따진다면 NPU가 처리하는 것이 성능이나 전력 효율, 작업 효율 면에서 가장 합리적인 선택인건 맞지만 그 이상의 조합이 가능한 시스템이라면 굳이 NPU가 필요치 않으니 답은 맞을 수도 아닐 수도 있는 것이다.
실제 컴퓨텍스 2024에서 각사가 발표한 NPU 성능을 확인하면 40~60 TOPS 사이인 것을 알 수 있는데 텐서 코어나 독립적인 병렬 곱셈 엔진이 탑재된 고성능 GPU들은 이미 그 수준을 훨씬 뛰어 넘은 상태다.
엔비디아의 경우 데스크탑용 RTX 4090을 1321 AI TOPS라고 소개하고 있으며 노트북용 RTX GPU 또한 최하위 모델인 RTX 4050이 194 AI TOPS라 소개하여 NPU 보다 더 많은 AI 작업을 빠르게 처리할 수 있다고 강조하고 있다.
■ 우리도 된다, 'RTX AI PC' 꺼내든 엔비디아
엔비디아는 AI 가속기 시장의 리더지만 반대로 외톨이 같은 존재다.
PC 시장에서 직접적으로 경쟁하는 인텔과 AMD 뿐만 아니라 ARM 기반인 퀄컴과 애플까지 NPU 마케팅에 올인하고 코파일럿+ PC를 꺼내든 마이크로소프트까지 NPU 띄우기에 나섰으니 GPU만 가진 엔비디아가 설 자리는 없어진 것이다.
그렇다고 그냥 지켜만 보고 있을 수도 없고 그래서 꺼내든 것이 RTX AI PC다.
엔비디아 RTX AI PC는 신기술이나 인증 체계도 아니다. 그저 RTX GPU가 텐서 코어라는 행렬 곱셈 덧셈 연산 최적화 유닛을 탑재했고 이를 통해 AI 연산을 가속화 할 수 있다는 것을 소비자에게 홍보하기 위해 만들어 낸 것이다.
NPU만이 AI의 미래라는 잘못된 인식이 퍼지는 것을 막기 위한 마케팅 활동이라 보면 된다.
물론, 마이크로소프트가 코파일럿+ PC의 핵심 기술 몇 가지를 퀄컴 NPU 기반으로 작동하게 만들었다니 RTX GPU는 사용할 수 없는 것도 사실이다.
근데 이건 인텔이나 AMD NPU도 마찬가지라서 AutoSR 같은 기능은 현재까진 퀄컴 NPU에서만 작동한다고 알려져 있는데 어차피 시간이 지나면 다 해결될 일이니 고민할 필요는 없다.
오히려 코파일럿+ PC 처럼 마이크로소프트가 직접 제공하는 AI 서비스가 아니라면 RTX GPU나 다른 GPU를 지원하지 않을 이유는 없으니 코파일럿+ PC 하나만 보고 NPU가 미래라느니 NPU를 위해 CPU를 바꿔야 한다는 잘못된 생각을 가지지 않아야 한다.
참고로, 현재의 GPU들은 엔비디아 RTX 시리즈 뿐만 아니라 인텔의 Arc나 AMD의 라데온 시리즈들도 AI 연산에 최적화 된 텐서 코어 같은 독립적인 연산 유닛이나 엔진을 탑재하고 있다. 인텔은 XMX라 부르고 AMD는 WMMA라고 부른다.
■ NPU, 왜 모바일인가?
NPU가 AI 연산에 최적인 가속기인건 당연한 것이다. NPU는 GPU 처럼 그래픽 연산이나 각종 시물레이션 작업을 처리하지 않는 행렬 연산만을 위해 개발된 가속기이기 때문이다.
GPU 처럼 범용성을 갖춘 구조도 아니고 오직 행렬의 곱셈과 합성곱 작업을 빠르게 수행하도록 구조화 됐고 메모리 계층 구조도 단순화, 로컬화 되어 있어 빠른 AI 연산과 더 적은 전력 소모라는 최적의 가속기로 탄생하게 됐다.
그래서 AI 연산이 필요한 모든 작업에선 NPU가 GPU 보다 나은 선택이고 NPU가 각광 받는것도 당연하지만 현실에서 NPU는 매우 제한적으로 사용될 수 밖에 없는 상황 속에 있다.
일단, NPU는 자체 성능이 아무리 좋다 해도 이를 대규모로 구성하는 것이 어렵다.
GPU는 이미 슈퍼 컴퓨터 규모의 대규모 HPC 시장용 솔루션을 모두 제공하지만 NPU가 이런 규모로 메이저 시장에 투입된 경우는 거의 없다. 구글이나 아마존이 자체 서비스용으로 사용하고 있을 뿐이고 AI가 아닌 다른 서비스나 작업에는 쥐약이라서 막대한 투자를 하는 것도 어렵다.
그래서 대규모 시스템 단에는 NPU 보다 범용성이 뛰어나고 성능도 검증된 GPU가 활용될 수 밖에 없고 소규모 시스템을 위한 용도로만 NPU가 제한적으로 사용될 수 밖에 없는 상황이다.
AI 시장에서 요구하는 성능이 얼마나 되는지 모른다는 것도 NPU가 독립적인 가속기로 등장하기 어렵게 하고 있다. 특히, 시장이 SLM 기반으로 움직이면서 LLM을 처리할 수 있는 고성능 NPU의 등장에 의문을 던지게 만들고 있다.
그도 그럴것이 PC 보다 AI를 더 많이 활용하게 될 스마트폰이나 태블릿이 독립적인 NPU를 탑재할 정도의 폼팩터가 아니니 SLM 기반으로 서비스가 움직이는 건 당연한 선택인데 노트북 시장을 우선 순위로 둔 인텔이나 AMD 입장에서도 득이 되는 선택이니 이런 흐름에 큰 변화가 있긴 어려울 전망이다.
언젠가 데스크탑 PC 기준으로 온 디바이스에서 실행되는 LLM 기반 서비스가 확장되고 규모가 커진다면 CPU나 GPU에서 분리된 독립적인 NPU 가속기가 필요하게 될 수도 있겠지만 아직 그러한 미래가 그려질 만큼 AI 시장이 활성화 된 건 아니니 너무 큰 기대는 하지 않는 것이 좋다.
Copyrightⓒ 넥스젠리서치(주) 케이벤치 미디어국. kbench.com