“AI 추론 10배 가속” 구글 클라우드, 7세대 TPU ‘아이언우드’ 전면 공개

2025.11.07. 14:42:19

구글 클라우드가 6일(현지시간) 차세대 인공지능(AI) 추론 시대를 이끌기 위한 핵심 컴퓨팅 솔루션 7세대 TPU ‘아이언우드(Ironwood)’의 정식 출시(GA)와 Arm® 기반의 맞춤형 CPU ‘액시온(Axion)’ 가상 머신(VM) 프리뷰 버전을 공개했다. 이를 통해 기업 고객들은 AI 학습과 추론, 그리고 범용 워크로드 전반에서 압도적인 성능과 효율을 경험할 수 있게 될 전망이다.

TPU 아이언우드: 학습에서 추론으로, AI 하이퍼컴퓨팅의 중심

구글 클라우드는 지난 4월 ‘구글 클라우드 넥스트 2025(Next 2025)’에서 프리뷰 형태로 공개했던 7세대 TPU ‘아이언우드’를 정식 출시한다고 발표했다. 아이언우드는 대규모 모델 학습과 강화학습(RL), 대용량·저지연 AI 추론 등 복잡한 워크로드를 처리하기 위해 설계된 고성능 AI 프로세서다.

구글 클라우드 7세대 TPU 아이언우드

새로운 아이언우드는 이전 세대인 TPU v5p 대비 최대 10배, 트릴리움(TPU v6e) 대비 칩당 최대 4배 향상된 학습 및 추론 성능을 제공한다. 이는 구글의 TPU 중 가장 강력한 성능과 에너지 효율성을 갖춘 제품으로 평가된다.

이 칩은 구글 클라우드의 통합 AI 슈퍼컴퓨팅 시스템인 ‘AI 하이퍼컴퓨터(Hypercomputer)’의 핵심 구성 요소로, 컴퓨팅·네트워킹·스토리지·소프트웨어를 유기적으로 통합해 전반적인 성능과 효율을 극대화한다. IDC 보고서에 따르면, AI 하이퍼컴퓨터를 도입한 기업 고객은 3년간 평균 353%의 투자수익률(ROI)과 28%의 IT 비용 절감을 달성했으며, IT 팀의 효율성도 55% 향상된 것으로 나타났다.

아이언우드 보드

아이언우드는 최대 9,216개의 칩을 결합한 ‘슈퍼포드(superpod)’로 확장 가능하며, 초고속 인터칩 인터커넥트(ICI) 네트워크 기술을 통해 9.6Tb/s의 전송 속도를 구현한다. 또한 1.77페타바이트(PB)의 고대역폭 메모리(HBM)에 접근해 대규모 모델의 데이터 병목 현상을 최소화한다.

아이언우드 슈퍼포드

이외에도 광회로 스위칭(OCS) 기술을 통해 네트워크 장애 시 실시간 경로 재구성이 가능하며, 수십만 개의 TPU를 클러스터 형태로 확장해 대규모 AI 추론 성능을 발휘할 수 있다. 현재 앤트로픽(Anthropic)을 비롯한 글로벌 AI 기업들이 아이언우드를 활용해 대규모 모델 학습과 서비스 효율성을 높이고 있으며, 앤트로픽은 최대 100만 개 TPU 사용을 계획 중이다.

액시온: 범용 컴퓨팅을 위한 새로운 Arm 기반 VM

구글 클라우드는 AI 특화 가속기뿐 아니라 범용 워크로드를 위한 효율적인 CPU도 강화했다. 이번에 공개된 ‘액시온(Axion)’은 Arm Neoverse® 기반 맞춤형 CPU로, 비용과 에너지 효율을 중시하는 기업 환경에 최적화됐다.

아이언우드가 모델 학습 및 추론에 집중한다면, 액시온은 데이터 준비, 수집, 애플리케이션 호스팅 등 운영 백본 역할을 맡는다. 새롭게 프리뷰로 선보인 N4A 인스턴스는 구글 클라우드의 두 번째 범용 악시온 VM으로, 동급 x86 기반 VM 대비 최대 2배의 가격 대비 성능을 제공한다. 특히 마이크로서비스, 오픈소스 데이터베이스, 데이터 분석, 웹 서비스에 이상적인 환경을 구현한다.

또한 구글은 첫 Arm 기반 베어메탈 인스턴스 ‘C4A 메탈(C4A metal)’도 곧 프리뷰 버전으로 공개할 예정이다. 이는 안드로이드 개발, 차량 내 시스템, 전문 시뮬레이션 등 고정밀 워크로드를 위한 전용 물리 서버를 제공한다. 구글은 N4A, C4A, C4A 메탈 세 가지 옵션을 통해 고객이 요구하는 성능과 비용 효율성에 맞춘 포트폴리오를 완성했다.

AI 하이퍼컴퓨터의 수직적 통합 최적화

구글 클라우드는 하드웨어와 소프트웨어의 공동 설계를 통해 아이언우드의 처리 능력과 효율을 극대화하고 있다. 칩, 모델, 운영체제, 개발 프레임워크가 수직적으로 통합된 아키텍처를 기반으로 고객은 AI 라이프사이클 전반에서 최상의 성능을 경험할 수 있다.

TPU 고객은 구글 쿠버네티스 엔진(GKE)에서 ‘클러스터 디렉터(Cluster Director)’ 기능을 활용할 수 있으며, 오픈소스 LLM 프레임워크 ‘맥스텍스트(MaxText)’에는 강화학습과 대규모 모델 학습을 위한 새로운 기능이 추가됐다. 또한 vLLM에서 TPU 지원이 강화되어 GPU와 TPU 간 혼합 활용이 가능해졌다.

특히 GKE 추론 게이트웨이(GKE Inference Gateway)는 TPU 서버 간 로드 밸런싱을 통해 ‘최초 토큰 생성 시간(TTFT)’을 최대 96% 단축하고, 서비스 비용을 최대 30% 절감하는 것으로 나타났다.

“추론의 시대, 구글 클라우드가 기준을 세운다”

구글 클라우드의 마크 로메이어(Mark Lohmeyer) 부사장은 “AI 에이전트 워크플로와 컴퓨팅 수요의 폭발적 증가는 추론의 시대를 새롭게 정의하고 있다”며 “하드웨어부터 소프트웨어, 관리형 서비스까지 완전한 통합을 이루는 AI 하이퍼컴퓨터를 통해 구글 클라우드 고객은 아이언우드와 액시온을 조합해 가장 까다로운 워크로드에도 유연성과 성능을 극대화할 수 있을 것”이라고 강조했다.

이번 아이언우드 정식 출시와 액시온 VM 공개는 구글 클라우드가 AI 중심의 컴퓨팅 패러다임 전환을 주도하겠다는 명확한 메시지를 던진 것으로 평가된다.

이준문 기자/jun@newstap.co.kr

[뉴스탭 인기 기사]
· 레이저, ‘젠레스 존 제로’ 콜라보 에디션 게이밍 기어 3종 출시
· ASUS ROG, ‘쿠가세’서 인기 게이밍 기어 대거 할인…최신 키보드·마우스 총출동
· 로지텍, 이마트 쓱데이 맞아 ‘럭키박스 이벤트’ 진행… 최대 PS5 프로·아이패드 프로까지
· “이젠 다이소에서도 짜먹는다!”... 딜리노쉬 프리미엄 땅콩버터 출시
· 클래식 감성에 진짜 필름 질감 더했다… 니콘 Zf, 새 펌웨어 출시