AI 비용 효율 최고는 앤트로픽...비결은 이중 하이퍼스케일러, 오픈AI는 엔비디아 칩만 써

2026.03.09. 20:24:08

프런티어 AI(Frontier AI) 경쟁에서 모델 성능만큼이나 '칩 조달 전략'이 승패를 가르는 핵심 변수로 부상하고 있다. 앤트로픽(Anthropic)이 구축한 다중 가속기 아키텍처(multi-accelerator architecture)가 오픈AI(OpenAI), 마이크로소프트(Microsoft)와의 구조적 격차를 벌리고 있다는 분석이 나왔다.

데이터 그래비티(Data Gravity)에 따르면, 앤트로픽은 현재 프런티어 AI 연구소 가운데 가장 다변화되고 비용 효율이 높은 컴퓨팅 아키텍처를 보유하고 있다. 오픈AI가 엔비디아(NVIDIA) 의존에서 벗어나지 못하고 있고 마이크로소프트의 자체 칩 개발 프로그램이 수년째 지연되는 상황에서, 앤트로픽은 단위 경제성과 협상력 모두에서 구조적 우위를 갖추고 있다는 평가다. 다만 이 분석은 컴퓨팅 우위가 모델 우위를 대체하는 것이 아니라 증폭시킨다는 전제를 명확히 하고 있다. 경쟁사 모델이 월등히 뛰어나다면 고객은 높은 토큰(token) 비용을 감수한다는 것이다.

앤트로픽의 컴퓨팅 전략 핵심은 이중 하이퍼스케일러(dual-hyperscaler) 구조다. 아마존(Amazon)은 2025년 10월 인디애나주에 110억 달러를 투자해 AI 전용 컴퓨팅 캠퍼스 '프로젝트 레이니어(Project Rainier)'를 개소했으며, 앤트로픽이 주요 입주사로 클로드(Claude) 훈련에 활용하고 있다. 이 클러스터는 AWS의 자체 AI 가속기 트레이니엄2(Trainium2)로 운영되며, 지속 워크로드 기준 엔비디아 H100 대비 약 절반 수준의 비용으로 구동된다. 실제 커밋 비용은 칩당 시간당 약 0.50달러로, H100의 커밋·예약 계약 요금인 시간당 2~5달러와 비교했을 때 상당한 절감 효과다. 앤트로픽은 특정 훈련 실행에서 GPU 구성 대비 50%의 비용 절감과 처리량 향상을 보고했다. 아마존의 앤트로픽 총 투자액은 현재 80억 달러에 달한다.

구글(Google)과의 협약도 규모 면에서 주목할 만하다. 2025년 10월 앤트로픽은 구글 클라우드(Google Cloud)를 통해 TPUv7 아이언우드(TPUv7 Ironwood) 칩 100만 개를 활용하기로 하는 총 520억 달러 규모의 계약을 체결했다. 40만 개는 브로드컴(Broadcom)에서 약 100억 달러에 직접 구매하고, 나머지 60만 개는 구글 클라우드 플랫폼(GCP)을 통해 임대하는 구조다. TPUv7은 이전 세대 대비 시스템 레벨 토큰당 가격이 50% 개선됐으며, GPU 대비 동등 FP8 처리량 기준 전력 소비가 60~65% 낮다. 앤트로픽은 직접 구매한 TPU 클러스터를 수용할 데이터센터 건립을 위해 영국 기반 운영사 플루이드스택(Fluidstack)과 파트너십을 맺고 텍사스와 뉴욕에 시설을 구축 중이며, 2026년 중 순차적으로 가동될 예정이다.

앤트로픽은 구글 TPU, AWS 트레이니엄2, 엔비디아 GPU 세 가지 가속기를 병행 운용한다. 이 포트폴리오 접근법은 비용 차익거래(cost arbitrage), 공급 이중화, 협상력 확보라는 세 가지 이점을 만들어낸다. 최적화 워크로드 기준 TPU와 트레이니엄2의 혼합 요율은 순수 엔비디아 스택 대비 30~60% 저렴하다. 또 한쪽 공급업체에 병목이 생겨도 훈련이 중단되지 않는다. 협상력 측면에서는 엔비디아를 실제로 대체할 수 있는 옵션이 존재한다는 사실 자체가 가격 협상에서 유리하게 작용한다. 분석에 따르면 구글 TPU를 실제 운용하지 않는 오픈AI조차 TPU의 존재만으로 엔비디아 칩 협상에서 약 30%를 절감했을 것으로 추정된다.

반면 오픈AI의 생산 컴퓨팅 시스템은 엔비디아 GPU로만 구성돼 있다. 블룸버그(Bloomberg)는 오픈AI의 분기별 엔비디아 칩 지출을 약 18억 달러로 추산했다. 오픈AI와 브로드컴은 2025년 10월 10기가와트(GW) 규모를 목표로 하는 커스텀 AI 가속기 공동 개발을 발표했지만, 양산은 2026년 하반기에야 시작되며 실질적인 대규모 배포는 2027년 이후다. 오픈AI의 추론(inference) 경제성은 최소 2026년까지 엔비디아 구조에 종속된다. 한편 엔비디아와 오픈AI가 2024년 9월 발표한 최대 1,000억 달러 규모의 투자 의향서는 2026년 3월 현재 최종 계약이 체결되지 않은 상태다. 엔비디아 최고재무책임자(CFO) 콜레트 크레스(Colette Kress)는 해당 1,000억 달러 투자가 "애초에 약속이 아니었다"고 밝혔으며, 협상은 사실상 동결된 것으로 전해진다.

마이크로소프트의 자체 칩 메이아(Maia) 프로그램은 전략과 실행 사이의 괴리를 보여주는 사례로 지목됐다. 2023년 11월 발표된 메이아 100(Maia 100)은 생성형 AI 추론에 활용되지 못한 채 내부 생산성 워크로드에만 머물렀다. 2026년 1월 발표된 메이아 200(Maia 200)은 TSMC 3나노미터(nm) 공정 기반의 보다 진지한 설계지만, 초기 로드맵보다 2년 이상 지연돼 2026년 초 두 곳의 데이터센터에서 제한적 배포에 들어갔다. 마이크로소프트는 내부 칩 프로그램이 실질적인 성과를 내지 못하는 동안 2024년 한 해에만 엔비디아 AI 칩에 310억 달러를 지출했다.

데이터 그래비티에 따르면, 앤트로픽의 구글 TPU 및 AWS 트레이니엄 전반에 걸친 총 커밋 컴퓨팅은 2기가와트를 초과한다. 기가와트 규모 클러스터 기준 TPU와 트레이니엄을 혼합한 블렌디드 비용 우위는 비교 가능한 처리량에서 매월 약 10억~20억 달러, 연간으로는 120억~240억 달러의 구조적 비용 절감에 해당한다. 2026년 추론 비용이 전체 컴퓨팅 지출의 3분의 2를 차지할 것으로 전망되는 만큼, 토큰당 비용이 곧 모든 API 기반 AI 비즈니스의 단위 경제성을 결정하게 된다.

이미지 출처: 이디오그램 생성

AI Matters 뉴스레터 구독하기