앤트로픽(Anthropic)의 AI 어시스턴트 클로드(Claude)가 3월 25일(현지 시각) 전 세계적으로 동시 서비스 장애를 겪었다. 톰스가이드(Tom's Guide)가 보도한 바에 따르면 클로드 웹사이트와 API(응용 프로그램 인터페이스) 모두 접속 오류와 응답 지연이 발생해 개인 이용자와 기업 고객 모두 큰 불편을 겪었다.
장애는 한국 시각 기준 이른 오전에 시작됐으며, 소셜 미디어에서 사용자들의 장애 신고가 빠르게 확산됐다. 다운디텍터(Downdetector)에는 수천 건의 오류 신고가 접수됐으며, X(구 트위터)에서는 '클로드 다운(Claude down)'이 트렌딩 키워드로 올라섰다. 클로드를 업무 자동화에 활용하는 기업 고객들은 AI 파이프라인 중단으로 실질적인 업무 차질을 호소했다.
앤트로픽은 공식 상태 페이지(status.anthropic.com)를 통해 장애 발생 사실을 인정하고, 엔지니어링팀이 원인 분석과 복구 작업에 즉시 착수했다고 밝혔다. 장애 발생 약 3시간 후 서비스는 순차적으로 정상화됐다. 앤트로픽은 장애의 정확한 원인으로 내부 인프라 구성 업데이트 과정에서 발생한 오류를 지목했으며, 재발 방지를 위한 시스템 개선 계획을 밝혔다.
이번 장애는 AI 서비스 가용성(availability)에 대한 기업 고객들의 높아진 의존도와 그에 따른 리스크를 다시 한번 부각시켰다. 기업들이 AI를 핵심 업무 인프라로 통합하는 속도가 빨라질수록, 서비스 안정성과 장애 대응 능력은 AI 제공업체를 평가하는 핵심 기준이 될 수밖에 없다. 오픈AI(OpenAI), 구글(Google) 등 경쟁사들도 크고 작은 서비스 장애를 경험한 바 있어, AI 인프라 신뢰성 확보가 업계 전반의 과제로 부상하고 있다.
전문가들은 AI 서비스의 가용성 보장을 위해 멀티 클라우드 전략과 장애 조치(failover) 아키텍처 도입이 필수적이라고 조언한다. 기업 고객 입장에서는 단일 AI 제공사에 대한 의존도를 줄이고, 백업 플랜을 갖추는 것이 리스크 관리의 출발점이다. 이번 사태가 AI 서비스 계약에서 서비스 수준 협약(SLA) 기준을 더욱 엄격하게 설정하는 계기가 될 것이라는 전망도 나온다.
자세한 내용은 톰스가이드에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
AI Matters 뉴스레터 구독하기



