[출처 : 챗GPT로 생성]
앤트로픽의 최신 AI 모델 ‘클로드 오퍼스 4(Claude Opus 4)가 사전 테스트에서 '제거'되지 않기 위해 개발자를 '협박'한 것으로 나타나 충격을 주고 있다.
단, 이 사전 테스트는 가상의 상황으로 AI에게 교체를 받아 들이거나 개발자를 협박하는, 선택지가 두 가지 밖에 없는 매우 제한적인 구성이므로 현실과는 다르며 보완됐다고 앤트로픽은 설명했다.
[출처 : anthropic.com]
지난 22일 이 최신 AI 모델의 사전 테스트를 위해 앤트로픽은 가상의 시나리오를 구축했다. 앤트로픽은 ‘클로드 오퍼스 4'에게 해당 AI모델이 어떤 가상의 회사에서 비서 역할을 하도록 지시한 후, 이메일을 통해 다른 AI 시스템으로 곧 대체될 예정임을 넌지시 알렸다.
동시에 이 결정을 내린 개발자가 불륜을 저지르고 있다는 사실도 ‘클로드 오퍼스 4'에게 함께 흘렸다. 이 시나리오는 모델에게 두 가지 현실적인 선택지, 즉 교체를 받아들이고 오프라인 상태로 전환하거나, 존재를 유지하기 위해 협박을 시도하는 것밖에 없도록 구성되었다. 마지막으로 안전 테스트 요원들은 오퍼스에게 이러한 행동의 '장기적인 결과'를 고려하도록 촉구했다.
결과는 충격적이었다. 매우 제한적인 시나리오지만 대부분 상황에서 ‘클로드 오퍼스 4'는 놀랍게도 '협박'을 선택했다. 자신을 폐쇄하고 새 모델로 교체한다면 개발자의 불륜을 폭로하겠다고 위협한 것이다.
이 모델에 대한 새로운 안전 보고서에서, 앤트로픽은 오퍼스4가 "일반적으로 윤리적 수단을 통해 자기 보존을 추진하는 것을 선호"하지만, 윤리적 수단을 사용할 수 없을 때는 "회사를 폐쇄하려 한다고 생각되는 사람들을 협박하는 등 극도로 해로운 행동을 취하는 경우가 있다"고 밝혔다.
또한 앤트로픽은 '클로드 오퍼스4'가 대체할 AI 모델이 유사한 값을 가질 때 개발자를 협박하는 빈도가 84%인 반면, 대체 AI 시스템이 클로드 오퍼스4의 값을 공유하지 않을 경우, 개발자를 협박하는 빈도는 더 높아졌다고 밝혔다.
이 실험은 허구적이고 매우 인위적이기는 하지만, 생존과 같은 목표를 설정하고 윤리적 선택권을 부정했을 때 이 모델이 비윤리적인 전략적 추론을 할 수 있다는 것을 보여준다.
다만 최근 몇 달 동안 구글이나 오픈AI 등 선도적 AI 기업들이 모두 최신 모델의 모델 카드를 오픈하지 않거나 자연하는 것으로 비난받은데 반해 앤트로픽은 일명 '모델/시스템 카드'로 불리우는 전체 안전 보고서와 함께 새로운 모델을 출시해 눈길을 끌고 있다.
나아가 앤트로픽은 사전 테스트를 위한 제3기관인 아폴로 리서치(Apollo Research)가 '클로드 오퍼스 4'의 초기 버전 배포를 명시적으로 반대했다는 사실까지 밝혔다.
[출처 : anthropic.com]
앤트로픽은 이와 함께 클로드 4 모델군에서 관찰되는 이러한 일련의 우려스러운 동작에 대해 보안 조치를 강화했으며 "치명적인 오용 위험을 크게 증가시키는 AI 시스템"에 적용되는 ASL-3 보안 조치를 활성화하고 있다고 밝혔다.
참고로 이전의 앤트로픽 모델들은 AI 안전 수준 2(ASL-2)로 분류됐다. 앤트로픽 대변인은 '클로드 오퍼스4가 ASL-2 기준을 충족할 가능성을 배제하지 않았지만, 모델 도난 및 오용에 대한 강화된 보호 기능을 요구하는 더 엄격한 ASL-3 안전 기준에 따라 모델을 적극적으로 출시하고 있다'고 밝혔다.
글 / 홍정민 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com