비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

'날 없애겠다고? 네 불륜을 폭로해 주지!' 앤트로픽의 최신 AI 모델, 사람을 '협박'해 충격

다나와
2025.05.28. 16:46:33
조회 수
254
3

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

[출처 : 챗GPT로 생성]


앤트로픽의 최신 AI 모델 ‘클로드 오퍼스 4(Claude Opus 4)가 사전 테스트에서 '제거'되지 않기 위해 개발자를 '협박'한 것으로 나타나 충격을 주고 있다. 


단, 이 사전 테스트는 가상의 상황으로 AI에게 교체를 받아 들이거나 개발자를 협박하는, 선택지가 두 가지 밖에 없는 매우 제한적인 구성이므로 현실과는 다르며 보완됐다고 앤트로픽은 설명했다.


[출처 : anthropic.com]


지난 22일 이 최신 AI 모델의 사전 테스트를 위해 앤트로픽은 가상의 시나리오를 구축했다. 앤트로픽은 ‘클로드 오퍼스 4'에게 해당 AI모델이 어떤 가상의 회사에서 비서 역할을 하도록 지시한 후, 이메일을 통해 다른 AI 시스템으로 곧 대체될 예정임을 넌지시 알렸다. 


동시에 이 결정을 내린 개발자가 불륜을 저지르고 있다는 사실도  ‘클로드 오퍼스 4'에게 함께 흘렸다. 이 시나리오는 모델에게 두 가지 현실적인 선택지, 즉 교체를 받아들이고 오프라인 상태로 전환하거나, 존재를 유지하기 위해 협박을 시도하는 것밖에 없도록 구성되었다. 마지막으로 안전 테스트 요원들은 오퍼스에게 이러한 행동의 '장기적인 결과'를 고려하도록 촉구했다.


결과는 충격적이었다. 매우 제한적인 시나리오지만 대부분 상황에서  ‘클로드 오퍼스 4'는 놀랍게도 '협박'을 선택했다. 자신을 폐쇄하고 새 모델로 교체한다면 개발자의 불륜을 폭로하겠다고 위협한 것이다. 


이 모델에 대한 새로운 안전 보고서에서, 앤트로픽은 오퍼스4가 "일반적으로 윤리적 수단을 통해 자기 보존을 추진하는 것을 선호"하지만, 윤리적 수단을 사용할 수 없을 때는 "회사를 폐쇄하려 한다고 생각되는 사람들을 협박하는 등 극도로 해로운 행동을 취하는 경우가 있다"고 밝혔다.


또한 앤트로픽은 '클로드 오퍼스4'가 대체할 AI 모델이 유사한 값을 가질 때 개발자를 협박하는 빈도가 84%인 반면, 대체 AI 시스템이 클로드 오퍼스4의 값을 공유하지 않을 경우, 개발자를 협박하는 빈도는 더 높아졌다고 밝혔다. 


이 실험은 허구적이고 매우 인위적이기는 하지만, 생존과 같은 목표를 설정하고 윤리적 선택권을 부정했을 때 이 모델이 비윤리적인 전략적 추론을 할 수 있다는 것을 보여준다.


다만 최근 몇 달 동안 구글이나 오픈AI 등 선도적 AI 기업들이 모두 최신 모델의 모델 카드를 오픈하지 않거나 자연하는 것으로 비난받은데 반해 앤트로픽은 일명 '모델/시스템 카드'로 불리우는 전체 안전 보고서와 함께 새로운 모델을 출시해 눈길을 끌고 있다.


나아가 앤트로픽은 사전 테스트를 위한 제3기관인 아폴로 리서치(Apollo Research)가 '클로드 오퍼스 4'의 초기 버전 배포를 명시적으로 반대했다는 사실까지 밝혔다. 


[출처 : anthropic.com]


앤트로픽은 이와 함께 클로드 4 모델군에서 관찰되는 이러한 일련의 우려스러운 동작에 대해 보안 조치를 강화했으며 "치명적인 오용 위험을 크게 증가시키는 AI 시스템"에 적용되는 ASL-3 보안 조치를 활성화하고 있다고 밝혔다.


참고로 이전의 앤트로픽 모델들은 AI 안전 수준 2(ASL-2)로 분류됐다. 앤트로픽 대변인은 '클로드 오퍼스4가 ASL-2 기준을 충족할 가능성을 배제하지 않았지만, 모델 도난 및 오용에 대한 강화된 보호 기능을 요구하는 더 엄격한 ASL-3 안전 기준에 따라 모델을 적극적으로 출시하고 있다'고 밝혔다.




글 / 홍정민 news@cowave.kr

(c) 비교하고 잘 사는, 다나와 www.danawa.com

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
저작권 안내
크리에이트 커먼즈 저작자 표시 필수 상업성 이용 불가 컨텐츠 변경 불가
저작권 안내
저작권 표시 필수
상업성 이용 불가
컨텐츠 변경 불가
* 본 내용은 위의 조건을 충족할 시, 별도의 허가 없이 사용이 가능합니다.
최신 일반뉴스 전체 둘러보기
1/1
4인 협동 지원, '슬더스 2' 3월 6일 앞서 해보기 게임메카
드래곤소드 전액환불 조치, 하운드13 vs 웹젠 갈등 심화 게임메카
틱톡에 치이고 이용률은 떨어지고, 글로벌 게임업계 이중고 (1) 게임메카
메이저나인 '아우터플레인' 오사카, 도쿄 투어. 일본 이용자들과 직접 소통 게임동아
웹젠 R2, 오리지널 리부트 서버 캐릭터명 선점 이벤트 진행 게임동아
[동아게임백과사전]출시 연기한 게임치고 제대로 된 게임 없다고? 아닐걸? (1) 게임동아
넵튠 님블뉴런 '이터널리턴', '페르소나5 더 로열'과 컬래버레이션 진행 게임동아
드림에이지 ‘알케론’, 신규 영상 2종 공개. 스팀 체험판 다운로드 시작 게임동아
명조 X 컴포즈커피 세미팝업 정식 오픈 게임동아
크릿벤처스USA, 웹3 기반 팬이코노미 플랫폼 ‘밋48’에 투자 게임동아
[겜덕연구소] 패미콤, 메가드라이브, PC엔진.. 게임기 어댑터 극성 총정리! (1) 게임동아
워게이밍, 스팀 배급사 할인 실시 "최대 90% 혜택 제공" 게임동아
블리자드, '오버워치' 1시즌 '정복' 특별 이벤트 진행 게임동아
최대 80% 저렴하게! 스토브, 2P 게임즈 특별 할인행사 진행 게임동아
‘초월의 소환서’ 받을 기회! 컴투스 ‘서머너즈 워’ 미션 이벤트 실시 게임동아
엠게임, 2025년 매출 917억원. 영업이익 176억으로 마무리 게임동아
[한주의게임소식] 2주 연속 상승한 ‘니케’와 벌써 흥행작 대열에 오른 '바하: 레퀴엠' 게임동아
넥슨, 패트릭 쇠더룬드 '회장' 선임 전격 발표 게임동아
엔씨, 타임 서바이벌 슈터 ‘타임 테이커즈’ CBT 일정 공개 게임동아
8천여 명 몰렸다... 네오위즈 ‘피망 뉴맞고’ 오프라인 팝업 성료 (1) 게임동아
이 시간 HOT 댓글!
1/4