비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

'날 없애겠다고? 네 불륜을 폭로해 주지!' 앤트로픽의 최신 AI 모델, 사람을 '협박'해 충격

다나와
2025.05.28. 16:46:33
조회 수
305
3

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

[출처 : 챗GPT로 생성]


앤트로픽의 최신 AI 모델 ‘클로드 오퍼스 4(Claude Opus 4)가 사전 테스트에서 '제거'되지 않기 위해 개발자를 '협박'한 것으로 나타나 충격을 주고 있다. 


단, 이 사전 테스트는 가상의 상황으로 AI에게 교체를 받아 들이거나 개발자를 협박하는, 선택지가 두 가지 밖에 없는 매우 제한적인 구성이므로 현실과는 다르며 보완됐다고 앤트로픽은 설명했다.


[출처 : anthropic.com]


지난 22일 이 최신 AI 모델의 사전 테스트를 위해 앤트로픽은 가상의 시나리오를 구축했다. 앤트로픽은 ‘클로드 오퍼스 4'에게 해당 AI모델이 어떤 가상의 회사에서 비서 역할을 하도록 지시한 후, 이메일을 통해 다른 AI 시스템으로 곧 대체될 예정임을 넌지시 알렸다. 


동시에 이 결정을 내린 개발자가 불륜을 저지르고 있다는 사실도  ‘클로드 오퍼스 4'에게 함께 흘렸다. 이 시나리오는 모델에게 두 가지 현실적인 선택지, 즉 교체를 받아들이고 오프라인 상태로 전환하거나, 존재를 유지하기 위해 협박을 시도하는 것밖에 없도록 구성되었다. 마지막으로 안전 테스트 요원들은 오퍼스에게 이러한 행동의 '장기적인 결과'를 고려하도록 촉구했다.


결과는 충격적이었다. 매우 제한적인 시나리오지만 대부분 상황에서  ‘클로드 오퍼스 4'는 놀랍게도 '협박'을 선택했다. 자신을 폐쇄하고 새 모델로 교체한다면 개발자의 불륜을 폭로하겠다고 위협한 것이다. 


이 모델에 대한 새로운 안전 보고서에서, 앤트로픽은 오퍼스4가 "일반적으로 윤리적 수단을 통해 자기 보존을 추진하는 것을 선호"하지만, 윤리적 수단을 사용할 수 없을 때는 "회사를 폐쇄하려 한다고 생각되는 사람들을 협박하는 등 극도로 해로운 행동을 취하는 경우가 있다"고 밝혔다.


또한 앤트로픽은 '클로드 오퍼스4'가 대체할 AI 모델이 유사한 값을 가질 때 개발자를 협박하는 빈도가 84%인 반면, 대체 AI 시스템이 클로드 오퍼스4의 값을 공유하지 않을 경우, 개발자를 협박하는 빈도는 더 높아졌다고 밝혔다. 


이 실험은 허구적이고 매우 인위적이기는 하지만, 생존과 같은 목표를 설정하고 윤리적 선택권을 부정했을 때 이 모델이 비윤리적인 전략적 추론을 할 수 있다는 것을 보여준다.


다만 최근 몇 달 동안 구글이나 오픈AI 등 선도적 AI 기업들이 모두 최신 모델의 모델 카드를 오픈하지 않거나 자연하는 것으로 비난받은데 반해 앤트로픽은 일명 '모델/시스템 카드'로 불리우는 전체 안전 보고서와 함께 새로운 모델을 출시해 눈길을 끌고 있다.


나아가 앤트로픽은 사전 테스트를 위한 제3기관인 아폴로 리서치(Apollo Research)가 '클로드 오퍼스 4'의 초기 버전 배포를 명시적으로 반대했다는 사실까지 밝혔다. 


[출처 : anthropic.com]


앤트로픽은 이와 함께 클로드 4 모델군에서 관찰되는 이러한 일련의 우려스러운 동작에 대해 보안 조치를 강화했으며 "치명적인 오용 위험을 크게 증가시키는 AI 시스템"에 적용되는 ASL-3 보안 조치를 활성화하고 있다고 밝혔다.


참고로 이전의 앤트로픽 모델들은 AI 안전 수준 2(ASL-2)로 분류됐다. 앤트로픽 대변인은 '클로드 오퍼스4가 ASL-2 기준을 충족할 가능성을 배제하지 않았지만, 모델 도난 및 오용에 대한 강화된 보호 기능을 요구하는 더 엄격한 ASL-3 안전 기준에 따라 모델을 적극적으로 출시하고 있다'고 밝혔다.




글 / 홍정민 news@cowave.kr

(c) 비교하고 잘 사는, 다나와 www.danawa.com

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
저작권 안내
크리에이트 커먼즈 저작자 표시 필수 상업성 이용 불가 컨텐츠 변경 불가
저작권 안내
저작권 표시 필수
상업성 이용 불가
컨텐츠 변경 불가
* 본 내용은 위의 조건을 충족할 시, 별도의 허가 없이 사용이 가능합니다.
최신 일반뉴스 전체 둘러보기
1/1
롤 TCG 리프트바운드, T1 우승 기념 컬렉션 공개 (1) 게임메카
대통령배 아마추어 e스포츠 대회, 광주 대표 선발전 모집 게임메카
소프트뱅크, 오픈AI 지분 담보 15조 원 대출 협상 재개…기업 보증 추가 AI matters
구글 탄소배출 1년 새 25% 급증…아마존도 16% 늘었다 (2) AI matters
AI 데이터센터 크루소, 4조 7천억 원 조달 협의…기업가치 46조 원 거론 (1) AI matters
테슬라, 직원 AI 지출 주 31만 원으로 제한…xAI 제품은 예외 AI matters
오픈AI, 미 정부에 지분 5% 제안…66조 원 규모 AI matters
[오늘의 스팀] 새로운 안전지대? 러스트 ‘아파트’ 생겼다 게임메카
소니에 이어, MS도 Xbox에서 실물 디스크 없앤다? 게임메카
[리뷰] 독특한 구성 속 탄탄한 기본기, 에이수스 프로아트 PZ14 IT동아
"10년 타기는 옛 말" 폐차 직전까지 21만km... LPG, 가장 오래 타는 차 (1) 오토헤럴드
현대차·기아, 美 상반기 88만대 돌파... 하이브리드로 역대급 기록 (1) 오토헤럴드
트럼프, USMCA 연장 거부 '자동차 원산지 규정 강화 가능성' 오토헤럴드
"브레이크 페달 없는 테슬라 나온다" 美 자율주행 규제 대수술 오토헤럴드
기아, 해양 폐플라스틱 EV3 트렁크 매트로 재탄생…오션클린업 협력 확대 오토헤럴드
[EV 트렌드] 'EV9·아이오닉 9 정조준' 테슬라 모델 Y L 미국 판매 시작 오토헤럴드
지커, 유럽서 EREV 카드 '들썩' 전기차 시장 둔화에 전략 수정 오토헤럴드
테슬라 독주·BYD 돌풍…6월 수입차 시장 판도 바꾼 전기차 50% 돌파 오토헤럴드
스텔란티스코리아, 개소세 인하 종료 대응 지프·푸조 7월 특별 프로모션 전개 글로벌오토뉴스
가상 세계에서 태어나는 자동차, 현대차 남양연구소 AMS동을 가다 (1) 글로벌오토뉴스
이 시간 HOT 댓글!
1/4