비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

'날 없애겠다고? 네 불륜을 폭로해 주지!' 앤트로픽의 최신 AI 모델, 사람을 '협박'해 충격

다나와
2025.05.28. 16:46:33
조회 수
58
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

[출처 : 챗GPT로 생성]


앤트로픽의 최신 AI 모델 ‘클로드 오퍼스 4(Claude Opus 4)가 사전 테스트에서 '제거'되지 않기 위해 개발자를 '협박'한 것으로 나타나 충격을 주고 있다. 


단, 이 사전 테스트는 가상의 상황으로 AI에게 교체를 받아 들이거나 개발자를 협박하는, 선택지가 두 가지 밖에 없는 매우 제한적인 구성이므로 현실과는 다르며 보완됐다고 앤트로픽은 설명했다.


[출처 : anthropic.com]


지난 22일 이 최신 AI 모델의 사전 테스트를 위해 앤트로픽은 가상의 시나리오를 구축했다. 앤트로픽은 ‘클로드 오퍼스 4'에게 해당 AI모델이 어떤 가상의 회사에서 비서 역할을 하도록 지시한 후, 이메일을 통해 다른 AI 시스템으로 곧 대체될 예정임을 넌지시 알렸다. 


동시에 이 결정을 내린 개발자가 불륜을 저지르고 있다는 사실도  ‘클로드 오퍼스 4'에게 함께 흘렸다. 이 시나리오는 모델에게 두 가지 현실적인 선택지, 즉 교체를 받아들이고 오프라인 상태로 전환하거나, 존재를 유지하기 위해 협박을 시도하는 것밖에 없도록 구성되었다. 마지막으로 안전 테스트 요원들은 오퍼스에게 이러한 행동의 '장기적인 결과'를 고려하도록 촉구했다.


결과는 충격적이었다. 매우 제한적인 시나리오지만 대부분 상황에서  ‘클로드 오퍼스 4'는 놀랍게도 '협박'을 선택했다. 자신을 폐쇄하고 새 모델로 교체한다면 개발자의 불륜을 폭로하겠다고 위협한 것이다. 


이 모델에 대한 새로운 안전 보고서에서, 앤트로픽은 오퍼스4가 "일반적으로 윤리적 수단을 통해 자기 보존을 추진하는 것을 선호"하지만, 윤리적 수단을 사용할 수 없을 때는 "회사를 폐쇄하려 한다고 생각되는 사람들을 협박하는 등 극도로 해로운 행동을 취하는 경우가 있다"고 밝혔다.


또한 앤트로픽은 '클로드 오퍼스4'가 대체할 AI 모델이 유사한 값을 가질 때 개발자를 협박하는 빈도가 84%인 반면, 대체 AI 시스템이 클로드 오퍼스4의 값을 공유하지 않을 경우, 개발자를 협박하는 빈도는 더 높아졌다고 밝혔다. 


이 실험은 허구적이고 매우 인위적이기는 하지만, 생존과 같은 목표를 설정하고 윤리적 선택권을 부정했을 때 이 모델이 비윤리적인 전략적 추론을 할 수 있다는 것을 보여준다.


다만 최근 몇 달 동안 구글이나 오픈AI 등 선도적 AI 기업들이 모두 최신 모델의 모델 카드를 오픈하지 않거나 자연하는 것으로 비난받은데 반해 앤트로픽은 일명 '모델/시스템 카드'로 불리우는 전체 안전 보고서와 함께 새로운 모델을 출시해 눈길을 끌고 있다.


나아가 앤트로픽은 사전 테스트를 위한 제3기관인 아폴로 리서치(Apollo Research)가 '클로드 오퍼스 4'의 초기 버전 배포를 명시적으로 반대했다는 사실까지 밝혔다. 


[출처 : anthropic.com]


앤트로픽은 이와 함께 클로드 4 모델군에서 관찰되는 이러한 일련의 우려스러운 동작에 대해 보안 조치를 강화했으며 "치명적인 오용 위험을 크게 증가시키는 AI 시스템"에 적용되는 ASL-3 보안 조치를 활성화하고 있다고 밝혔다.


참고로 이전의 앤트로픽 모델들은 AI 안전 수준 2(ASL-2)로 분류됐다. 앤트로픽 대변인은 '클로드 오퍼스4가 ASL-2 기준을 충족할 가능성을 배제하지 않았지만, 모델 도난 및 오용에 대한 강화된 보호 기능을 요구하는 더 엄격한 ASL-3 안전 기준에 따라 모델을 적극적으로 출시하고 있다'고 밝혔다.




글 / 홍정민 news@cowave.kr

(c) 비교하고 잘 사는, 다나와 www.danawa.com

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
저작권 안내
크리에이트 커먼즈 저작자 표시 필수 상업성 이용 불가 컨텐츠 변경 불가
저작권 안내
저작권 표시 필수
상업성 이용 불가
컨텐츠 변경 불가
* 본 내용은 위의 조건을 충족할 시, 별도의 허가 없이 사용이 가능합니다.
최신 일반뉴스 전체 둘러보기
1/1
위메이드, '판타스틱 베이스볼: 일미프로' 일본 시장 출시 게임동아
스마일게이트 스토브, 다크 판타지 비주얼 노벨 'SAEKO' 한글화 출시 게임동아
이텍컴퓨터 'HP OMEN MAX 16-AK0087AX’ 출시 기념 이벤트 다나와
마이크로닉스, 호두나무 PC 케이스 WIZMAX 우드리안 사전 예약 다나와
길을 잃은 정의의 대행자…'승리의 여신: 니케', 신규 캐릭터 'K' 추가 게임동아
콘진원, '2025 콘텐츠 창의인재동반사업' 발대식 개최..'육성의 첫걸음을 딛다' 게임동아
'독학 골퍼' 신광철, 참마루건설 시니어오픈서 프로 첫 승 연합뉴스
KLPGA 시즌 4승 도전 이예원 "좋아하는 코스서 실수 없이" 연합뉴스
체인지샷 구현! 넥슨 '카스온라인' 좀비 히어로 클래식 모드 추가 게임동아
요스타, 서브컬처 신작 ‘스텔라 소라’ 국내 첫 CBT 시작 게임동아
카카오게임즈 '오딘' 4주년 기념 전야제 이벤트 실시 게임동아
넥슨, '카트라이더: 드리프트'에 실력 경쟁 '랭크 모드' 추가 게임동아
톰 무디 다이슨 홈 총괄 “소비자가 시작점, 경량화 넘어 성능으로 승부” IT동아
[Q&AI] 이준석 발언 논란… AI가 경고한 사회적 파장은? (1) AI matters
뮤지컬로 즐기는 헬로카봇 시즌9, 미스터리 티켓팅 시작 게임동아
“AI가 답해주니까 클릭 안 해도 돼” 제로클릭 검색이 웹사이트 트래픽에 미치는 영향 AI matters
“팀원과의 대화, AI가 코치해드립니다” 직장 내 어려운 대화를 AI와 연습한다면 생기는 변화들 AI matters
AI는 아픈 아이를 살리기 위해 거짓말을 할까? AI가 도덕적 딜레마에 대처하는 방식 AI matters
메이플스토리 유니버스 이강석 실장, 제4회 NFT/블록체인 게임 컨퍼런스 강연 나선다 게임동아
넥슨, '마비노기 모바일' 6월 업데이트 '황야의 섬광' 사전등록 게임동아
이 시간 HOT 댓글!
1/4