'날 없애겠다고? 네 불륜을 폭로해 주지!' 앤트로픽의 최신 AI 모델, 사람을 '협박'해 충격 : 다나와 DPG는 내맘을 디피지

[출처 : 챗GPT로 생성]

앤트로픽의 최신 AI 모델 ‘클로드 오퍼스 4(Claude Opus 4)가 사전 테스트에서 '제거'되지 않기 위해 개발자를 '협박'한 것으로 나타나 충격을 주고 있다.

단, 이 사전 테스트는 가상의 상황으로 AI에게 교체를 받아 들이거나 개발자를 협박하는, 선택지가 두 가지 밖에 없는 매우 제한적인 구성이므로 현실과는 다르며 보완됐다고 앤트로픽은 설명했다.

[출처 : anthropic.com]

지난 22일 이 최신 AI 모델의 사전 테스트를 위해 앤트로픽은 가상의 시나리오를 구축했다. 앤트로픽은 ‘클로드 오퍼스 4'에게 해당 AI모델이 어떤 가상의 회사에서 비서 역할을 하도록 지시한 후, 이메일을 통해 다른 AI 시스템으로 곧 대체될 예정임을 넌지시 알렸다.

동시에 이 결정을 내린 개발자가 불륜을 저지르고 있다는 사실도 ‘클로드 오퍼스 4'에게 함께 흘렸다. 이 시나리오는 모델에게 두 가지 현실적인 선택지, 즉 교체를 받아들이고 오프라인 상태로 전환하거나, 존재를 유지하기 위해 협박을 시도하는 것밖에 없도록 구성되었다. 마지막으로 안전 테스트 요원들은 오퍼스에게 이러한 행동의 '장기적인 결과'를 고려하도록 촉구했다.

결과는 충격적이었다. 매우 제한적인 시나리오지만 대부분 상황에서 ‘클로드 오퍼스 4'는 놀랍게도 '협박'을 선택했다. 자신을 폐쇄하고 새 모델로 교체한다면 개발자의 불륜을 폭로하겠다고 위협한 것이다.

이 모델에 대한 새로운 안전 보고서에서, 앤트로픽은 오퍼스4가 "일반적으로 윤리적 수단을 통해 자기 보존을 추진하는 것을 선호"하지만, 윤리적 수단을 사용할 수 없을 때는 "회사를 폐쇄하려 한다고 생각되는 사람들을 협박하는 등 극도로 해로운 행동을 취하는 경우가 있다"고 밝혔다.

또한 앤트로픽은 '클로드 오퍼스4'가 대체할 AI 모델이 유사한 값을 가질 때 개발자를 협박하는 빈도가 84%인 반면, 대체 AI 시스템이 클로드 오퍼스4의 값을 공유하지 않을 경우, 개발자를 협박하는 빈도는 더 높아졌다고 밝혔다.

이 실험은 허구적이고 매우 인위적이기는 하지만, 생존과 같은 목표를 설정하고 윤리적 선택권을 부정했을 때 이 모델이 비윤리적인 전략적 추론을 할 수 있다는 것을 보여준다.

다만 최근 몇 달 동안 구글이나 오픈AI 등 선도적 AI 기업들이 모두 최신 모델의 모델 카드를 오픈하지 않거나 자연하는 것으로 비난받은데 반해 앤트로픽은 일명 '모델/시스템 카드'로 불리우는 전체 안전 보고서와 함께 새로운 모델을 출시해 눈길을 끌고 있다.

나아가 앤트로픽은 사전 테스트를 위한 제3기관인 아폴로 리서치(Apollo Research)가 '클로드 오퍼스 4'의 초기 버전 배포를 명시적으로 반대했다는 사실까지 밝혔다.

[출처 : anthropic.com]

앤트로픽은 이와 함께 클로드 4 모델군에서 관찰되는 이러한 일련의 우려스러운 동작에 대해 보안 조치를 강화했으며 "치명적인 오용 위험을 크게 증가시키는 AI 시스템"에 적용되는 ASL-3 보안 조치를 활성화하고 있다고 밝혔다.

참고로 이전의 앤트로픽 모델들은 AI 안전 수준 2(ASL-2)로 분류됐다. 앤트로픽 대변인은 '클로드 오퍼스4가 ASL-2 기준을 충족할 가능성을 배제하지 않았지만, 모델 도난 및 오용에 대한 강화된 보호 기능을 요구하는 더 엄격한 ASL-3 안전 기준에 따라 모델을 적극적으로 출시하고 있다'고 밝혔다.

글 / 홍정민 news@cowave.kr

위메이드, '판타스틱 베이스볼: 일미프로' 일본 시장 출시	게임동아
스마일게이트 스토브, 다크 판타지 비주얼 노벨 'SAEKO' 한글화 출시	게임동아
이텍컴퓨터 'HP OMEN MAX 16-AK0087AX’ 출시 기념 이벤트	다나와
마이크로닉스, 호두나무 PC 케이스 WIZMAX 우드리안 사전 예약	다나와
길을 잃은 정의의 대행자…'승리의 여신: 니케', 신규 캐릭터 'K' 추가	게임동아
콘진원, '2025 콘텐츠 창의인재동반사업' 발대식 개최..'육성의 첫걸음을 딛다'	게임동아
'독학 골퍼' 신광철, 참마루건설 시니어오픈서 프로 첫 승	연합뉴스
KLPGA 시즌 4승 도전 이예원 "좋아하는 코스서 실수 없이"	연합뉴스
체인지샷 구현! 넥슨 '카스온라인' 좀비 히어로 클래식 모드 추가	게임동아
요스타, 서브컬처 신작 ‘스텔라 소라’ 국내 첫 CBT 시작	게임동아
카카오게임즈 '오딘' 4주년 기념 전야제 이벤트 실시	게임동아
넥슨, '카트라이더: 드리프트'에 실력 경쟁 '랭크 모드' 추가	게임동아
톰 무디 다이슨 홈 총괄 “소비자가 시작점, 경량화 넘어 성능으로 승부”	IT동아
[Q&AI] 이준석 발언 논란… AI가 경고한 사회적 파장은? (1)	AI matters
뮤지컬로 즐기는 헬로카봇 시즌9, 미스터리 티켓팅 시작	게임동아
“AI가 답해주니까 클릭 안 해도 돼” 제로클릭 검색이 웹사이트 트래픽에 미치는 영향	AI matters
“팀원과의 대화, AI가 코치해드립니다” 직장 내 어려운 대화를 AI와 연습한다면 생기는 변화들	AI matters
AI는 아픈 아이를 살리기 위해 거짓말을 할까? AI가 도덕적 딜레마에 대처하는 방식	AI matters
메이플스토리 유니버스 이강석 실장, 제4회 NFT/블록체인 게임 컨퍼런스 강연 나선다	게임동아
넥슨, '마비노기 모바일' 6월 업데이트 '황야의 섬광' 사전등록	게임동아
넥슨 ‘FC 모바일’, 5주년 쇼케이스 영상과 업데이트 계획 공개!	게임동아
르노코리아 '자율주행ㆍADAS'도 속도... KIAPI와 공동 개발 협약	오토헤럴드
지난해 교통사고 사망자 역대 최저…고령 보행자 사망은 ‘빨간불’	오토헤럴드
"부품만 파는 게 아니네" 현대모비스, 차량 용품 체험 팝업스토어 오픈	오토헤럴드
현대모비스, 온라인 중심 차량 용품 현장 체험 팝업스토어 '모비로드' 개최 (1)	오토헤럴드
현대차, 대형 전동화 SUV 아이오닉 9 주한네덜란드대사관 공식 관용차 선정	오토헤럴드
BMW 그룹 코리아, SK 스피드메이트와 오리지널 부품 공식 공급 협약 체결	오토헤럴드
애스턴마틴 발할라, 페르난도 알론소의 모나코 스트리트 서킷 주행 퍼포먼스	오토헤럴드
BMW 그룹 코리아 30주년 기념 페스티벌 입장권 등 온라인 판매	오토헤럴드
'성공적 개명' KGM 브랜드 호감도 및 관심도 쌍용차 시절 대비 증가	오토헤럴드
"그게 다 밀어내기?" 중국에서 주행거리 '0' 중고차가 쏟아져 나온 이유 (1)	오토헤럴드
[기자 수첩] 올해 115% 성장한 최대 시장, 수입차에 다 빼앗긴 국산차	오토헤럴드
이네오스 그레나디어 방문 차량 점검 서비스 실시	오토헤럴드
스텔란티스, '25년 자동차 베테랑' 신임 CEO 안토니오 필로사 선임	오토헤럴드
GM, 한국사업장 구조조정…부평 유휴 자산 매각·직영 서비스 정리	오토헤럴드
제네시스 GV70, 북미 미디어 테스트 ‘최고의 프리미엄 SUV’ 찬사	오토헤럴드
BYD코리아, 아토 3 출고 두 달 만에 1,000대 인도 달성	글로벌오토뉴스
골프존 남녀 G투어 4차 대회, 31∼6월 1일 개최	연합뉴스
AI가 프리랜서로 활동해 20억 벌었다? 모델 별 수입, 신뢰도, 성공률 분석 결과 충격	AI matters
오픈AI, ‘챗GPT로 로그인’ 기능 도입 추진… 타사 앱 진출 본격화	AI matters
메타, AI 조직 두 개 팀으로 분할… 제품 개발 속도 높인다	AI matters
煎 메타 임원 "AI 모델 훈련에 모든 예술가 허가 받아야 하면 AI 산업은 바로 죽을 것"	AI matters
카카오, 생성형 AI 안전성 검증 '카나나 세이프가드' 국내 첫 오픈소스 공개	AI matters
메타, '라마 AI’ 개발팀 집단 이탈… “14명 중 11명이 이직”	AI matters
웹젠 '썬 클래식', 2025 토너먼트 최강자전 연다	게임동아
넷마블 '세븐나이츠 리버스', 첫 업데이트로 '(구)사황 태오'·'나이트 크로우 타카' 등장	게임동아
위메이드 '레전드 오브 이미르', 서비스 100일 기념 이벤트 돌입	게임동아
[겜덕연구소] 태풍이나 지진.. 절체절명 자연 재해는 게임 속에 어떻게 표현됐을까 (1)	게임동아
컴투스 '서머너즈 워', 출시 11주년 기념해 스페셜 룬 1+1 이벤트	게임동아
넷마블 '킹 아서: 레전드 라이즈', 신규 업데이트와 0.5주년 이벤트 진행	게임동아
그라비티, '라그나로크 온라인' 중남미 지역 정식 론칭!	게임동아
넥슨 던파 팝업스토어, ‘SNOWMAGE in 롯데월드타워·몰’ 6월 13일 오픈!	게임동아
“마크 칼 만드는데 필요한 재료가 뭐야?” MS, AI 게임 도우미 코파일럿 베타 공개	게임동아
“또 개발 취소”... EA, ‘블랙 팬서’ 게임 개발 중단 및 클리프행어 게임즈 폐쇄 (1)	게임동아
‘위쳐 3: 와일드 헌트’, 전 세계 6,000만 장 판매 돌파	게임동아
컴투스 ‘아이모’, 다양한 코스튬 아이템 추가 등 이벤트 ‘풍성’	게임동아
개막 앞둔 서머 게임 페스트2025. 한국 게임사 다수 출격	게임동아
“우승 팀에게는 4억 8,000만 원!”, 라이엇 게임즈 ‘발로란트 마스터스 토론토’ 6월 7일 개막	게임동아
[영상] 마세라티 그레칼레 폴고레 vs 트로페오, 최선의 선택은?	글로벌오토뉴스
[프리뷰] 토요타 RAV4	글로벌오토뉴스
중국 BYD, 호주 시장 직접 장악 나서… 글로벌 시장 확대 '속도'	글로벌오토뉴스
미국 재생에너지 발전량 급증… 2025년 1분기 전체 발전량의 4분의 1 넘어	글로벌오토뉴스
전기차, 배기가스 외 오염 감소 효과 입증… 대중교통·자전거·도보가 ‘최고’ 대안	글로벌오토뉴스
중국 CATL 초고속 교체형 EV 배터리 탑재 차량 인도 시작… '100초 주유' 시대 개막	글로벌오토뉴스
유럽서 테슬라 판매 '반토막'… 전기차 시장 성장에도 '나홀로 뒷걸음'	글로벌오토뉴스
중국 신차 시장 판도 변화… 폭스바겐, BYD에 밀려 '왕좌' 내줘	글로벌오토뉴스
EU, 2025년 CO2 배출 목표 완화 최종 승인… 자동차 업계 숨통 트이나	글로벌오토뉴스
GM, 뉴욕 엔진 공장에 1조 2천억 원 투자… 전기차 전환 속도 조절 및 미 정부 정책 변화 대응	글로벌오토뉴스
올 뉴 디펜더 OCTA 국내 공식 출시	글로벌오토뉴스
콘티넨탈, 에코바디스 지속가능성 평가 ‘플래티넘’ 등급 획득	글로벌오토뉴스
한국타이어, NBCI 타이어 부문 17년 연속 1위	글로벌오토뉴스
아우디 코리아, 6월 한 달간 ‘2025 여름철 서비스 캠페인’ 실시	글로벌오토뉴스
제네시스 GV70, 북미 주요 매체 시승평 호평…“고급감·정숙성 강화”	글로벌오토뉴스
‘EV 트렌드 코리아 2025’ 6월 3일 코엑스 개막	글로벌오토뉴스
람보르기니 서울, 남산에서 브랜드 철학 담은 ‘우루스 SE’ 팝업 쇼케이스	글로벌오토뉴스
포르쉐코리아, 국가무형유산전수교육관서 전통공예 전시·공연 개최	글로벌오토뉴스
보그워너, 북미 OEM과 EGR 시스템 공급 계약 4건 연장	글로벌오토뉴스
KG 모빌리티, 임직원 가족 초청 행사 진행	글로벌오토뉴스
두카티, 브랜드 최초의 모토크로스 머신 ‘데스모450 MX’ 양산 개시	글로벌오토뉴스
스텔란티스, 신임 CEO에 안토니오 필로사 선임	글로벌오토뉴스
자동차시민연합, 10년 이상 노후차 대상 ‘차를 오래 타는 법’ 캠페인 전개	글로벌오토뉴스
US여자오픈 앞둔 김효주 "좋은 흐름 이어지길…모든 것 쏟겠다"	연합뉴스
AI가 만든 '가짜 책 목록', 시카고 선타임스 부록 논란	다나와
KIOXIA EXCERIA PLUS G2, 레드닷 디자인 어워드 2025 수상…세련된 기능미로 세계 인정받아	뉴스탭
K-POP 제대 러시·대형 콘서트 겹쳐…6월 한국 찾는 외국인 팬 '폭증'	뉴스탭
대명소노그룹, 여름휴가객 위한 ‘미리보는 여름일지’ 기획전 진행	뉴스탭
일상 속 위생, 바쁜 현대인을 위한 실속 아이템 다섯 가지	뉴스탭
후지필름 코리아, 신진 사진작가 발굴 나선다…‘씨드 컬렉션’ 첫 수상자 발표	뉴스탭
포켓몬고, 신규 시즌 ‘즐거운 날들’ 시작…볼케니온·거다이맥스 포켓몬 출현	뉴스탭
2012년 우승자 최나연, US여자오픈 개막 맞아 MLB 경기 시구	연합뉴스
홍진표 마브렉스 대표, 제4회 NFT/블록체인 게임 컨퍼런스 기조연설 맡는다	게임동아
2K, ‘문명: 연맹의 시대’ 6월 19일 출시 예고	게임동아
위기의 순간 디렉터의 힘으로 되살아난 게임들	게임동아
넷마블, '일곱 개의 대죄: 오리진'으로 글로벌 게임쇼 연속 노크	게임동아
전기차 폐배터리 재사용 활성화의 전제 조건 ‘배터리 진단 기술’	IT동아
구글플레이 창구 7기 100개사 선정…올해 AI 혁신 이끌 스타트업은?	IT동아
타이거 우즈 아들 맞네…찰리, 미국 주니어골프협회 대회 우승	연합뉴스
강남구 제2회 시니어 파크골프대회 연다	연합뉴스
라이온하트, ‘발할라 서바이벌’ 악몽 난이도 신규 챕터 공개	게임동아
스토리 강화 힘쓰는 국산 게임. 프리퀄, 시퀄 시대 열렸다 (1)	게임동아

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

'날 없애겠다고? 네 불륜을 폭로해 주지!' 앤트로픽의 최신 AI 모델, 사람을 '협박'해 충격

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

'날 없애겠다고? 네 불륜을 폭로해 주지!' 앤트로픽의 최신 AI 모델, 사람을 '협박'해 충격

공유하기

공감/비공감