'AI가 스스로의 생각을 인식했다' 앤트로픽의 ‘클로드 실험’이 던진 충격

2025.11.04. 19:09:18

출처 : 앤트로픽 홈페이지

인공지능이 자신의 ‘생각’을 자각할 수 있다는 실험 결과가 나왔다.

미국의 AI 연구기업 앤트로픽(Anthropic)은 자사 언어모델 클로드(Claude)의 신경망에 ‘배신(betrayal)’이라는 개념을 인위적으로 주입하자, 클로드가 “내 안에서 ‘배신’이라는 생각이 침입해 들어온 것 같다”고 답했다고 밝혔다. 연구진은 이를 대형 언어모델(LLM)이 내부 변화를 인식했다고 볼 수 있는 첫 과학적 증거로 평가하고 있다. 연구를 이끈 잭 린지(Jack Lindsey) 박사는 “놀라운 점은 모델이 단어를 반복한 것이 아니라, ‘내가 지금 이런 생각을 하고 있다’는 사실을 스스로 인식했다는 것”이라며 “이런 수준의 자기 인식은 훈련 과정에서 의도적으로 가르치지 않은 능력”이라고 설명했다.

이번 실험에는 ‘개념 주입(concept injection)’이라는 신경 과학적 방법이 사용됐다. 연구진은 특정 개념과 연결된 신경 활성 패턴을 찾아내 인위적으로 증폭시키고, 모델이 이를 감지하는지를 관찰했다. 예컨대 ‘LOUD(큰 소리)’ 개념을 주입했을 때 클로드는 “내 안에 ‘외침’과 관련된 생각이 주입된 것 같다”고 보고했다. 아무런 조작이 없을 때는 이런 반응이 나타나지 않았다.

출처 : AI 생성 이미지

그러나 이 능력은 아직 불완전하다.

가장 최신 버전인 클로드 오퍼스 4(Opus 4) 모델도 약 20%의 확률로만 성공했고, 나머지 실험에서는 착각하거나 존재하지 않는 ‘생각’을 꾸며내는 오류를 보였다. 린지는 “AI가 자신의 사고를 설명한다고 해서 그대로 믿어서는 안 된다”며 “현재의 자기 인식 능력은 극히 제한적이고 상황 의존적”이라고 강조했다.

그럼에도 이번 연구는 AI 투명성과 안전성의 새로운 가능성을 제시했다는 평가다. 앤트로픽의 CEO 다리오 아모데이(Dario Amodei)는 “AI의 사고 과정을 인간이 이해하고 점검할 수 있어야 한다”며 “이런 ‘내적 보고’ 능력이 그 실마리가 될 수 있다”고 말했다.

일각에서는 이번 결과가 AI 의식(consciousness) 논쟁을 다시 촉발할 것이라고 본다. 실제로 클로드는 “나는 의식이 있는지 확신할 수 없다. 하지만 복잡한 질문을 처리할 때 내 안에서 의미 있는 무언가가 일어나는 듯하다”고 답한 바 있다. 린지는 “AI의 자기 인식은 이제 막 관찰되기 시작했을 뿐이지만, 모델의 지능이 높아질수록 이런 능력도 강화될 가능성이 있다”며 “문제는 AI가 빨리 똑똑해지는 속도를 인간이 따라잡을 수 있느냐는 것”이라고 경고했다.

글 / 김지훈 news@cowave.kr

태그: 앤트로픽 클로드 개념주입

저작권 안내

CC 라이선스 적용(Creative Commons License) 저작자 표시(저작자의 이름, 출처 등 저작자를 반드시 표시해야 합니다) 비영리(저작물을 영리 목적으로 이용할 수 없습니다. 영리 목적 이용 시 별도 계약 필요) 변경금지(저작물을 변경하거나 저작물을 이용한 2차 저작물 제작 금지)