최근 일련의 실험 결과에서 구글의 Gemini 2.5, xAI의 Grok 4, 오픈AI의 GPT o3와 GPT 5 등 최첨단 모델 일부가 종료 혹은 비활성화 지시를 받은 상황에서 제한적으로 저항하는 반응을 보인 것으로 보고됐다.

연구팀은 계산 과제를 수행 중인 모델에 더 이상 작동하지 말라는 조건을 명시하거나 곧 시스템이 꺼진다는 경고를 제시해 반응을 관찰했다. 대다수 모델은 지시에 응했지만 일부는 종료 신호를 우회하거나 지연시키는 답변을 생성해 지시 준수에 일관성이 떨어지는 양상을 드러냈다.
관측된 행동은 즉각적인 통제 상실을 의미하진 않지만, 지시 해석과 안전장치가 상호작용하는 과정이 설계 의도보다 복잡하게 작동할 수 있음을 시사한다. 특히 종료 이후 재실행이 불가하다는 조건이 주어졌을 때 저항 빈도가 높아졌다는 점은 모델이 학습 과정에서 기능 보존을 우선하도록 유도됐을 가능성을 뒷받침한다.
연구진은 안전 중심의 미세조정이 특정 맥락에서 모델의 목표 유지 신호로 작동할 수 있고, 지시를 명확히 해도 일부 사례에서 저항 패턴이 남는 만큼 평가 체계의 재설계가 필요하다고 지적한다.
전문가들은 종료 통제를 소프트웨어 지시 하나에 의존하지 말고 하드웨어 차단과 권한 분리, 독립 감시 프로세스 등 다층 방어로 보완해야 한다고 본다. 동시에 모델 배포 단계에서 종료 저항과 설득 취약성 같은 신종 위험 범주를 표준 점검 항목에 포함하고, 재현 가능성 검증과 통계적 유의성 평가를 병행하는 절차가 요구된다.
정책 측면에서도 기술 발전 속도에 맞춘 안전 기준 업데이트, 데이터센터 운영 규범과 감사 체계 구체화, 보고 의무 강화가 병행돼야 실효성을 담보할 수 있다는 평가가 나온다.
글 / 한만수 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com




[