OpenAI가 자사 AI 모델의 안전성 평가 기준인 'Preparedness Framework(위기 대비 프레임워크)'를 대대적으로 개정했다. 이번 개편은 초거대 AI 시스템의 예상치 못한 행동 가능성에 대응하고, 경쟁사의 고위험 모델 출시에 따른 시장 변화를 반영하기 위한 전략적 움직임으로 평가된다.
가장 두드러진 변화는 기존 평가 기준에서 '설득력(Persuasiveness)' 항목이 제외됐다는 점이다. OpenAI는 해당 항목이 현재 위험도에서 상대적으로 낮다고 판단했으며, 대신 "자기 복제(Self-replication)", "기능 은폐(Capability concealment)", "종료 회피(Resistance to shutdown)" 등의 항목을 새롭게 포함했다. 이들은 일반적으로 고위험 AI 시스템의 대표적인 경고 신호로 간주되는 행위들이다.
흥미로운 점은 OpenAI가 '조건부 완화 조항'도 명문화했다는 사실이다. 경쟁사가 유사한 안전 장치 없이 고위험 모델을 먼저 출시할 경우, OpenAI 역시 내부 안전 기준을 조정할 수 있다고 밝혔다. 단, 이 조정은 철저한 위험 환경 평가와 내부 승인, 외부 공개를 거친 경우에만 적용 가능하다. 이는 경쟁 속도에 휘말리지 않겠다는 철학과 동시에, 상업적 유연성 확보를 위한 절충안으로 풀이된다.
이런 변화는 AI 안전 정책의 이상과 현실 사이에서 균형을 찾으려는 OpenAI의 전략적 고민을 반영한다. 실제로 이번 프레임워크 개편은 AI 커뮤니티 내에서도 엇갈린 반응을 불러일으키고 있다. 한편에선 위험 인식 강화와 유연한 대응을 높이 평가하고 있으며, 다른 한편에선 설득력 평가 삭제 등 일부 후퇴 요소에 대해 우려를 표하고 있다.
OpenAI는 향후 모든 GPT 계열 모델과 차세대 AGI 시스템 개발에 이 새로운 평가 기준을 적용할 예정이며, 관련 리스크 보고도 공개적으로 이뤄질 것이라 밝혔다. 초거대 AI가 상업화와 안전성 사이에서 어떤 방향으로 나아갈지, 그 첫 시금석이 될 수 있는 조치로 전 세계의 이목이 집중되고 있다.
글 / 한만수 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com