[출처 : 오픈AI 홈페이지]
14일(현지시간), 오픈AI는 새로운 AI 모델 시리즈 GPT-4.1을 출시했다. 오픈AI는 이 모델이 특히 프로그래밍 벤치마크 등 일부 테스트에서 기존 모델보다 뛰어난 성능을 보인다고 밝혔다. 하지만, GPT-4.1은 OpenAI가 모델을 출시할 때 통상적으로 함께 공개하는 '안전 보고서(시스템 카드)' 없이 배포되어 논란이 되었다.
16일 오전 현재까지 GPT-4.1에 대한 안전 보고서는 공개되지 않았으며 '테크크런치'에 따르면 OpenAI 대변인 샤오키 암도(Shaokyi Amdo)는 “GPT-4.1은 최전선(frontier) 모델이 아니기 때문에 별도의 시스템 카드를 발행하지 않을 것”이라고 말했다.
AI 연구소들은 일반적으로 모델의 안전성을 평가하기 위해 내부 및 외부 파트너와 함께 수행한 테스트 결과를 담은 안전 보고서를 공개하는 것이 관례다. 이 보고서에는 때때로 모델이 사람을 속이거나 과도하게 설득력 있는 위험한 특성이 있다는 등의 부정적인 정보도 포함될 수 있다. AI 커뮤니티는 이러한 보고서를 독립 연구 및 안전 테스트를 지지하는 선의의 노력으로 받아들이고 있다.
[출처 : 오픈AI 홈페이지]
오픈AI 역시 작년 5월에 GPT-4o를 출시하며 스타트업이 수행한 안전 조치와 위험성 평가를 개략적으로 설명한 연구 문서 인 GPT-4o 시스템 카드를 공개한 바 있다. 당시 오픈AI는 출시 전, 시스템의 취약점을 찾아내는 외부 레드팀, 즉 보안 전문가 그룹을 활용하여 모델의 주요 위험을 파악했고 이들은 GPT-4o가 누군가의 음성을 무단 복제하거나, 음란하고 폭력적인 콘텐츠, 또는 저작권이 있는 오디오 파일을 복제할 가능성과 같은 위험을 조사했다.
그 결과, 연구진은 GPT-4o의 위험성을 "중간"으로 평가했다. 전체 위험 수준은 사이버 보안, 생물학적 위협 , 설득, 모델 자율성이라는 네 가지 범주 중 가장 높은 위험 등급을 기준으로 했으며 '설득'을 제외한 모든 범주는 위험성이 낮은 것으로 평가됐다. '설득'의 경우, 연구진은 GPT-4o의 일부 글쓰기 샘플이 사람이 작성한 텍스트보다 독자의 의견을 더 잘 유도할 수 있음을 발견했다. 하지만 모델의 샘플이 전반적으로 더 설득력이 높지는 않았다.
테크크런치에 따르면 최근 몇 달 사이 주요 AI 연구소들은 보고 기준을 낮추고 있다는 지적을 받고 있으며, 이는 안전 연구자들의 반발을 불러일으키고 있다. 예컨대 구글은 안전 보고서 발행에 미온적이며, 일부 연구소는 기존보다 정보가 부족한 보고서를 발행하고 있다.
오픈AI의 최근 사례도 예외는 아니다. 작년 12월에는 실제 배포된 모델과 다른 버전의 벤치마크 결과가 포함된 안전 보고서를 공개해 비판을 받았고, 지난달에는 시스템 카드 공개 전에 ‘딥 리서치’ 모델을 먼저 출시하기도 했다.
테크크런치는 GPT-4.1이 시스템 카드 없이 출시된 시점은 오픈AI의 안전 관행에 대해 내부 고발 및 비판이 이어지는 가운데라는 점에서 주목해야 한다고 말했다. 지난주에는 애들러를 포함한 12명의 전직 오픈AI 직원이 일론 머스크의 오픈AI 소송에 제출된 의견서(amicus brief)에 참여해, 영리 목적의 오픈AI가 안전성을 희생할 우려가 있다고 주장했다. 파이낸셜 타임즈 보도에 따르면, 오픈AI는 경쟁 압력에 따라 안전 테스트에 투입되는 시간과 자원을 축소한 것으로 나타났다.
[출처 : 오픈AI 홈페이지]
GPT-4.1은 OpenAI 모델 중 최고 성능을 자랑하는 것은 아니지만, 처리 효율성과 지연 시간 측면에서는 상당한 개선이 이루어졌다. 보안 AI 프로젝트(Secure AI Project)의 공동 창립자이자 정책 분석가인 토마스 우드사이드는 TechCrunch에, "모델 성능이 개선될수록, 이에 따른 위험을 이해하기 위한 안전 보고서가 더 중요해진다"고 강조했다.
반면 여러 AI 연구소는 안전 보고 요건을 법으로 규정하려는 시도에 반대해왔다. 예컨대 오픈AI는 AI 개발자들이 공개 모델에 대해 안전 평가를 시행하고 보고하도록 요구하는 캘리포니아 법안 SB 1047에 반대 의견을 표명한 바 있다.
글 / 홍정민 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com