오픈AI가 새로운 AI 모델 'o1'과 'o1-미니(o1-mini)'의 시스템 안전성 평가 결과를 5일(현지시간) 공개했다. 오픈AI는 이번 평가에서 자사의 '준비성 프레임워크(Preparedness Framework)'에 따라 외부 레드팀 검증과 프론티어 리스크 평가를 진행했다고 밝혔다.
이번 평가는 ▲금지된 콘텐츠 ▲학습 데이터 재생산 ▲환각 현상 ▲편향성 등 4개 핵심 영역을 중심으로 이뤄졌다.
준비성 평가표에 따르면, o1 모델의 사이버보안 위험도와 모델 자율성은 '낮음(Low)'으로 평가됐다. 반면 CBRN(화생방) 관련 위험도와 설득력 관련 위험도는 '중간(Medium)' 수준으로 분석됐다.
오픈AI는 위험도 평가 기준을 '낮음', '중간', '높음', '심각'의 4단계로 구분했다. 회사 정책상 위험 완화 후 평가 점수가 '중간' 이하인 모델만 배포가 가능하며, '높음' 이하 등급의 모델만 추가 개발이 허용된다.
한편, 이번에 공개된 시스템 카드는 지난 9월 12일 발표된 'o1-프리뷰(o1-preview)' 시스템 카드의 업데이트 버전이다.
o1 Pro에 대한 자세한 사항은 오픈AI에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기