
출처 : 오픈AI
11월 19일(현지시각), 오픈AI가 복잡하고 장기적인 코딩 과제를 안정적으로 수행할 수 있는 새로운 AI 모델 GPT-5.1-Codex-Max를 공식 출시했다. 이 모델은 소프트웨어 엔지니어링, 수학, 연구 등 에이전트(agent) 역할이 필요한 작업에 최적화된 것이 특징이다.
GPT-5.1-Codex-Max는 여러 개의 컨텍스트 창을 동시에 관리할 수 있게 설계되었으며, 이를 위해 자체적으로 정보를 압축하는 콤팩션(compaction) 과정을 도입했다. 이를 통해 수백만 개의 토큰(입출력 단위)을 하나의 과제로 유지하면서도 코드 리팩터링(구조 개선), 디버깅, 반복 작업 등 매우 긴 시간 동안 일관된 작업을 수행할 수 있다. 내부 테스트에서는 24시간 이상 독립적으로 에이전트 루프를 돌리며 오류를 수정하고 기능을 구현하는 모습도 확인되었다.

출처 : 오픈AI
또 이전의 GPT-5.1-Codex 대비 “추론 효율성(reasoning efficiency)”이 눈에 띄게 개선되었다. 예컨대, SWE-Bench Verified라는 벤치마크에서 중간 수준의 추론 설정으로도 동일한 성능을 내면서 생각에 사용하는 토큰 수(thinking token)를 약 30% 줄일 수 있었다. 오픈AI가 공개한 벤치마크에 따르면, GPT-5.1-Codex-Max는 이전 버전 대비 성능이 눈에 띄게 향상되어 SWE-Bench Verified 기준 77.9%, SWE-Lancer IC SWE에서는 79.9%, TerminalBench 2.0에서는 58.1%를 기록했다.
응답 지연(latency)이 중요하지 않은 작업을 위해 ‘Extra High(xhigh)’라는 새로운 추론 모드도 제공한다. 이 모드는 더 오랜 시간 모델이 “생각”하도록 허용해 더 깊이 있는 결과를 얻는 데 유리하나, 일반적인 용도에는 중간 수준(medium)을 권장한다고 한다. 프론트 엔드(웹 사용자 인터페이스) 코딩 작업에서도 이전 모델과 비슷한 품질을 내며 비용은 낮춘 것으로 설명된다.

출처 : 오픈AI
오픈AI는 GPT-5.1-Codex-Max에 다양한 보안 조치를 통합했다. 모델 수준에서는 위험한 요청이나 악용 시나리오에 대응하는 정밀한 안전 훈련을 수행했으며, 제품 수준에서는 샌드박스(sandbox) 실행 환경을 기본으로 제공해 파일 쓰기 제한과 네트워크 접근 통제를 가능하게 했다. 또한 모델이 장시간 동작할 경우 생성된 코드를 개발자가 반드시 검토해야 한다는 권고도 포함돼 있다. 오픈AI 측은 “Codex는 보조 리뷰어 역할이지, 인간 리뷰를 완전히 대체할 수 없다”고 설명한다.
GPT-5.1-Codex-Max는 현재 Codex 플랫폼에서 사용 가능하다. CLI(명령줄 인터페이스), IDE(통합 개발환경) 확장, 클라우드, 코드 리뷰 등 다양한 환경을 지원하며, 향후 API(응용 프로그램 인터페이스) 버전도 제공될 예정이다. 또한, ChatGPT Plus, Pro, Business, Edu, Enterprise 플랜 사용자에게 기본 모델로 제공되며, 이전 Codex 모델은 새 버전으로 대체된다.
글 / 김지훈 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com








