AI 이미지 생성의 공식이 나왔다, 구조화된 프롬프트가 일관성을 95%까지 끌어올린다

2026.03.09. 20:39:03

374

구글(Google)의 최신 이미지 생성 모델 '제미나이 3 프로 이미지(Gemini 3 Pro Image)'를 전문가 수준으로 제어하는 방법론이 공개됐다. 독립 연구자 루카 카차니가(Luca Cazzaniga)가 6개월간 약 4,800장의 이미지를 생성하며 체계적으로 정리한 'SCHEMA' 프레임워크가 그 주인공이다. 이 방법론은 AI 이미지 생성이 단순한 취미 도구를 넘어 전문 생산 환경에서 실제로 사용되는 시대에, 결과물의 일관성과 정밀도를 획기적으로 높일 수 있는 실용적 해법으로 주목받고 있다.

SCHEMA란 무엇인가, 탄생 배경과 핵심 개념

SCHEMA는 '조화롭게 설계된 모듈식 구조를 위한 구조화 요소(Structured Components for Harmonized Engineered Modular Architecture)'의 약자다. 이 방법론은 부동산 사진, 광고 캠페인, 편집용 콘텐츠, 인포그래픽(infographic, 정보를 시각적으로 표현한 그래픽) 등 실제 상업 현장에서의 6개월에 걸친 경험을 바탕으로 만들어졌다.

AI 이미지 생성 모델들이 빠르게 발전하면서, 이를 실제 업무에 적용하려는 전문가들 사이에서 공통적인 문제가 드러났다. 모델이 아름다운 이미지를 만들 수 있는 능력을 갖췄음에도, 브랜드 지침에 맞는 색상, 일관된 조명, 텍스트 정확성 등 현업에서 요구되는 정밀한 결과물을 안정적으로 뽑아내는 것은 전혀 다른 문제였다. 기존의 프롬프트(prompt, AI에게 내리는 명령어) 가이드는 대부분 특정 모델에 맞지 않는 일반론이거나, 커뮤니티에서 검증 없이 떠도는 단편적인 팁에 불과했다.

논문(p.1~2)에 따르면, SCHEMA는 이 공백을 메우기 위해 제미나이 3 프로 이미지에 특화된 방법론으로 설계됐다. 850회의 검증된 API(Application Programming Interface, 프로그램 간 통신 규격) 예측 결과와 약 621개의 구조화된 프롬프트 분석을 바탕으로 한다.

3단계 제어 구조, 탐색에서 납품까지

SCHEMA의 핵심 설계 철학 중 하나는 '3단계 점진적 제어 구조'다. BASE, MEDIO, AVANZATO의 세 단계로 나뉘며, 각 단계는 AI의 창의성과 사람의 제어권 비율을 전혀 다르게 설정한다.

BASE 단계는 AI의 창의성을 약 95%까지 허용하며, 사람의 개입은 5%에 불과하다. 이 단계는 최종 결과물을 만들기 위한 것이 아니라, AI가 특정 주제를 어떻게 기본적으로 해석하는지 확인하는 '진단 도구'로 활용된다. MEDIO 단계는 사람의 제어권이 85%로 올라가며, 7개의 구조화된 레이블(label, 분류 태그)을 활용해 전문가 수준의 초안을 만든다. 가장 높은 단계인 AVANZATO는 제어권이 95~98%에 달하며, 헥스(HEX) 색상 코드나 켈빈(Kelvin) 온도 수치처럼 객관적으로 검증 가능한 수치 명세를 활용해 최종 납품용 결과물을 생성한다(논문 p.8~9, Table 2).

7개의 핵심 레이블은 피사체(Subject), 스타일(Style), 조명(Lighting), 배경(Background), 구도(Composition), 필수 요소(Mandatory), 금지 요소(Prohibitions)로 구성된다. 이 구조는 사람이 AI에게 원하는 것을 정확하게 전달하기 위한 일종의 '시각적 계약서'로 기능한다.

금지 명령이 긍정 명령보다 잘 먹히는 이유

SCHEMA 연구에서 가장 눈길을 끄는 발견은 '필수 요소(Mandatory)' 명령보다 '금지 요소(Prohibitions)' 명령의 이행률이 일관되게 높다는 점이다. 621개의 프롬프트를 분석한 결과, 긍정적 지시의 이행률은 91%, 부정적 금지 명령의 이행률은 94%로 나타났다. 이 3%포인트 차이는 모든 도메인에서 예외 없이 반복됐다(논문 p.13~14, Section 6.1).

이 현상의 이유는 AI 이미지 생성 기술의 작동 원리에서 찾을 수 있다. 확산 모델(diffusion model)이라고 불리는 이미지 생성 방식에서, '이것은 하지 마라'는 배제 명령은 어텐션(attention, 모델이 집중하는 부분) 메커니즘에서 단순한 필터로 작동한다. 반면 '이것을 정확히 해라'는 긍정 명령은 연속적인 출력 공간 안에서 복잡한 제약 조건을 동시에 충족해야 하기 때문에 훨씬 처리가 어렵다.

이 발견은 중요한 실용적 시사점을 던진다. 예를 들어 '모든 선이 선명해야 한다'고 요구하는 것보다 '선이 흐려지면 안 된다'고 금지하는 것이 더 효과적이라는 뜻이다. 논문은 이를 '제약 우선 원칙(Constraint-Over-Elaboration Principle)'이라 부르며, 자세한 묘사보다 명확한 제약 조건을 제시하는 것이 이 모델에서 더 높은 제어력을 발휘한다고 설명한다(논문 p.14).

반복 수정의 함정, 반복 생성 드리프트 현상

전문가들이 흔히 저지르는 실수 중 하나는 생성된 이미지를 참조 이미지로 삼아 다시 생성하는 것을 반복하는 방식이다. SCHEMA 연구는 이 방식이 오히려 품질을 급격히 떨어뜨린다는 사실을 실증적으로 확인했다. 이를 '반복 생성 드리프트(Iterative Generative Drift)'라고 명명했다.

첫 번째 생성 결과물은 최상의 품질을 보이지만, 이를 참조로 삼아 두 번째 생성을 하면 픽셀 노이즈와 미세한 오류가 나타나기 시작한다. 세 번째 생성에서는 윤곽선 손실과 색상 변화가 생기고, 네 번째 이상부터는 후처리 없이는 납품 불가능한 수준으로 저하된다(논문 p.14~15, Table 6). 이는 모델이 참조 이미지를 복사하지 않고 재해석하며, 고용량 이미지가 내부 압축 과정에서 품질 손실을 추가로 겪기 때문이다.

이 발견은 SCHEMA의 핵심 설계 원칙인 '단일 생성 철학'을 뒷받침한다. 한 번에 완성도 높은 결과물을 얻기 위해 프롬프트 구성에 충분한 시간을 투자해야 하며, 결과가 마음에 들지 않을 경우 이전 결과물을 참조로 활용하는 대신 프롬프트를 처음부터 재구성하는 것이 옳다.

인포그래픽 생성에서 95% 이상의 정확도 달성

텍스트 렌더링(rendering, 이미지로 표현)과 공간 배치 제어는 AI 이미지 생성 모델이 가장 어려워하는 영역 중 하나로 알려져 있다. 글자가 틀리거나, 텍스트가 지정된 위치를 벗어나거나, 그래픽 요소와 어울리지 않는 등의 오류가 흔하게 발생한다.

SCHEMA 연구에서는 2025년 12월부터 2026년 2월까지 75개의 편집 게시물에 담긴 약 300장의 인포그래픽을 공개 검증 가능한 코퍼스(corpus, 데이터 모음)로 활용했다. SCHEMA AVANZATO 방식으로 생성된 이 이미지들은 최초 1회 생성에서 95% 이상의 이행률을 기록했으며, 후처리 없이 바로 게재됐다(논문 p.16~17, Section 6.6). 잔여 5%의 오류도 텍스트 위치 이탈(약 3~4%)과 소수 철자 오류(약 1~2%)에 불과했고, 텍스트 전체가 무너지거나 알아볼 수 없는 치명적 오류는 단 한 건도 없었다.

이 결과는 SCHEMA가 인포그래픽처럼 텍스트와 그래픽이 결합된 복잡한 레이아웃(layout, 요소 배치) 작업에서도 전문가 수준의 결과물을 안정적으로 만들어낼 수 있음을 실증한다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. SCHEMA를 사용하면 AI 이미지 생성이 얼마나 일관되게 되나요? SCHEMA AVANZATO 방식을 적용하면 10장 배치 생성 시 7~9장이 일관된 결과물로 나타납니다. 구조화되지 않은 자유 형식 프롬프트를 사용했을 때는 동일한 내용을 담아도 10장 중 3~5장만 유사한 결과를 보입니다.

Q2. 반복적으로 이미지를 수정하면 왜 품질이 떨어지나요? AI 이미지 생성 모델은 이전 이미지를 그대로 복사하지 않고 매번 재해석합니다. 이 과정에서 오류가 누적되어 3~4회 이상 반복 수정 시 납품 불가 수준의 품질 저하가 발생합니다. 이를 '반복 생성 드리프트' 현상이라 하며, 처음부터 완성도 높은 프롬프트를 구성하는 것이 가장 효과적인 해결책입니다.

Q3. AI가 긍정 명령보다 금지 명령을 더 잘 따른다는 게 사실인가요? 네, SCHEMA 연구에서 621개의 프롬프트를 분석한 결과 긍정적 지시의 이행률은 91%, 금지 명령의 이행률은 94%로 일관된 차이가 확인됐습니다. '선명하게 해줘'보다 '흐릿하게 하지 마'가 더 잘 지켜진다는 뜻입니다. 전문가들은 이를 활용해 긍정 요구 조건을 금지 명령 형태로 재구성하는 전략을 쓸 수 있습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

이미지 출처: 제미나이

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기