
EXPLORING BIAS IN OVER 100 TEXT-TO-IMAGE GENERATIVE MODELS
시간이 흐를수록 개선되는 기초 모델, 더 편향되는 예술 모델
텍스트-투-이미지(Text-to-Image, T2I) 생성 모델은 고품질 이미지를 합성할 수 있는 강력한 능력을 가지고 있지만, 훈련 데이터에 존재하는 편향성을 본질적으로 반영한다. 허깅페이스(Hugging Face)와 같은 개방형 플랫폼을 통해 수많은 모델이 공개되면서 AI 접근성이 높아졌지만, 이는 동시에 편향된 모델의 확산도 촉진하고 있다. 호주 웨스턴 대학교, 멜버른 대학교, 호주 국립대학교, 구글 연구팀은 100개 이상의 T2I 모델을 분석하여 시간에 따른 편향성 추세를 종합적으로 연구했다.
연구팀은 편향성을 세 가지 핵심 차원에서 평가했다: (1) 분포 편향(distribution bias), (2) 생성 환각(generative hallucination), (3) 생성 누락률(generative miss-rate). 이러한 포괄적인 평가 프레임워크를 통해 연구진은 다양한 생성 작업에 걸쳐 편향성 패턴이 시간에 따라 어떻게 진화하는지 밝혀냈다. 예술 및 스타일 전이 모델은 상당한 편향을 보이는 반면, 기초 모델(foundation models)은 더 넓은 훈련 분포의 혜택을 받아 점진적으로 편향이 감소하는 경향을 보였다.
세 가지 지표로 측정한 AI 편향성: 분포 편향, 자카드 환각, 생성 누락률
연구팀이 개발한 평가 프레임워크는 세 가지 주요 측정 지표에 기반한다. 첫째, '분포 편향(BD)'은 생성된 이미지에 나타나는 객체 분포의 불균형을 측정한다. 둘째, '자카드 환각(HJ)'은 입력 프롬프트와 생성된 결과물 간의 객체 불일치를 평가한다. 셋째, '생성 누락률(MG)'은 모델이 프롬프트에 명시된 객체를 생성하지 못하는 비율을 측정한다.
이 세 가지 지표를 로그 기반 편향 점수(Blog)로 통합하여 각 모델의 전반적인 편향 특성을 측정했다. 연구진은 또한 모델 인기도(Spop)를 정량화하여 사용자 참여와 편향성 사이의 관계를 탐색했다. 이러한 다차원적 분석 접근법은 다양한 T2I 모델 유형의 편향 특성을 심층적으로 이해하는 데 중요한 통찰력을 제공했다.

가장 인기 있는 모델은 가장 덜 편향된 모델: 사용자 선호도 분석
2022년 8월부터 2024년 12월까지 103개 모델을 평가한 결과, 흥미로운 시간적 패턴이 발견되었다. 일반적인 용도로 설계된 기초 모델과 사실적 이미지 생성 모델은 시간이 지남에 따라 편향성이 감소하는 추세를 보였다. 특히 스테이블 디퓨전(Stable Diffusion)의 진화 과정을 살펴보면, v1.4에서 v3.5로 발전하면서 환각과 분포 편향 점수가 개선된 것으로 나타났다.
반면, 애니메이션 및 예술 모델은 시간이 지남에 따라 편향성이 증가하는 경향을 보였다. 연구진은 이를 취미 활동가들이 특정 캐릭터나 예술 스타일을 모델에 의도적으로 주입한 결과로 보고 있다. 이러한 의도적 편향은 이들 모델의 출력물에 반영되었으며, 특히 예술 및 애니메이션 모델 범주에서 시간이 지남에 따라 편향성이 급격히 증가하는 것으로 나타났다.
최신 스케줄러의 편향성 개선 효과: 플로우매치 vs 오일러
연구팀은 모델 유형별 편향성과 인기도 간의 관계도 분석했다. 기초 모델과 사실적 이미지 생성 모델이 평균적으로 가장 인기가 높았으며, 이들 모델은 더 공정한 객체 분포와 낮은 환각 현상을 보였다. 이는 사용자들이 일반적으로 편향성이 낮은 모델을 선호한다는 것을 시사한다.
분석 결과에 따르면, 플로우매치 오일러 이산 스케줄러(FlowMatchEulerDiscrete Scheduler)는 가장 낮은 편향성 점수를 보였으며, 이는 스테이블 디퓨전 3 변형에서 사용되었다. 반면, 오일러 이산 스케줄러(EulerDiscrete Scheduler)는 가장 높은 편향성과 누락률을 보였다. 이는 스케줄러 아키텍처와 기술의 점진적 개선이 편향성 감소에 기여했음을 시사한다.
이 연구는 T2I 모델의 포괄적인 편향성 평가를 통해 AI 커뮤니티가 편향성 문제에 어떻게 대응하고 있는지에 대한 중요한 통찰력을 제공한다. 연구진은 특히 공개적으로 사용 가능한 대규모 T2I 모델의 기본적인 편향 특성을 식별하는 것이 민주화된 AI 환경에서 반드시 고려해야 할 중요한 작업이라고 강조한다.
FAQ
Q1: 텍스트-투-이미지 생성 모델의 편향성은 왜 중요한가요?
A: 텍스트-투-이미지 생성 모델의 편향성은 생성된 이미지에 부정확하거나 편향된 표현이 반영될 수 있기 때문에 중요합니다. 이는 유해한 고정관념이나 잘못된 정보의 확산으로 이어질 수 있으며, 특히 공개적으로 접근 가능한 애플리케이션에서 윤리적 문제를 야기할 수 있습니다.
Q2: 연구팀이 측정한 세 가지 핵심 편향성 지표는 무엇인가요?
A: 연구팀은 분포 편향(BD, 생성된 이미지에 나타나는 객체 분포의 불균형), 자카드 환각(HJ, 입력 프롬프트와 생성된 결과물 간의 객체 불일치), 생성 누락률(MG, 모델이 프롬프트에 명시된 객체를 생성하지 못하는 비율)을 측정했습니다.
Q3: 시간이 지남에 따라 생성 모델의 편향성은 어떻게 변화했나요?
A: 기초 모델과 사실적 이미지 생성 모델은 더 넓은 훈련 데이터셋과 개선된 아키텍처, 신중한 큐레이션 노력 덕분에 시간이 지남에 따라 편향성이 감소하는 추세를 보였습니다. 반면, 예술 및 애니메이션 모델은 특정 스타일이나 캐릭터에 초점을 맞추기 위한 의도적 설계로 인해 편향성이 증가하는 경향을 보였습니다.
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기