
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
확산 모델의 품질과 7.7배 빠른 속도를 동시에 구현한 HART의 하이브리드 접근법
MIT와 NVIDIA 연구팀이 개발한 하이브리드 자기회귀 트랜스포머(HART)는 고해상도 이미지를 직접 생성할 수 있는 혁신적인 자기회귀(AR) 모델이다. 연구팀이 발표한 논문에 따르면, HART는 최신 확산 모델과 견줄 만한 이미지 품질을 제공하면서도 처리 속도는 최대 7.7배 빠르다는 강점을 지닌다. 기존 AR 모델들은 이산형 토크나이저(discrete tokenizer)의 낮은 재구성 품질과 1024×1024 해상도 이미지 생성의 한계에 직면해 왔다. HART는 이러한 문제를 하이브리드 토크나이징 접근법으로 해결했다.
하이브리드 토크나이저는 오토인코더의 연속적인 잠재 출력을 두 가지 구성 요소로 분해한다. 하나는 VAR 토크나이저에서 파생된 이산 잠재 변수의 합으로, 다른 하나는 이산 토큰으로 표현할 수 없는 정보를 나타내는 연속적인 잔차(residual)다. 이미지의 전체적인 구조는 이산 토큰이 담당하고, 세부 디테일은 연속적인 잔차 토큰으로 처리한다. 이 두 잠재 변수는 하이브리드 트랜스포머를 통해 모델링된다. 이산 잠재 변수는 확장 가능한 해상도를 가진 VAR 트랜스포머로 처리되는 반면, 연속적인 잠재 변수는 단 37M 매개변수와 8단계로 구현된 경량 잔차 확산 모듈을 통해 예측된다.

FID 31% 향상, 계산량 13.4배 감소: HART의 기술적 혁신이 가져온 성능 도약
HART는 기존의 이산형 전용 VAR 토크나이저와 비교해 이미지 토크나이징과 생성 모두에서 상당한 개선을 이루었다. MJHQ-30K 데이터셋에서 1024×1024 해상도의 재구성 FID(Frechet Inception Distance)를 2.11에서 0.30으로 낮췄으며, 이는 31%의 생성 FID 향상(7.85에서 5.38로)을 가능하게 했다. 또한 ImageNet에서 클래스 조건부 생성에 대해 VAR 대비 최대 7.8%의 FID 개선을 달성했으며, MAR보다 13배 높은 처리량을 제공한다.
HART는 여러 텍스트-이미지 생성 지표에서 최신 확산 모델의 품질에 근접하거나 능가하면서도, 3.1-5.9배 빠른 추론 지연 시간, 4.5-7.7배 높은 처리량, 그리고 6.9-13.4배 적은 연산량(MACs)을 제공한다. 특히 SD-XL과 비교했을 때 모든 벤치마크에서 우수한 품질을 보이면서도 3.1배 낮은 지연 시간과 4.5배 높은 처리량을 달성했다.
'큰 그림'과 '세부 디테일'의 완벽한 결합: 하이브리드 자기회귀 모델링과 잔차 확산의 시너지
하이브리드 토크나이징은 이산형 토크나이징보다 우수한 재구성 FID와 더 나은 생성 상한선을 제공한다. HART는 연속적인 이미지 토큰을 두 구성 요소의 합으로 모델링한다: (1) 확장 가능한 해상도의 자기회귀 트랜스포머로 모델링된 이산 토큰과 (2) 효율적인 잔차 확산 과정을 통해 적합화된 잔차 토큰이다.
HART는 텍스트 토큰을 시각 토큰과 연결하여 텍스트-이미지 생성으로 확장하였고, 높은 해상도에서의 확장성을 개선했다. O(n⁴) 훈련 비용을 완화하기 위해 사전 훈련된 저해상도 체크포인트에서 미세 조정을 진행했다. VAR의 모든 절대 위치 임베딩을 보간 호환 가능한 상대 임베딩으로 변환했으며, 텍스트 토큰에는 1D 회전 임베딩, 시각 토큰에는 2D 회전 임베딩을 구현했다. 이러한 상대 임베딩은 높은 해상도에서 HART의 수렴을 크게 가속화했다.
1024px 해상도에서 1.9배 가속: 토큰 서브샘플링과 커널 최적화로 구현한 HART의 효율성 강화
HART의 확장 가능한 해상도 AR 트랜스포머와 잔차 확산 설계는 고품질, 고해상도 이미지 생성에 중요하지만, 추론과 훈련 시 오버헤드를 도입한다. 이러한 효율성 과제를 해결하기 위해 다양한 최적화 기법을 적용했다. 훈련 중에는 마지막 단계의 토큰 중 80%를 폐기하고 서브샘플링된 토큰에만 감독을 적용하는 방식으로 512px에서 1.4배, 1024px에서 1.9배 훈련을 가속화하고 메모리 사용량을 1.1배 줄였다. 추론 시에는 상대 위치 임베딩이 도입한 여러 메모리 바운드 GPU 커널 호출을 두 개의 커널로 융합하여 전체적인 실행 시간을 7% 개선했다. 또한 RMSNorm의 모든 연산을 단일 GPU 커널로 융합하여 총 실행 시간을 10% 개선했다.
FAQ
Q: HART가 기존 확산 모델과 비교해 어떤 장점이 있나요?
A: HART는 확산 모델과 유사한 고품질 이미지를 생성하면서도 처리 속도가 최대 7.7배 빠르고, 연산량은 최대 13.4배 적습니다. 특히 1024×1024 해상도에서 기존 확산 모델보다 3.1-5.9배 낮은 지연 시간을 제공하여 실시간 응용 프로그램에 더 적합합니다.
Q: 하이브리드 토크나이저란 무엇이며 왜 중요한가요?
A: 하이브리드 토크나이저는 이미지를 이산 토큰(큰 그림 구조)과 연속 잔차 토큰(세부 디테일)으로 분해합니다. 이 접근법은 기존 이산형 토크나이저의 한계를 극복하여 재구성 품질을 크게 향상시키고, 이는 최종 생성 이미지의 품질 향상으로 이어집니다.
Q: HART가 실제 응용에서 어떻게 활용될 수 있을까요?
A: HART의 고속 처리 능력과 고품질 이미지 생성 기술은 텍스트 기반 이미지 생성, 콘텐츠 제작, 게임, VR/AR 등의 분야에서 실시간 응용을 가능하게 합니다. 특히 컴퓨팅 자원이 제한된 환경에서도 고품질 시각 콘텐츠 생성이 가능해져 모바일 기기나 엣지 컴퓨팅 환경에서의 활용도가 높아질 것으로 기대됩니다.
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기