비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

엔비디아, 7초만에 초고해상도 이미지 생성하는 신기술 발표

2025.03.26. 11:51:25
조회 수
82
2
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer


확산 모델의 품질과 7.7배 빠른 속도를 동시에 구현한 HART의 하이브리드 접근법

MIT와 NVIDIA 연구팀이 개발한 하이브리드 자기회귀 트랜스포머(HART)는 고해상도 이미지를 직접 생성할 수 있는 혁신적인 자기회귀(AR) 모델이다. 연구팀이 발표한 논문에 따르면, HART는 최신 확산 모델과 견줄 만한 이미지 품질을 제공하면서도 처리 속도는 최대 7.7배 빠르다는 강점을 지닌다. 기존 AR 모델들은 이산형 토크나이저(discrete tokenizer)의 낮은 재구성 품질과 1024×1024 해상도 이미지 생성의 한계에 직면해 왔다. HART는 이러한 문제를 하이브리드 토크나이징 접근법으로 해결했다.

하이브리드 토크나이저는 오토인코더의 연속적인 잠재 출력을 두 가지 구성 요소로 분해한다. 하나는 VAR 토크나이저에서 파생된 이산 잠재 변수의 합으로, 다른 하나는 이산 토큰으로 표현할 수 없는 정보를 나타내는 연속적인 잔차(residual)다. 이미지의 전체적인 구조는 이산 토큰이 담당하고, 세부 디테일은 연속적인 잔차 토큰으로 처리한다. 이 두 잠재 변수는 하이브리드 트랜스포머를 통해 모델링된다. 이산 잠재 변수는 확장 가능한 해상도를 가진 VAR 트랜스포머로 처리되는 반면, 연속적인 잠재 변수는 단 37M 매개변수와 8단계로 구현된 경량 잔차 확산 모듈을 통해 예측된다.


FID 31% 향상, 계산량 13.4배 감소: HART의 기술적 혁신이 가져온 성능 도약

HART는 기존의 이산형 전용 VAR 토크나이저와 비교해 이미지 토크나이징과 생성 모두에서 상당한 개선을 이루었다. MJHQ-30K 데이터셋에서 1024×1024 해상도의 재구성 FID(Frechet Inception Distance)를 2.11에서 0.30으로 낮췄으며, 이는 31%의 생성 FID 향상(7.85에서 5.38로)을 가능하게 했다. 또한 ImageNet에서 클래스 조건부 생성에 대해 VAR 대비 최대 7.8%의 FID 개선을 달성했으며, MAR보다 13배 높은 처리량을 제공한다.

HART는 여러 텍스트-이미지 생성 지표에서 최신 확산 모델의 품질에 근접하거나 능가하면서도, 3.1-5.9배 빠른 추론 지연 시간, 4.5-7.7배 높은 처리량, 그리고 6.9-13.4배 적은 연산량(MACs)을 제공한다. 특히 SD-XL과 비교했을 때 모든 벤치마크에서 우수한 품질을 보이면서도 3.1배 낮은 지연 시간과 4.5배 높은 처리량을 달성했다.

'큰 그림'과 '세부 디테일'의 완벽한 결합: 하이브리드 자기회귀 모델링과 잔차 확산의 시너지

하이브리드 토크나이징은 이산형 토크나이징보다 우수한 재구성 FID와 더 나은 생성 상한선을 제공한다. HART는 연속적인 이미지 토큰을 두 구성 요소의 합으로 모델링한다: (1) 확장 가능한 해상도의 자기회귀 트랜스포머로 모델링된 이산 토큰과 (2) 효율적인 잔차 확산 과정을 통해 적합화된 잔차 토큰이다.

HART는 텍스트 토큰을 시각 토큰과 연결하여 텍스트-이미지 생성으로 확장하였고, 높은 해상도에서의 확장성을 개선했다. O(n⁴) 훈련 비용을 완화하기 위해 사전 훈련된 저해상도 체크포인트에서 미세 조정을 진행했다. VAR의 모든 절대 위치 임베딩을 보간 호환 가능한 상대 임베딩으로 변환했으며, 텍스트 토큰에는 1D 회전 임베딩, 시각 토큰에는 2D 회전 임베딩을 구현했다. 이러한 상대 임베딩은 높은 해상도에서 HART의 수렴을 크게 가속화했다.

1024px 해상도에서 1.9배 가속: 토큰 서브샘플링과 커널 최적화로 구현한 HART의 효율성 강화

HART의 확장 가능한 해상도 AR 트랜스포머와 잔차 확산 설계는 고품질, 고해상도 이미지 생성에 중요하지만, 추론과 훈련 시 오버헤드를 도입한다. 이러한 효율성 과제를 해결하기 위해 다양한 최적화 기법을 적용했다. 훈련 중에는 마지막 단계의 토큰 중 80%를 폐기하고 서브샘플링된 토큰에만 감독을 적용하는 방식으로 512px에서 1.4배, 1024px에서 1.9배 훈련을 가속화하고 메모리 사용량을 1.1배 줄였다. 추론 시에는 상대 위치 임베딩이 도입한 여러 메모리 바운드 GPU 커널 호출을 두 개의 커널로 융합하여 전체적인 실행 시간을 7% 개선했다. 또한 RMSNorm의 모든 연산을 단일 GPU 커널로 융합하여 총 실행 시간을 10% 개선했다.

FAQ

Q: HART가 기존 확산 모델과 비교해 어떤 장점이 있나요?

A: HART는 확산 모델과 유사한 고품질 이미지를 생성하면서도 처리 속도가 최대 7.7배 빠르고, 연산량은 최대 13.4배 적습니다. 특히 1024×1024 해상도에서 기존 확산 모델보다 3.1-5.9배 낮은 지연 시간을 제공하여 실시간 응용 프로그램에 더 적합합니다.

Q: 하이브리드 토크나이저란 무엇이며 왜 중요한가요?

A: 하이브리드 토크나이저는 이미지를 이산 토큰(큰 그림 구조)과 연속 잔차 토큰(세부 디테일)으로 분해합니다. 이 접근법은 기존 이산형 토크나이저의 한계를 극복하여 재구성 품질을 크게 향상시키고, 이는 최종 생성 이미지의 품질 향상으로 이어집니다.

Q: HART가 실제 응용에서 어떻게 활용될 수 있을까요?

A: HART의 고속 처리 능력과 고품질 이미지 생성 기술은 텍스트 기반 이미지 생성, 콘텐츠 제작, 게임, VR/AR 등의 분야에서 실시간 응용을 가능하게 합니다. 특히 컴퓨팅 자원이 제한된 환경에서도 고품질 시각 콘텐츠 생성이 가능해져 모바일 기기나 엣지 컴퓨팅 환경에서의 활용도가 높아질 것으로 기대됩니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
기아, 1분기 사상 첫 77만대 돌파… 3월 27만 8058대 전년 대비 2.2%↑ 오토헤럴드
에픽세븐, 대규모 업데이트 로드맵 '에픽세븐 오리진' 공개 게임동아
넷마블, 4일 부터 '나 혼자만 레벨업:어라이즈 챔피언십 2025' 본선 티켓 판매 게임동아
'서머너즈 워', 출시 4000일 돌파.. 글로벌 인기 1위 비결은 게임동아
더 다양한 손맛! '패스오브엑자일2', 신규 시즌에 추가되는 캐릭터들은? 게임동아
힘든 시기를 이겨낼 소소한 재미. 게임사들이 준비한 만우절 이벤트는? (1) 게임동아
한국 골퍼 9천명 취향 조사한 링스레전드 인피니티 출시 연합뉴스
PLK, 중고연맹과 손잡고 미국 AJGA 대회 출전권 제공 연합뉴스
동부건설 골프단, 김수지·지한솔 등 선수단 구성 완료 연합뉴스
캐디 플랫폼 그린재킷, 캐디 의료 지원 서비스 제공 연합뉴스
편리한 전동 캐리어...운전면허 없이 타면 불법 (1) IT동아
세기P&C, 골프단 창단…황유나·유다겸·양아연과 계약 연합뉴스
혼다코리아, 경상도 일대 대형 산불 피해 현장 복구 성금 1억원 기부 오토헤럴드
'도로 위 강렬한 존재감' 국내서 위장막 없이 포착된 기아 PV5 오토헤럴드
제네시스, 프리미엄 SUV 경쟁 열세... BMW 우세 속 벤츠와 3파전 오토헤럴드
기아, 전기차 대중화 전초기지 '광명 EVO Plant' 고객체험 공간 운영 오토헤럴드
현대차, 특별교통수단ㆍ셔클 플랫폼으로 화성시 교통약자 이동서비스 제공 오토헤럴드
최고출력 1079마력ㆍ제로백 2.5초, 궁극의 슈퍼카 발할라...최종 검증 돌입 오토헤럴드
러 시장 60% 점령한 중국 자동차, 현대차 등 국내 업체 커지는 복귀 리스크 오토헤럴드
‘대한민국’도 제품이다. 글로벌오토뉴스
이 시간 HOT 댓글!
1/4