비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

엔비디아, 7초만에 초고해상도 이미지 생성하는 신기술 발표

2025.03.26. 11:51:25
조회 수
114
3
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer


확산 모델의 품질과 7.7배 빠른 속도를 동시에 구현한 HART의 하이브리드 접근법

MIT와 NVIDIA 연구팀이 개발한 하이브리드 자기회귀 트랜스포머(HART)는 고해상도 이미지를 직접 생성할 수 있는 혁신적인 자기회귀(AR) 모델이다. 연구팀이 발표한 논문에 따르면, HART는 최신 확산 모델과 견줄 만한 이미지 품질을 제공하면서도 처리 속도는 최대 7.7배 빠르다는 강점을 지닌다. 기존 AR 모델들은 이산형 토크나이저(discrete tokenizer)의 낮은 재구성 품질과 1024×1024 해상도 이미지 생성의 한계에 직면해 왔다. HART는 이러한 문제를 하이브리드 토크나이징 접근법으로 해결했다.

하이브리드 토크나이저는 오토인코더의 연속적인 잠재 출력을 두 가지 구성 요소로 분해한다. 하나는 VAR 토크나이저에서 파생된 이산 잠재 변수의 합으로, 다른 하나는 이산 토큰으로 표현할 수 없는 정보를 나타내는 연속적인 잔차(residual)다. 이미지의 전체적인 구조는 이산 토큰이 담당하고, 세부 디테일은 연속적인 잔차 토큰으로 처리한다. 이 두 잠재 변수는 하이브리드 트랜스포머를 통해 모델링된다. 이산 잠재 변수는 확장 가능한 해상도를 가진 VAR 트랜스포머로 처리되는 반면, 연속적인 잠재 변수는 단 37M 매개변수와 8단계로 구현된 경량 잔차 확산 모듈을 통해 예측된다.


FID 31% 향상, 계산량 13.4배 감소: HART의 기술적 혁신이 가져온 성능 도약

HART는 기존의 이산형 전용 VAR 토크나이저와 비교해 이미지 토크나이징과 생성 모두에서 상당한 개선을 이루었다. MJHQ-30K 데이터셋에서 1024×1024 해상도의 재구성 FID(Frechet Inception Distance)를 2.11에서 0.30으로 낮췄으며, 이는 31%의 생성 FID 향상(7.85에서 5.38로)을 가능하게 했다. 또한 ImageNet에서 클래스 조건부 생성에 대해 VAR 대비 최대 7.8%의 FID 개선을 달성했으며, MAR보다 13배 높은 처리량을 제공한다.

HART는 여러 텍스트-이미지 생성 지표에서 최신 확산 모델의 품질에 근접하거나 능가하면서도, 3.1-5.9배 빠른 추론 지연 시간, 4.5-7.7배 높은 처리량, 그리고 6.9-13.4배 적은 연산량(MACs)을 제공한다. 특히 SD-XL과 비교했을 때 모든 벤치마크에서 우수한 품질을 보이면서도 3.1배 낮은 지연 시간과 4.5배 높은 처리량을 달성했다.

'큰 그림'과 '세부 디테일'의 완벽한 결합: 하이브리드 자기회귀 모델링과 잔차 확산의 시너지

하이브리드 토크나이징은 이산형 토크나이징보다 우수한 재구성 FID와 더 나은 생성 상한선을 제공한다. HART는 연속적인 이미지 토큰을 두 구성 요소의 합으로 모델링한다: (1) 확장 가능한 해상도의 자기회귀 트랜스포머로 모델링된 이산 토큰과 (2) 효율적인 잔차 확산 과정을 통해 적합화된 잔차 토큰이다.

HART는 텍스트 토큰을 시각 토큰과 연결하여 텍스트-이미지 생성으로 확장하였고, 높은 해상도에서의 확장성을 개선했다. O(n⁴) 훈련 비용을 완화하기 위해 사전 훈련된 저해상도 체크포인트에서 미세 조정을 진행했다. VAR의 모든 절대 위치 임베딩을 보간 호환 가능한 상대 임베딩으로 변환했으며, 텍스트 토큰에는 1D 회전 임베딩, 시각 토큰에는 2D 회전 임베딩을 구현했다. 이러한 상대 임베딩은 높은 해상도에서 HART의 수렴을 크게 가속화했다.

1024px 해상도에서 1.9배 가속: 토큰 서브샘플링과 커널 최적화로 구현한 HART의 효율성 강화

HART의 확장 가능한 해상도 AR 트랜스포머와 잔차 확산 설계는 고품질, 고해상도 이미지 생성에 중요하지만, 추론과 훈련 시 오버헤드를 도입한다. 이러한 효율성 과제를 해결하기 위해 다양한 최적화 기법을 적용했다. 훈련 중에는 마지막 단계의 토큰 중 80%를 폐기하고 서브샘플링된 토큰에만 감독을 적용하는 방식으로 512px에서 1.4배, 1024px에서 1.9배 훈련을 가속화하고 메모리 사용량을 1.1배 줄였다. 추론 시에는 상대 위치 임베딩이 도입한 여러 메모리 바운드 GPU 커널 호출을 두 개의 커널로 융합하여 전체적인 실행 시간을 7% 개선했다. 또한 RMSNorm의 모든 연산을 단일 GPU 커널로 융합하여 총 실행 시간을 10% 개선했다.

FAQ

Q: HART가 기존 확산 모델과 비교해 어떤 장점이 있나요?

A: HART는 확산 모델과 유사한 고품질 이미지를 생성하면서도 처리 속도가 최대 7.7배 빠르고, 연산량은 최대 13.4배 적습니다. 특히 1024×1024 해상도에서 기존 확산 모델보다 3.1-5.9배 낮은 지연 시간을 제공하여 실시간 응용 프로그램에 더 적합합니다.

Q: 하이브리드 토크나이저란 무엇이며 왜 중요한가요?

A: 하이브리드 토크나이저는 이미지를 이산 토큰(큰 그림 구조)과 연속 잔차 토큰(세부 디테일)으로 분해합니다. 이 접근법은 기존 이산형 토크나이저의 한계를 극복하여 재구성 품질을 크게 향상시키고, 이는 최종 생성 이미지의 품질 향상으로 이어집니다.

Q: HART가 실제 응용에서 어떻게 활용될 수 있을까요?

A: HART의 고속 처리 능력과 고품질 이미지 생성 기술은 텍스트 기반 이미지 생성, 콘텐츠 제작, 게임, VR/AR 등의 분야에서 실시간 응용을 가능하게 합니다. 특히 컴퓨팅 자원이 제한된 환경에서도 고품질 시각 콘텐츠 생성이 가능해져 모바일 기기나 엣지 컴퓨팅 환경에서의 활용도가 높아질 것으로 기대됩니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
발달 장애 프로 골퍼 이승민, 우리금융 챔피언십 2R 4위 '선전'(종합) 연합뉴스
김민선, 강풍 속에서 5언더파…KLPGA 덕신EPC 챔피언십 선두 연합뉴스
MSI, 클레르 옵스퀴르: 33 원정대 게임 코드 증정 행사 다나와
기아, 2025년 1분기 매출 역대 최고치 경신… 전기차·하이브리드 확대 글로벌오토뉴스
트럼프 행정부, 자율주행차 규제 완화 발표… 테슬라 로보택시 상용화에 탄력 글로벌오토뉴스
현대차, 美 관세 대응 전담조직 신설… 투싼 일부 생산 미국으로 이전 글로벌오토뉴스
닛산, 상하이 모터쇼에서 첫 PHEV 픽업 '프론티어 프로' 공개 글로벌오토뉴스
민인숙, KLPGA 시니어 개막전 우승…통산 6승 연합뉴스
김민수·정민서, 대만 아마추어골프선수권 남녀부 우승 연합뉴스
"백암선생이 이끄신다!" ‘FC 온라인’ 서비스 7주년 기념 프로모션 진행 (1) 게임동아
“글로벌 챔피언십도 열린다”, 위메이드커넥트 ‘프리프 유니버스’ 국내 정식 서비스 시작 게임동아
‘V4’, 신규 시즌 ‘REBIRTH’ 업데이트 게임동아
포켓몬코리아, ‘포켓몬 타운 2025 with LOTTE’에서 ‘포켓피스 존’ 운영 게임동아
블소 레볼루션, 신규 던전 '천유궁' 업데이트 게임동아
넷마블, 서비스 1주년 기념 사전 등록 진행 "특급 보상 제공" 게임동아
웹젠 ‘뮤 모나크2’, 다양한 혜택 담은 이벤트 진행 게임동아
"솔가레오, 루나아라 등장!" 포켓몬 카드 게임 Pocket, 신규 확장팩 2종 30일 공개 게임동아
캐논크래커 ‘초전박살 스매시히어로’, 귀여운 펫 시스템과 신규 S급 장비/히어로 업데이트 게임동아
발달 장애 프로 골퍼 이승민, 우리금융 챔피언십 2R 4위 '선전' 연합뉴스
AI답변 퀄리티가 다르다? 무료vs유료 버전 답변의 차이점은? (2) 다나와
이 시간 HOT 댓글!
1/4