엔비디아, 7초만에 초고해상도 이미지 생성하는 신기술 발표 : 다나와 DPG는 내맘을 디피지

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

확산 모델의 품질과 7.7배 빠른 속도를 동시에 구현한 HART의 하이브리드 접근법

MIT와 NVIDIA 연구팀이 개발한 하이브리드 자기회귀 트랜스포머(HART)는 고해상도 이미지를 직접 생성할 수 있는 혁신적인 자기회귀(AR) 모델이다. 연구팀이 발표한 논문에 따르면, HART는 최신 확산 모델과 견줄 만한 이미지 품질을 제공하면서도 처리 속도는 최대 7.7배 빠르다는 강점을 지닌다. 기존 AR 모델들은 이산형 토크나이저(discrete tokenizer)의 낮은 재구성 품질과 1024×1024 해상도 이미지 생성의 한계에 직면해 왔다. HART는 이러한 문제를 하이브리드 토크나이징 접근법으로 해결했다.

하이브리드 토크나이저는 오토인코더의 연속적인 잠재 출력을 두 가지 구성 요소로 분해한다. 하나는 VAR 토크나이저에서 파생된 이산 잠재 변수의 합으로, 다른 하나는 이산 토큰으로 표현할 수 없는 정보를 나타내는 연속적인 잔차(residual)다. 이미지의 전체적인 구조는 이산 토큰이 담당하고, 세부 디테일은 연속적인 잔차 토큰으로 처리한다. 이 두 잠재 변수는 하이브리드 트랜스포머를 통해 모델링된다. 이산 잠재 변수는 확장 가능한 해상도를 가진 VAR 트랜스포머로 처리되는 반면, 연속적인 잠재 변수는 단 37M 매개변수와 8단계로 구현된 경량 잔차 확산 모듈을 통해 예측된다.

FID 31% 향상, 계산량 13.4배 감소: HART의 기술적 혁신이 가져온 성능 도약

HART는 기존의 이산형 전용 VAR 토크나이저와 비교해 이미지 토크나이징과 생성 모두에서 상당한 개선을 이루었다. MJHQ-30K 데이터셋에서 1024×1024 해상도의 재구성 FID(Frechet Inception Distance)를 2.11에서 0.30으로 낮췄으며, 이는 31%의 생성 FID 향상(7.85에서 5.38로)을 가능하게 했다. 또한 ImageNet에서 클래스 조건부 생성에 대해 VAR 대비 최대 7.8%의 FID 개선을 달성했으며, MAR보다 13배 높은 처리량을 제공한다.

HART는 여러 텍스트-이미지 생성 지표에서 최신 확산 모델의 품질에 근접하거나 능가하면서도, 3.1-5.9배 빠른 추론 지연 시간, 4.5-7.7배 높은 처리량, 그리고 6.9-13.4배 적은 연산량(MACs)을 제공한다. 특히 SD-XL과 비교했을 때 모든 벤치마크에서 우수한 품질을 보이면서도 3.1배 낮은 지연 시간과 4.5배 높은 처리량을 달성했다.

'큰 그림'과 '세부 디테일'의 완벽한 결합: 하이브리드 자기회귀 모델링과 잔차 확산의 시너지

하이브리드 토크나이징은 이산형 토크나이징보다 우수한 재구성 FID와 더 나은 생성 상한선을 제공한다. HART는 연속적인 이미지 토큰을 두 구성 요소의 합으로 모델링한다: (1) 확장 가능한 해상도의 자기회귀 트랜스포머로 모델링된 이산 토큰과 (2) 효율적인 잔차 확산 과정을 통해 적합화된 잔차 토큰이다.

HART는 텍스트 토큰을 시각 토큰과 연결하여 텍스트-이미지 생성으로 확장하였고, 높은 해상도에서의 확장성을 개선했다. O(n⁴) 훈련 비용을 완화하기 위해 사전 훈련된 저해상도 체크포인트에서 미세 조정을 진행했다. VAR의 모든 절대 위치 임베딩을 보간 호환 가능한 상대 임베딩으로 변환했으며, 텍스트 토큰에는 1D 회전 임베딩, 시각 토큰에는 2D 회전 임베딩을 구현했다. 이러한 상대 임베딩은 높은 해상도에서 HART의 수렴을 크게 가속화했다.

1024px 해상도에서 1.9배 가속: 토큰 서브샘플링과 커널 최적화로 구현한 HART의 효율성 강화

HART의 확장 가능한 해상도 AR 트랜스포머와 잔차 확산 설계는 고품질, 고해상도 이미지 생성에 중요하지만, 추론과 훈련 시 오버헤드를 도입한다. 이러한 효율성 과제를 해결하기 위해 다양한 최적화 기법을 적용했다. 훈련 중에는 마지막 단계의 토큰 중 80%를 폐기하고 서브샘플링된 토큰에만 감독을 적용하는 방식으로 512px에서 1.4배, 1024px에서 1.9배 훈련을 가속화하고 메모리 사용량을 1.1배 줄였다. 추론 시에는 상대 위치 임베딩이 도입한 여러 메모리 바운드 GPU 커널 호출을 두 개의 커널로 융합하여 전체적인 실행 시간을 7% 개선했다. 또한 RMSNorm의 모든 연산을 단일 GPU 커널로 융합하여 총 실행 시간을 10% 개선했다.

FAQ

Q: HART가 기존 확산 모델과 비교해 어떤 장점이 있나요?

A: HART는 확산 모델과 유사한 고품질 이미지를 생성하면서도 처리 속도가 최대 7.7배 빠르고, 연산량은 최대 13.4배 적습니다. 특히 1024×1024 해상도에서 기존 확산 모델보다 3.1-5.9배 낮은 지연 시간을 제공하여 실시간 응용 프로그램에 더 적합합니다.

Q: 하이브리드 토크나이저란 무엇이며 왜 중요한가요?

A: 하이브리드 토크나이저는 이미지를 이산 토큰(큰 그림 구조)과 연속 잔차 토큰(세부 디테일)으로 분해합니다. 이 접근법은 기존 이산형 토크나이저의 한계를 극복하여 재구성 품질을 크게 향상시키고, 이는 최종 생성 이미지의 품질 향상으로 이어집니다.

Q: HART가 실제 응용에서 어떻게 활용될 수 있을까요?

A: HART의 고속 처리 능력과 고품질 이미지 생성 기술은 텍스트 기반 이미지 생성, 콘텐츠 제작, 게임, VR/AR 등의 분야에서 실시간 응용을 가능하게 합니다. 특히 컴퓨팅 자원이 제한된 환경에서도 고품질 시각 콘텐츠 생성이 가능해져 모바일 기기나 엣지 컴퓨팅 환경에서의 활용도가 높아질 것으로 기대됩니다.

해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 

AI Matters 뉴스레터 구독하기

[자동차와 法] 자동차가 ‘위험한 물건’이 되는 순간…’난폭·보복운전’	IT동아
에릭 징 젠스파크 CEO “한국에도 AI 창작의 불꽃 밝힐 것”	IT동아
“복날엔 삼계탕” 공식 흔들린다…올여름 보양식 판도 바꾼 HMR (3)	뉴스탭
40초면 끝나는 여름 한 끼…식품업계, ‘불 없는 간편식’ 경쟁 (2)	뉴스탭
마이크로닉스, 10년 연속 다나와 히트브랜드 선정…ATX 3.1 파워 경쟁력 입증 (1)	뉴스탭
파라다이스, 해운대 배수로 정화 나서…장마철 침수 예방에 ‘그린 스텝’	뉴스탭
조텍코리아, RTX 5080 플래그십 그래픽카드 특가…탁탁몰서 199만9000원 한정 진행	뉴스탭
위닉스, AI 라이브커머스 본격 도입…D2C 고객 접점 넓힌다	뉴스탭
오텍캐리어, 엔비디아 생태계 기반 AI 데이터센터 냉각 시장 공략	뉴스탭
마이크로닉스, 다나와 히트브랜드 10년 연속 선정…고객 감사 프로모션 진행	뉴스탭
임요환·강민부터 장민철까지, 블리즈컨 2026 ‘레전드 매치’ 라인업 공개	뉴스탭
벤큐코리아, 7월 모니터·마우스 구매 고객 포토후기 이벤트 진행	뉴스탭
벤큐 기업용 디스플레이, 레드닷 디자인 어워드 수상	뉴스탭
사무가구도 이제 ‘구매’보다 ‘운영’…퍼시스, 기업 렌탈 시장 본격 진출 (1)	뉴스탭
선 정리 줄이고 시야 넓혔다… NZXT가 제시한 차세대 파노라마 PC	뉴스탭
애즈락 메인보드 사면 네이버페이 3만원…디앤디, 스토리 챌린지 시즌4 진행 (1)	뉴스탭
젠틀몬스터·프라다 만났다…사카구치 켄타로가 연 초현실 캠페인	뉴스탭
"르노 AS 아직도 비싸고 불편할까" 르노코리아가 꺼낸 반전 카드 (1)	오토헤럴드
현대차그룹, 지진 피해 베네수엘라에 100만 달러 구호성금 지원 (1)	글로벌오토뉴스
현대모비스, 전장기술 아이디어 공모전 개최	글로벌오토뉴스
KGM, 6월 1만 1,982대 판매…3년 만에 월간 최대 실적 달성 (1)	글로벌오토뉴스
혼다코리아, 7월 모터사이클 프로모션 실시 (1)	글로벌오토뉴스
마세라티, 부산 서비스센터 오픈…영남권 럭셔리 서비스 네트워크 강화	글로벌오토뉴스
CNN, 현대차 정주영 창업회장 추모 음악회 비하인드 전 세계 방영	글로벌오토뉴스
스타트럭코리아, 장기 운행용 스타밀리언클럽 멤버십 혜택 공개	글로벌오토뉴스
콘티넨탈타이어, 여름 휴가철 맞이 7월 구매 프로모션 실시	글로벌오토뉴스
엠게임 보유중인 자사주 43만주 소각 진행	게임동아
[창간] 생성형 AI 게임 시대, 저작권 분쟁과 소송의 시대 열리나	게임동아
메이저나인, '아우터플레인' IP와 개발팀 인수한다	게임동아
마이크로닉스, 2026년 상반기 다나와 히트브랜드 선정	다나와
디앤디컴 ‘나의 ASRock 스토리 챌린지 프로모션 - 시즌4’ 진행	다나와
마이크로닉스, 다나와 2026 히트브랜드 수상 기념 이벤트 진행	다나와
벤큐 전자칠판 ‘2026 레드닷 디자인 어워드’ 수상으로 제품 경쟁력 입증	다나와
2026년 7월 국산차 판매조건 정리	다나와자동차
전기차 화재 원인 몰라도 최대 150억 보상...7월부터 자동 적용	오토헤럴드
BYD '보조금 퇴출' 정부 첫 전기차 평가, 현대차·기아·테슬라는 통과	오토헤럴드
토요타 '하늘길'도 만든다, 조비와 손잡고 '에어택시 양산' 본격 시동	오토헤럴드
르노코리아, 그랑 콜레오스 5차 OTA 실시... 고객 요청 반영해 상품성 개선	오토헤럴드
애스턴마틴, 'S' 라인업 굿우드 출격…700마력 DB12 S부터 F1 머신까지	오토헤럴드
기아 "EV 대중화·기후 대응 강화" 2026 지속가능경영 보고서 ‘MOVE’ 발간	오토헤럴드
BMW 7시리즈 수입 대형차 1위, 최대 1200만 원 '역대급 구매 혜택'	오토헤럴드
"차량도 스마트폰처럼 진화"... 르노코리아 OTA 철학 들여다보니	오토헤럴드
제네시스 GV90, 9월 9일 공개 전망 '브랜드 첫 초대형 전기 SUV 등장'	오토헤럴드
현대차그룹, 베네수엘라 지진 피해 복구 지원 성금 100만 달러 지원	오토헤럴드
'유럽 전략 대수술' 지프, 중국산 플래그십 SUV로 라인업 6종 확대	오토헤럴드
419. 전기차와 종합 혁신 지수 중국과 독일 양강 체제, 그리고…	글로벌오토뉴스
페라리 최초 전기 세단 루체, 중국시장 초도 물량 88대 완판	글로벌오토뉴스
포르쉐, 카이엔 생산 독일 라이프치히로 이전 추진… 수요 둔화 속 고강도 인적 쇄신 예고	글로벌오토뉴스
프랑스, 저소득층 대상 3차 전기차 사회적 임대 제도 7월 16일 개시	글로벌오토뉴스
토요타, 중국시장 역 성장 속 전기차 성장세 대조	글로벌오토뉴스
ICCT "전기차 전환 가속화 시 2050년까지 글로벌 조기 사망자 880만 명 방지"	글로벌오토뉴스
중국 정부, 17개 애프터마켓 활성화 조치 발표	글로벌오토뉴스
감가상각률 높은 수소 탱크에 대한 우려 제기	글로벌오토뉴스
네이버·현대차, 플레오스 커넥트에 AI 서비스 통합	글로벌오토뉴스
BMW, 5세대 신형 X5 공개… 노이어 클라쎄 기술 탑재한 5가지 파워트레인 구축	글로벌오토뉴스
CATL과 BYD, 신규 특허로 전동화 기술전쟁 주도 노린다	글로벌오토뉴스
유니티, D2C 커머스 지원하는 ‘Unity IAP 5.4’ 출시	게임동아
서비스 100일 맞이한 앤유소프트 '다크로드 사가' 대규모 업데이트 실시	게임동아
해긴 ‘2026 프로야구GO!’, 출시 100일 기념 대규모 업데이트	게임동아
넷마블 엠엔비 ‘쿵야 레스토랑즈’, CU와 '두산 베어스' 컬래버 제품 출시	게임동아
게임위, 귀멸의 칼날 짝퉁 게임 ‘지옥에서 온 검객’ 이용 주의 안내 (1)	게임동아
위메이드 이미르컵 시즌2, 아시아 서버 '킹스' 전 경기 제패	게임메카
'더 파이널스 APAC 리그'서 한국 대표 ‘하이부’ 우승 차지	게임동아
[한주의게임소식] 출시 이후 1위 유지 중인 ‘솔: 인첸트’	게임동아
‘2026 서든어택 챔피언십 시즌1’, 결승 및 쇼케이스 열린다	게임동아
‘블루 아카’, 디스커스 애슬레틱 및 무신사와 2차 컬래버 선보여	게임동아
"여신강림 5장 등장!" 마비 모바일. 시즌2 ‘빛과 어둠’ 업데이트	게임동아
라이엇의 신작 ‘리프트바운드’ 9월 한국 출시	게임동아
“누워서라도 만들었다” 1인 개발 덱빌딩 로그라이크 ‘페소젠’	게임동아
[창간] 코딩 안 하는 개발사 시대 온다…AI가 바꾸는 게임 개발의 문법 (1)	게임동아
올 해는 메르세데스 벤츠 브랜드 100주년이자 자동차 발명 140주년의 해 (1)	글로벌오토뉴스
테슬라, 2분기 예상 판매 40만 대 넘긴다지만 '성장률은 고작 5.7%' (1)	오토헤럴드
폭스바겐그룹, 최대 10만 명 감원 검토 '브랜드 분사까지 나왔다'	오토헤럴드
현대차 투싼 ,'주행 중 계기판 화면 꺼짐' 현상으로 10만 여대 리콜	오토헤럴드
BYD 아태 부총재 “한국 전기차 속도 세계 최고"…소비자 접점 강화 주력	글로벌오토뉴스
베일 벗은 5세대 신형 BMW X5, 파격적 디자인 변혁과 다재다능한 파워트레인	글로벌오토뉴스
AI와 로보틱스가 바꾸는 자동차 공장의 풍경	글로벌오토뉴스
넥센타이어, BYD와 첫 신차용 타이어 공급 계약 체결	글로벌오토뉴스
유럽, 2027년 의무화 디지털 배터리 여권 대비 배터리패스-레디 테스트 플랫폼 가동	글로벌오토뉴스
폴스타, 커넥티드카 규제로 2027년형부터 미국 시장 판매 중단	글로벌오토뉴스
BMW, 차세대 휴머노이드 로봇 피겨 03 미국 공장 투입… 물류 자동화 가속	글로벌오토뉴스
다임러트럭과 볼보 합작사 코레투라, 액센츄어와 협력 상용차 SDV 표준 플랫폼 개발 가속	글로벌오토뉴스
미국 아마존 죽스, 양산형 로보택시 개량형 공개	글로벌오토뉴스
포르쉐, 전기·하이브리드·내연기관 넘나드는 4모드 파워트레인 특허 출원	글로벌오토뉴스
CATL, BMW/볼보/르노/샤오미 등과 글로벌 배터리 순환경제 동맹 결성	글로벌오토뉴스
르노코리아, 그랑 콜레오스 5차 무선 업데이트 진행	글로벌오토뉴스
현대자동차, 미래 정비 혁신 거점 '수원하이테크센터' 개관	글로벌오토뉴스
BMW 그룹 코리아, BMW·MINI 순수전기차 전 수량 무상 안전점검 실시	글로벌오토뉴스
포르쉐코리아-삼성카드, 럭셔리 브랜드 경험 확대를 위한 MOU 체결	글로벌오토뉴스
지커, 전기 SUV '7X' 잠재 고객 대상 테크 워크샵 성료	글로벌오토뉴스
현대자동차, ESG 리스크 관리와 지속가능 전략 담은 '2026 지속가능성 보고서' 발간	글로벌오토뉴스
람보르기니, 전 세계 럭셔리 드라이빙 투어 ‘에스페리엔자 2026’ 라인업 공개	글로벌오토뉴스
BMW 그룹 코리아, 수도방위사령부 군사경찰단 모터사이클 훈련 무상 지원	글로벌오토뉴스
르망 24시간을 완주한 제네시스 마그마 레이싱(GMR), 그러나 부족한 한 가지	글로벌오토뉴스
인도 뉴델리 정부, 대기오염 완화 위한 노후차 전기차 교체 보조금 조치 확정	글로벌오토뉴스
지프, 2030년까지 유럽 라인업 6종으로 확대	글로벌오토뉴스
폭스바겐-보쉬, 15억 유로 투입한 '자율주행 동맹' 청산 조율…새 파트너 선정 착수	글로벌오토뉴스
개소세 인하 종료 전 차량 인도… 르노코리아, '당일 출고'로 세금 감면 및 프로모션 혜택 동시 적용	글로벌오토뉴스
토요타, 5월 글로벌 판매 7.2% 감소…중국 시장 급감으로 4개월 연속 역성장	글로벌오토뉴스
넷플릭스 ‘페르소나’ 실사 드라마 제작한다 (1)	게임메카

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

엔비디아, 7초만에 초고해상도 이미지 생성하는 신기술 발표

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

엔비디아, 7초만에 초고해상도 이미지 생성하는 신기술 발표

공유하기

공감/비공감