
Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention
in Video Diffusion Model
시간은 조금 더 걸리지만 비디오 품질은 확실히 좋아진다
비디오 생성 AI의 품질 향상을 위한 새로운 패러다임이 제시됐다. 삼성리서치가 개발한 ANSE(Active Noise Selection for Generation) 기술은 기존의 외부 설계된 노이즈 선택 방식과 달리, 모델 내부의 어텐션 메커니즘을 활용해 최적의 노이즈를 선택하는 혁신적인 접근 방식을 제안한다. ANSE 프레임워크의 핵심은 BANSA(Bayesian Active Noise Selection via Attention) 획득 함수다. 이 기술은 여러 확률적 어텐션 샘플 간의 엔트로피 불일치를 측정하여 모델의 신뢰도와 일관성을 추정한다. 연구진은 "낮은 BANSA 스코어를 가진 노이즈 시드를 선택함으로써 모델이 더 확신하고 일관된 어텐션 패턴을 보이며, 이는 경험적으로 일관된 비디오 생성과 상관관계가 있다"고 설명했다.
실험 결과, 코그비디오X-2B(CogVideoX-2B)에서 총 VBench 점수가 81.03에서 81.66으로 상승하며, 품질 점수는 0.48점, 의미적 정렬은 1.23점 향상됐다. 코그비디오X-5B에서도 품질 점수 0.17점, 의미 점수 0.60점, 총점 0.25점의 개선 효과를 보였다. 추론 시간은 각각 8%와 13% 증가에 그쳤다.

복잡한 계산 과정을 한 번에 끝내는 '스마트 마스킹' 기술
기존 방법들이 여러 번의 완전한 디퓨전 샘플링을 요구하여 상당한 계산 비용을 초래했다면, ANSE는 베르누이 마스킹 근사를 도입해 단일 디퓨전 스텝과 어텐션 레이어의 하위 집합만으로 스코어 추정을 가능하게 했다. 연구진은 "K개의 독립적인 순방향 패스 대신 이진 마스크를 어텐션 스코어에 직접 적용하여 계산 효율성을 크게 개선했다"고 밝혔다.
각 샘플 반복에서 베르누이(p) 분포에서 추출한 이진 마스크를 생성하여 마스킹된 어텐션 맵을 계산한다. 이 방식은 입력을 고정한 채 어텐션 패턴의 변동성을 시뮬레이션하여 불확실성 기반 노이즈 선택을 위한 실용적인 대안을 제공한다.
AI가 중요한 부분만 골라서 계산 시간 64% 단축
모든 어텐션 레이어를 사용하면 포괄적인 불확실성 추정이 가능하지만 깊은 텍스트-투-비디오 모델에서는 계산 부하가 크다. 연구진은 상관관계 기반 절단 전략을 제안하여 첫 d개 레이어(전체 레이어를 다 쓰지 않고도 결과가 거의 같게 나오는 최소한의 레이어 수 d*)의 평균 BANSA 스코어가 전체 레이어 스코어와 높은 상관관계를 유지하는 최소 깊이를 선택했다.
코그비디오X-2B에서는 레이어 14, 코그비디오X-5B에서는 레이어 19에서 0.7 임계값에 도달하여 이를 최적 깊이로 설정했다. 이를 통해 FreeInit이나 FreqPrior 같은 기존 방법들이 200% 추론 시간 증가를 초래하는 것에 비해 약 64%의 추론 비용 절감을 달성했다.
외부 도구 없이 AI 스스로 최적의 선택을 하는 방법
기존의 PYoCo, FreeNoise, FreeInit, FreqPrior 등의 방법들은 외부에서 설계된 사전 정보에 의존하며 후보 시드를 평가하기 위해 여러 번의 완전한 디퓨전 패스를 요구했다. 더 중요한 것은 이들이 어떤 노이즈 시드가 본질적으로 선호되는지를 나타내는 모델 내부 신호를 활용하지 못했다는 점이다.
ANSE는 분류 작업의 예측 분포와 달리 생성 디퓨전에서 텍스트와 시각적 토큰 간의 정렬이 자연스럽게 나타나는 어텐션 공간에서 불확실성을 추정한다. BANSA는 BALD와 유사하게 여러 어텐션 샘플에서 불일치와 신뢰도를 측정하지만, 생성 환경에 맞춰 조정됐다.
FAQ
Q: ANSE 기술이 기존 비디오 생성 AI와 어떻게 다른가요?
A: ANSE는 외부에서 설계된 노이즈 필터 대신 AI 모델 내부의 어텐션 메커니즘을 분석하여 최적의 노이즈를 선택합니다. 이를 통해 8-13%의 추론 시간 증가만으로 비디오 품질과 텍스트 정렬 성능을 크게 향상시킬 수 있습니다.
Q: BANSA 스코어는 무엇을 측정하나요?
A: BANSA 스코어는 AI 모델의 어텐션 패턴이 얼마나 일관되고 확신에 찬지를 측정합니다. 낮은 BANSA 스코어는 모델이 더 확신하고 일관된 어텐션을 보인다는 의미로, 이는 고품질 비디오 생성과 상관관계가 있습니다.
Q: 이 기술의 실제 활용 가능성은 어떤가요?
A: 삼성리서치에서 개발한 이 기술은 기존 비디오 생성 모델에 쉽게 통합 가능하며, 추가 학습이나 모델 수정 없이도 비디오 품질 개선이 가능합니다. 특히 추론 시간 증가가 최소화되어 실용적 활용도가 높습니다.
해당 기사에 인용된 논문 원문은 링크에서 확인 가능하다.
AI Matters 뉴스레터 구독하기