AI가 당신의 취향을 어떻게 학습할까? 넷플릭스의 대규모 '추천 기반 모델' 비밀 공개 : 다나와 DPG는 내맘을 디피지

Foundation Model for Personalized Recommendation

수억 명의 시청 데이터가 만나는 AI 추천 시스템: 2024년 3억 명 사용자의 수천억 데이터 활용

넷플릭스가 대형언어모델(LLM)에서 영감을 얻은 추천 기반 모델을 개발해 맞춤형 콘텐츠 추천 시스템을 고도화하고 있다. 코젠 샤오(Ko-Jen Hsiao), 예수 펭(Yesu Feng), 수다르샨 람케데(Sudarshan Lamkhede)가 공동 발표한 이 연구에 따르면, 넷플릭스는 기존의 다양한 전문화된 모델들을 유지하는 대신 대규모 데이터를 활용하는 통합된 기반 모델을 구축하는 방향으로 전환하고 있다.

넷플릭스의 추천 시스템은 '계속 보기'나 '오늘의 추천 콘텐츠' 등 다양한 기능을 위한 여러 전문화된 기계학습 모델로 구성되어 있었다. 그러나 비즈니스 요구가 증가함에 따라 개별적으로 훈련된 모델들의 유지보수 비용이 증가하고, 혁신 기술을 모델 간에 전파하기 어려운 문제가 있었다. 이에 넷플릭스는 사용자 선호도 학습을 중앙화하고, 여러 모델 간에 접근성과 활용도를 높이는 새로운 추천 시스템 아키텍처의 필요성을 인식했다.

2024년 말 기준 3억 명이 넘는 넷플릭스 사용자들의 상호작용 데이터는 대형언어모델(LLM)의 토큰 규모와 맞먹는 수천억 건의 데이터셋을 형성하고 있다. 넷플릭스는 이러한 방대한 데이터를 효과적으로 활용하기 위해 사용자 상호작용 토큰화 과정을 도입했다.

영화 시청도 '토큰화'한다: 5분 예고편과 2시간 영화는 다른 가치로 계산

넷플릭스는 대형언어모델(LLM)의 토큰화 방식에서 영감을 받아 사용자 상호작용 데이터를 토큰화하는 방식을 개발했다. 모든 사용자 행동이 동일한 가치를 갖는 것은 아니기 때문에, 의미 있는 '토큰'을 정의하고 중복을 최소화하는 과정이 중요하다.

언어 토큰화에서 바이트 페어 인코딩(Byte Pair Encoding, BPE)와 유사하게, 넷플릭스는 인접한 사용자 행동을 병합하여 새롭고 더 높은 수준의 토큰을 형성하는 방식을 채택했다. 예를 들어, 같은 영화에 대한 여러 행동을 하나의 토큰으로 병합하면서 시청 시간이나 참여 유형과 같은 중요 정보를 보존한다.

그러나 활발한 사용자의 상호작용 기록은 수천 개의 이벤트에 달할 수 있어, 표준 셀프 어텐션 레이어를 사용하는 트랜스포머 모델의 처리 용량을 초과한다. 이에 넷플릭스는 낮은 랭크 압축과 같은 희소 어텐션 메커니즘을 활용해 모델이 수백 개의 이벤트에 이르는 컨텍스트 윈도우를 확장하면서도 계산 효율성을 유지할 수 있도록 했다. 또한 훈련 중에는 전체 시퀀스에서 겹치는 상호작용 윈도우를 샘플링하는 슬라이딩 윈도우 기법을 적용했다.

오늘 공개된 신작도 추천받는 비결: AI가 메타데이터로 영화 성격 파악하는 '콜드 스타트' 기술

넷플릭스와 같은 스트리밍 서비스의 주요 도전 과제 중 하나는 신규 콘텐츠에 대한 추천, 즉 '콜드 스타트' 문제다. 새로운 콘텐츠가 출시되면 사용자 상호작용 데이터가 없는 상태에서도 추천이 이루어져야 한다.

이 문제를 해결하기 위해 넷플릭스의 기반 모델은 점진적 훈련 능력과 보지 못한 개체에 대한 추론 능력을 갖추고 있다. 점진적 훈련을 통해 모델은 이전 모델의 매개변수를 재사용하고 새 콘텐츠에 대한 새 매개변수를 초기화한다. 예를 들어, 새 콘텐츠 임베딩은 기존 평균 임베딩에 약간의 무작위 노이즈를 추가하거나 메타데이터를 기반으로 유사한 콘텐츠의 임베딩을 가중 조합하여 초기화할 수 있다.

또한 넷플릭스의 기반 모델은 사용자 상호작용 데이터뿐만 아니라 콘텐츠의 메타데이터 정보도 활용한다. 각 콘텐츠는 장르, 스토리라인, 분위기 등 다양한 메타데이터와 연결되어 있으며, 각 메타데이터 유형은 해당 임베딩을 평균화하여 표현될 수 있다. 이러한 메타데이터 기반 임베딩과 ID 기반 임베딩을 결합하여 최종 콘텐츠 임베딩을 생성한다.

하나의 AI로 다양한 추천 서비스 구현: '계속 보기'부터 '오늘의 추천'까지 모두 활용

넷플릭스의 추천 기반 모델은 장기적인 회원 선호도를 이해하고 여러 방식으로 하위 응용 프로그램에서 활용될 수 있다. 첫째, 예측 모델로 직접 사용될 수 있으며, 사용자가 다음에 상호작용할 항목을 예측하도록 훈련되었다. 여러 예측 헤드를 포함하여 다양한 장르에 대한 회원 선호도 예측과 같은 여러 작업을 수행할 수 있다.

둘째, 모델은 회원과 영화, 게임, 장르 등의 엔티티에 대한 가치 있는 임베딩을 생성한다. 이러한 임베딩은 배치 작업에서 계산되어 오프라인 및 온라인 애플리케이션에서 사용하기 위해 저장된다. 임베딩은 다른 모델의 특징으로 사용되거나 사용자에게 매력적인 콘텐츠를 검색하는 후보 생성에 활용될 수 있다.

셋째, 모델의 적응성을 통해 응용 프로그램별 데이터로 미세 조정할 수 있다. 사용자는 전체 모델이나 서브그래프를 자신의 모델에 통합하여 적은 데이터와 계산 능력으로 미세 조정할 수 있다. 이 접근법은 초기 기반 모델이 상당한 자원을 필요로 함에도 불구하고 이전 모델에 비교할 만한 성능을 달성한다.

AI도 규모가 클수록 정확해진다: 데이터와 모델 크기 늘릴수록 추천 정확도 로그 스케일로 향상

넷플릭스는 대형언어모델(LLM)의 성공에서 영감을 받아 추천 기반 모델의 확장을 진행했다. LLM과 마찬가지로, 확장이 성능 향상에 중요하다는 것을 발견했다. 성공적인 확장은 강력한 평가, 효율적인 훈련 알고리즘, 그리고 상당한 컴퓨팅 자원을 요구한다.

넷플릭스의 실험 결과, 확장 법칙이 추천 기반 모델에도 적용되어 데이터와 모델 크기를 증가시킬수록 일관된 성능 향상이 관찰되었다. 매개변수의 크기와 상대적 성능 향상 간의 관계를 로그 스케일로 나타낸 그래프에서도 이러한 경향이 명확하게 나타났다.

넷플릭스의 개인화된 추천을 위한 기반 모델은 통합되고 데이터 중심적인 시스템을 만들어 대규모 데이터를 활용하여 회원들에게 더 나은 추천을 제공하는 중요한 진전을 이루었다. 이 접근법은 대형언어모델(LLM)에서 반교사 학습과 엔드투엔드 훈련 원칙을 차용하여 방대한 규모의 레이블이 없는 사용자 상호작용 데이터를 활용하는 것을 목표로 한다.

FAQ

Q: 넷플릭스가 개발한 추천 기반 모델은 기존 추천 시스템과 어떻게 다른가요?

A: 기존 넷플릭스 추천 시스템은 각기 다른 목적을 위한 여러 개의 전문화된 모델로 구성되어 있었습니다. 새로운 추천 기반 모델은 대형언어모델(LLM)의 접근 방식을 차용하여 사용자 선호도 학습을 중앙화하고, 수억 명의 사용자 데이터를 통합적으로 활용합니다. 이를 통해 다양한 추천 서비스에 동일한 기반 모델을 활용할 수 있어 효율성과 일관성이 향상됩니다.

Q: '토큰화'란 무엇이며 넷플릭스는 이를 어떻게 활용하나요?

A: 토큰화는 대형언어모델에서 텍스트를 의미 있는 단위로 나누는 방식인데, 넷플릭스는 이 개념을 사용자 행동 데이터에 적용했습니다. 예를 들어, 같은 영화에 대한 여러 상호작용을 하나의 '토큰'으로 병합하면서 시청 시간이나 참여 유형 같은 중요 정보를 보존합니다. 이를 통해 방대한 사용자 행동 데이터를 효율적으로 처리하고 의미 있는 패턴을 포착할 수 있습니다.

Q: 넷플릭스의 '콜드 스타트' 문제 해결 방법은 무엇인가요?

A: 콜드 스타트는 신규 콘텐츠가 출시되었을 때 사용자 상호작용 데이터 없이 어떻게 추천할 것인가에 관한 문제입니다. 넷플릭스는 이를 해결하기 위해 점진적 훈련과 메타데이터 활용이라는 두 가지 접근법을 사용합니다. 점진적 훈련으로 기존 모델 매개변수를 재사용하고, 장르나 스토리라인 같은 메타데이터를 활용해 신규 콘텐츠의 임베딩을 생성합니다. 이를 통해 사용자 데이터가 없는 상태에서도 합리적인 추천이 가능해집니다.

해당 기사에서 인용한 리포트 원문은 링크에서 확인할 수 있다.

이미지 출처: 넷플릭스

기사는 클로드와 챗GPT를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

OWC, 컴퓨텍스2026서 Thunderbolt 5 기반 ‘로컬 AI 허브’ 공개	뉴스탭
마이크로닉스, 플레이엑스포서 KEL 이터널 리턴 오프라인 일정 성료	뉴스탭
캐논 풀프레임 유저들이 포착한 ‘한국의 아름다움’ 한자리에	뉴스탭
AI 시대 K-콘텐츠 새 화두 ‘콘텐츠 엔지니어링’ 논의 열린다	뉴스탭
오픈AI “한국에 AI 사이버 방어 역량 확대”…‘코리아 사이버 액션 플랜’ 발표	뉴스탭
“다리가 떠 불편했는데…” 신현준 딸이 말한 툴레 카시트 ‘팜’의 차이	뉴스탭
시그니파이 식물생육 LED, LG CNS 수직농장에 적용…에너지 효율 25% 향상	뉴스탭
엔씨 '리니지 클래식', '잔혹한 눈의 마을, 오렌' 사전예약 진행	게임동아
카카오게임즈 ‘오딘’, 신규 길드 콘텐츠 업데이트	게임동아
하이브로 ‘드래곤빌리지3’, 글로벌 정식 출시… 12년 만의 넘버링 신작	게임동아
친구와 함께 하는 유적 탐사! 협동 파티 호러 게임 '초자연 작전팀' 출시	게임동아
아예 비싸거나, 낮은 가격으로 박리다매. 게임 가격 중간이 없어진다 (1)	게임동아
넷마블 'RF 온라인 넥스트', 신규 클래스 '데몰리션' 등장	게임동아
스마일게이트 ‘카제나’, 시즌3 신규 스토리 ‘한 소녀의 악몽’ 업데이트	게임동아
아스트라에 오라티오, ‘고양이 주임’과 ‘기모노 청장’ 공개	게임메카
넷마블 '왕좌의 게임: 킹스로드', 28일 오후 7시 개발자 라이브 방송	게임동아
中 게임사 ‘유주게임즈’ 창업자 독살범, 사형 집행	게임동아
14년째 개발 중인 ‘스타 시티즌’, 펀딩액 1조 3천억 돌파	게임동아
비피엠지, 게임 IP 기반 사업 강화..'포트리스와 에오스' 웹3화 추진	게임동아
펄어비스 검은사막, ‘왜곡의 흔적’ 인장 3차 이벤트 개최	게임동아
‘어린이들의 위대한 응원’ 현대차, 월드컵 대표팀 버스 디자인 공개	오토헤럴드
'브랜드 첫 전기차에 쏟아진 혹평' 페라리, 루체 공개 후 주가 급락	오토헤럴드
중국계 꼬리표 뗀 볼보, 美 ‘커넥티드카 규제’ 예외 승인에 숨통	오토헤럴드
테슬라, 인증 라벨 누락 '무선 업데이트'로 안되는 이례적 리콜	오토헤럴드
현대차 '아이오닉 드론 스테이션' 산불 피해지역 생태계 복원 지원	오토헤럴드
GM 글로벌 공급망 흔든 K-부품 ‘올해의 우수 협력사' 국내 협력사 20곳 선정	오토헤럴드
북미 무역 질서 재편 조짐, 관세 유지 방침에 '완성차 업계 초긴장'	오토헤럴드
르노·폭스바겐 경쟁판에 중국산 EV 역투입, 스텔란티스 선택은 '보야'	오토헤럴드
소비자 손으로 만드는 고성능 M 에디션, BMW 코리아 ‘2026 나만의 에디션’ 투표 개시	글로벌오토뉴스
노사 한마음으로 맞이한 가정의 달, KGM 임직원 가족 초청행사 개최	글로벌오토뉴스
키미 안토넬리 캐나다 GP 우승, 메르세데스 F1 복귀 후 통산 300번째 포디움 달성	글로벌오토뉴스
롤스로이스모터카, 부산 진출 10주년 맞아 해운대 쇼룸 리뉴얼 오픈	글로벌오토뉴스
[질의응답] "비스포크 잠재력 높은 한국" 아이린 니케인 롤스로이스 아태 지역 총괄	글로벌오토뉴스
토요타, 대만에서 주요 승용차 역 수입 결정… 일본 내 인력 부족·납기 지연 타개책	글로벌오토뉴스
브렘보, 중국 NBHX와 합작법인 설립… 차세대 브레이크 바이 와이어 현지화 박차	글로벌오토뉴스
웨이모, 폭우·고속도로 공사 구간서 기술적 한계… 미국 주요 도시 운행 일시 중단	글로벌오토뉴스
유럽 자동차, 초조함에서 벗어나라 – 메르세데스 AMG GT 4도어 쿠페, 페라리 루체	글로벌오토뉴스
테슬라 사이버캡 165Wh/mi 인증 역대 최고 효율 달성…자율주행 한계 극복이 과제	글로벌오토뉴스
BMW 수소차 핵심 제어 장치 에너지 마스터 사전 생산 돌입	글로벌오토뉴스
SK 온 포드 합작법인 블루오벌 SK 구조조정 완료 테네시 공장 독자 운영 돌입	글로벌오토뉴스
메르세데스 벤츠, 레벨 2 ADAS MB. 드라이브 어시스트 프로 독일 출시 확정	글로벌오토뉴스
볼보, 구글과 협력해 EX60에 제미나이 AI 카메라 통합 시연 맥락 인식 운전 경험 선사	글로벌오토뉴스
현대차, 2026 북중미 월드컵 국가대표팀 버스 그림 공모전 수상작 공개 (1)	글로벌오토뉴스
멕시코·EU 대미 의존 탈피 겨냥 전 품목 관세 철폐 개정 무역 협정 타결	글로벌오토뉴스
현대차, 산림청·트리플래닛과 손잡고 드론 활용한 스마트 산림 복원 추진	글로벌오토뉴스
보그워너, 유럽 상용차 OEM과 유로7 대응 대형 디젤 엔진 부품 공급 계약 체결	글로벌오토뉴스
오토노머스에이투지, 누적 자율주행 100만km·레벨4 셔틀 탑승객 1만 명 돌파	글로벌오토뉴스
하만카돈, 2026 춘계 소음진동 학술대회서 카오디오 기술 및 사운드 디자인 공개	글로벌오토뉴스
아우디 코리아, '아우디 트윈컵 2026' 한국 결선 성료…8명 세계대회 출격	글로벌오토뉴스
한자연, 차세대 LMFP·나트륨 배터리 전극 기술 JR에너지솔루션에 이전	글로벌오토뉴스
중국 신에너지차 스타트업들 멀티브랜드 전략 가속화… 재무 리스크 관리와 수익성 확보가 관건	글로벌오토뉴스
MSI 대표 선발전 진출 팀은? 경쟁 격해지는 LCK 9주 차	게임메카
쓰레기의 정점에 서자, 4인 협동 ‘되팔이의 전리품’ 공개	게임메카
[오늘의 스팀] 인생시뮬 ‘파라라이브’ 출시, 심즈 넘을까?	게임메카
라인게임즈, ‘2026 플레이엑스포’ 성황리 마무리	게임동아
소니와 MS가 다시 게임 독점을 말하는 이유 [게임 인더스트리]	게임동아
킨텍스에서 만나요. '우마무스메' 4주년 기념 페스티벌 6월 13일 개최	게임동아
호요버스 ‘붕괴 스타레일’, 4.3 버전 오는 6월 1일 업데이트 예고	게임동아
게임사의 권한까지 이용자에게 넷마블 신작 '솔: 인챈트'가 가진 매력은?	게임동아
“젊어진 제임스본드” ‘007 퍼스트 라이트’ 기대점 3가지	게임동아
수도권 최대 게임행사로 자리잡은 플레이엑스포2026 성황리 마무리	게임동아
[겜덕연구소] 엄청난 개조기! 게임 매니아들이 만든 책상은 격이 다르다!	게임동아
[LCK] "먼저 가서 기다리마" 원주 결승 직행한 한화생명	게임동아
도술과 요괴가 공존하는 조선 판타지. 루트쓰리게임즈 '전우치 도사열전' 정식 출시	게임동아
클레브X서린씨앤아이, 플레이엑스포 2026서 DDR5 라인업 전시 (1)	다나와
마이크로닉스 ‘2026 KEL 이터널 리턴’ 플레이엑스포 현장 성료	다나와
"EU도 못 끊는 중국산 반도체" 자동차 공급망의 불편한 현실	오토헤럴드
지상 최강의 생물, 한마 유지로 '철권 8'에 출전한다 (1)	게임메카
에픽게임즈, 언리얼 엔진 6 티저 영상 깜짝 공개	게임메카
[롤짤] 루머와 감정싸움에 매몰된 롤 국가대표 선발	게임메카
SOOP 스타 리그 ASL 시즌 21 박상현 우승, 대회 2연패	게임메카
13일의 금요일 '제이슨', 6월 16일 데바데 출시	게임메카
좀 더 매운맛으로 돌아왔다. ‘수험생키우기’ 후속작 ‘취준생 키우기’ 준비한 바삭한소프트	게임동아
베트남 빈패스트 '미국몽' 무산 위기...美 주 정부 토지 반환 소송 (1)	오토헤럴드
현대차 투싼과 베라크루즈, 급발진 아닌 ‘급제동’ 결함 42만대 리콜	오토헤럴드
람보르기니, 920마력 고성능 전기 슈퍼카 ‘테메라리오’ 국내 인도 개시	오토헤럴드
폭스바겐의 중국식 해법, 샤오펑 기술 입은 'ID. UNYX 07' 공개	오토헤럴드
'내가 만든 BMW 에디션' 1분 완판 신화 이어간다...온라인 투표 진행	오토헤럴드
미 노스케롤라이나주, 배터리 공장 건설 약속 불이행으로 빈패스트 소송 (1)	글로벌오토뉴스
테슬라, 유럽서 FSD 일시불 판매 중단…월 99유로 구독제 전면 전환	글로벌오토뉴스
BMW 코리아, 서울 강남서 ‘BMW 엑설런스 라운지 2026’ 개최	글로벌오토뉴스
[영상] 전 세계 70대 한정, 7억짜리 BMW 스피드탑 콘셉트 리뷰	글로벌오토뉴스
페라리, 첫 순수 전기 스포츠카 ‘페라리 루체’ 세계 최초 공개	글로벌오토뉴스
샤오미 고성능 전기 SUV YU7 GT 출시	글로벌오토뉴스
중국 간펑리튬, 500Wh/kg급 세계 최초 10Ah 전고체 배터리 시범 생산 돌입 (1)	글로벌오토뉴스
중국과학원, 3분 충전 기능이 있는 451.5 Wh/kg 고체 배터리 공개	글로벌오토뉴스
스텔란티스, FaSTLAne 2030 발표… 4대 핵심 브랜드·통합 플랫폼 체제 전환	글로벌오토뉴스
북유럽 4월 신차 3대 중 2대는 전기차… 노르웨이·덴마크 시장 주도	글로벌오토뉴스
중국, 지방 재정 악화 속 자동차·하이테크 보조금 집중… 장청자동차와 BYD 등 수혜 톱10 진입	글로벌오토뉴스
테슬라, 중국에서 FSD 명칭 테슬라 보조 운전으로 변경	글로벌오토뉴스
태양광과 풍력 발전량 사상 최초 가스 추월…재생에너지 대 전환 확인	글로벌오토뉴스
람보르기니, 고성능 플러그인 하이브리드 ‘테메라리오’ 국내 인도 개시	글로벌오토뉴스
한온시스템, 한국앤컴퍼니그룹 편입 후 첫 글로벌 경영전략회의 개최	글로벌오토뉴스
현대차그룹, 차세대 미디어 아티스트 발굴 위한 ‘제7회 VH 어워드’ 공모 시작	글로벌오토뉴스
현대차, 교육부 협업 미래 인재 양성 프로그램 ‘미래모빌리티학교’ 2학기 참가 모집	글로벌오토뉴스
HS효성더클래스, 양평 치유의 숲에서 산림보호 봉사활동 실시	글로벌오토뉴스
채비, 창립 10주년 기념 대규모 고객 감사 ‘BIG 페스타’ 진행	글로벌오토뉴스
K-메모리의 사각지대 차량용 반도체, 미래차 시장 선점 위한 생태계 협력 절실	글로벌오토뉴스
아우디 9세대 A6세단의 디자인	글로벌오토뉴스
한국앤컴퍼니그룹, 상생 가치 실천하는 ‘2026 장애인배드민턴 리그’ 본격 개막	글로벌오토뉴스

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 당신의 취향을 어떻게 학습할까? 넷플릭스의 대규모 '추천 기반 모델' 비밀 공개

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 당신의 취향을 어떻게 학습할까? 넷플릭스의 대규모 '추천 기반 모델' 비밀 공개

공유하기

공감/비공감