AI한테 우울증 관련 유튜브 숏츠 분석 시켰더니… 인간과 다른 시선 드러나 : 다나와 DPG는 내맘을 디피지

Can Large Language Models Grasp Concepts in Visual Content? A Case Study on YouTube Shorts about Depression

725개 키프레임 분석 결과: AI도 영상 속 추상적 개념을 이해할 수 있다

대규모 언어 모델(LLM)은 인간-컴퓨터 상호작용 및 계산 사회과학 연구에서 점점 더 중요한 역할을 담당하고 있다. 텍스트 데이터 분석에 초점을 맞춘 기존 연구와 달리, 최근에는 멀티모달 대규모 언어 모델(MLLM)을 활용한 온라인 영상 연구의 가능성이 대두되고 있다. 텍사스 대학교 오스틴 캠퍼스의 연구팀은 MLLM을 통한 비디오 콘텐츠 분석에 관한 초기 사례 연구를 수행했다. 해당 연구 논문에 따르면, 이들은 영상에서 추상적 개념에 대한 AI의 해석과 인간의 이해를 비교하며, 향후 MLLM 지원 비디오 콘텐츠 분석의 발전 가능성을 탐색했다.

연구팀은 LLaVA-1.6 Mistral 7B 모델을 활용해 비디오 매개 자기 노출(video-mediated self-disclosure)과 관련된 4가지 추상적 개념(발표 스타일, 상호작용 스타일, 시각적 다양성, 각성 수준)을 해석하도록 하였다. 142개의 우울증 관련 유튜브 쇼츠 비디오에서 추출한 725개 핵심 프레임을 분석한 결과, MLLM의 인간 이해와의 정렬은 개념의 복잡성이나 프롬프트 구성 방식에 따라 크게 달라졌다. 특히 추상적 개념 설명을 더 구체적으로 제공하는 것이 반드시 인간-AI 정렬도를 높이지는 않는다는 흥미로운 발견이 있었다.

유튜브·틱톡·인스타그램: 3대 영상 플랫폼 데이터가 AI 연구의 새로운 영역을 열다

유튜브, 틱톡, 인스타그램과 같은 비디오 공유 플랫폼은 인간-컴퓨터 상호작용 및 계산 사회과학 연구의 풍부한 데이터 원천이다. 그러나 디지털 민족지학이나 콘텐츠 분석과 같은 전통적인 비디오 분석 방법은 노동 집약적이고 확장성이 제한되어 있다. 이러한 배경에서 멀티모달(시각, 텍스트, 오디오) 콘텐츠를 분석하기 위한 자동화된 접근법에 대한 수요가 증가하고 있다.

최근 LLM을 활용한 텍스트 기반 콘텐츠 분석의 성공적인 사례들이 등장했지만, 비디오 콘텐츠 분석에 MLLM을 최적으로 활용하는 방법에 대한 연구는 아직 초기 단계에 있다. LLaVA나 GPT-4와 같은 MLLM이 시각적 정보를 대규모로 이해하는 데 유망한 결과를 보여주고 있지만, 비디오 프레젠테이션 스타일과 같은 추상적인 개념을 포착하는 데는 여전히 어려움이 있다.

4가지 프롬프트 전략으로 테스트: 단순 질문부터 열린 사고까지, AI의 이해력은 어떻게 달라졌나

연구팀은 우울증과 자기 노출 행동에 관련된 4가지 개념(발표 스타일, 상호작용 스타일, 다양성, 각성)에 대한 MLLM의 해석을 평가했다. 이를 위해 "depression"을 검색어로 유튜브 데이터 API를 사용해 2024년 2월까지 업로드된 3,892개 영상의 메타데이터를 수집하고, 그중 무작위로 선택한 150개 영상을 다운로드했다. 이후 FFmpeg를 사용해 각 영상에서 시각적으로 구별되는 키프레임을 추출하여 최종적으로 142개 비디오에서 725개 키프레임을 분석 대상으로 선정했다.

MLLM이 추상적 시각 개념을 얼마나 잘 이해하는지 평가하기 위해 4가지 프롬프트 구성 전략을 테스트했다:

단순(Naive): 추가 맥락 없이 개념의 존재 여부를 직접 질문
간단 정의(Simple): 단순 질문에 짧은 정의 추가
상세 정의(Detailed): 세 가지 추상적 발현과 함께 자세한 정의 제공
열린 사고(Open-minded): 상세 정의와 유사하지만 명시되지 않은 다른 시나리오도 고려하도록 유도
"발표" vs "상호작용": 복잡한 개념일수록 AI는 인간과 다르게 이해한다

MLLM은 다양한 개념에 대해 서로 다른 정확도를 보였다. 각성이나 다양성과 같은 추상적 개념에서는 높은 성능을 보인 반면, 발표 스타일이나 상호작용 스타일과 같은 수행적 개념에서는 낮은 정렬도와 더 높은 편차를 보였다. 단순 접근법에서 MLLM은 상호작용, 각성, 다양성 개념에 대해 잘 수행했는데, 이는 MLLM의 사전 지식(사전 훈련 데이터에서 파생된)이 인간의 개념과 잘 일치함을 시사한다.

그러나 발표 스타일의 경우, 더 많은 작동 지침을 제공할 때만 상당한 정렬 이득이 관찰되었다. 또한 이러한 효과는 단조롭지 않았다(더 상세한 프롬프트가 항상 더 나은 정렬로 이어지지는 않음). 연구팀은 MLLM의 설명을 질적으로 분석하여 인간-AI 정렬 불일치에 영향을 미치는 세 가지 주요 요인을 확인했다:

개념 구체화의 변화: 프롬프트에 포함된 세부 사항의 양에 따라 MLLM의 해석이 달라졌다. 발표 스타일과 상호작용의 경우, 보조 정의는 이미지의 전체적인 맥락보다 "프롬프트에 있는 것"을 우선시하여 MLLM이 인간 인식과 덜 일치하게 만들었다.
개념의 복잡성 차이: 다양성은 시각적 범주를 식별하고 계산하는 것과 관련되어 상대적으로 간단했지만, 상호작용과 발표 스타일은 더 도전적이었다. 이들은 시각적 단서를 맥락 내에서 상황화하는 것을 요구하기 때문이다. 예를 들어 발표 이미지에서 손동작이 있더라도 그것이 청중을 향한 것인지 아니면 텍스트 오버레이로 인코딩된 시나리오를 제시하는 것인지를 구분해야 한다.
다양한 비디오 장르: 비디오의 다양성은 MLLM의 사회적 개념 이해 능력에 도전을 제기했다. 텍스트와 시각적 요소가 혼합된 비디오의 경우, MLLM은 일반적으로 시각적 신호보다 텍스트 신호를 우선시하여 잠재적 오해석을 초래했다. 또한 만화, 밈, 추상 예술과 같은 비인간적 비디오 장르를 해석하는 데 어려움을 겪었다.

142개 우울증 영상 분석으로 드러난 AI의 미래: 대규모 콘텐츠 분석은 가능할까

MLLM은 적절한 작동화를 통해 발표 스타일과 같은 추상적 개념에 대해서도 인간 인식과 높은 정렬도를 보여, 비디오 콘텐츠 분석 규모를 확장하는 데 큰 잠재력을 가지고 있다. 수작업 라벨링을 가속화함으로써 MLLM은 더 포괄적인 대규모 데이터셋 분석을 가능하게 하고, 소규모 질적 연구에서는 감지하기 힘든 희귀한 커뮤니케이션 패턴을 발견할 수 있다.

그러나 MLLM의 인간 인식과의 불일치도 명백하다. 연구 결과에 따르면 추상적 개념을 더 세부적으로 작동화하면 정렬도가 향상될 수 있지만, 지정된 기준을 넘어서는 새로운 사회적 역학을 발견하는 MLLM의 능력이 제한될 위험도 있다. 이는 전형적인 맥락 내 학습 시나리오와 대조된다.

연구팀은 MLLM 응답 감사, 다중 모드 입력 합성, 비디오 시간성 통합 등 인간-AI 정렬을 개선하기 위한 세 가지 방향을 제안했다. 또한 인간 중심의 사후 감사를 구현하고, 향후 MLLM 지원 콘텐츠 분석 워크플로우에 인간 중심 평가를 표준 단계로 통합하는 것이 중요하다고 강조했다.

만화·밈·추상예술: AI가 가장 해석하기 어려워하는 비디오 장르들

이 탐색적 연구는 MLLM을 활용하여 비디오 데이터에서 추상적 사회적 개념을 해석하는 초기 사례 연구 중 하나이다. 기존 연구가 주로 텍스트 기반 소셜 미디어 데이터에 LLM을 활용한 반면, 이 연구는 MLLM이 비디오 콘텐츠로 대규모 자동화 콘텐츠 분석을 확장할 수 있음을 보여준다.

양적 및 질적 비교를 통해, 개념 작동화, 복잡성, 장르 다양성과 같은 인간 인식과 MLLM 인식 사이의 불일치를 야기하는 주요 요인들이 강조되었다. 흥미롭게도, 추상적 개념의 전형적인 발현을 추가하는 것이 일관되게 정렬도를 향상시키지는 않았다. 이 결과는 AI 출력과 인간 이해 사이의 일치를 보장하기 위해 사후 감사와 인간 감독의 중요성을 강조한다.

멀티모달 입력 통합에 대한 더 정교한 방법을 개발하고, 모델이 더 복잡한 사회적 상호작용을 이해하도록 미세 조정하거나 맥락 내 학습을 실험하는 것이 향후 연구의 유망한 방향이 될 것이다.

FAQ

Q: 멀티모달 대규모 언어 모델(MLLM)이란 무엇이며 비디오 콘텐츠 분석에 어떻게 활용되나요?
A: MLLM은 텍스트뿐만 아니라 이미지나 비디오와 같은 여러 형태의 데이터를 이해하고 처리할 수 있는 AI 모델입니다. 비디오 콘텐츠 분석에서는 MLLM이 비디오의 키프레임을 분석하여 발표 스타일, 상호작용 방식, 시각적 다양성 등의 추상적 개념을 식별하고 해석하는 데 활용됩니다.

Q: 연구에서 발견한 MLLM의 주요 한계점은 무엇인가요?
A: 연구에 따르면 MLLM은 만화, 밈, 추상 예술과 같은 비인간적 비디오 장르를 해석하는 데 어려움을 겪으며, 텍스트와 시각적 요소가 혼합된 콘텐츠에서는 종종 시각적 신호보다 텍스트를 우선시하는 경향이 있습니다. 또한 발표 스타일이나 상호작용과 같이 맥락 이해가 필요한 복잡한 개념을 해석하는 데도 제한이 있습니다.

Q: MLLM을 활용한 비디오 콘텐츠 분석이 향후 어떻게 발전할 것으로 예상되나요?
A: 향후 MLLM을 활용한 비디오 콘텐츠 분석은 다중 모드 입력(시각, 오디오, 텍스트) 합성 기술 개선, 시간적 맥락을 고려한 모델 개발, 그리고 인간 중심 평가 및 감사 시스템의 통합을 통해 발전할 것으로 예상됩니다. 이를 통해 더 정확하고 맥락에 맞는 비디오 콘텐츠 분석이 가능해질 것입니다.

해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.

기사는 클로드와 챗GPT를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

위쳐들의 아버지, 베스미어 성우 윌리엄 로버츠 별세	게임메카
휴대용 기기 공개하나? Xbox 쇼케이스 6월 9일 개최	게임메카
"성폭력 게임 철회하라!" 영국 여성 단체 스팀에 게임 삭제 요구	게임동아
비피엠지, 신규 서비스 및 일본 진출로 블록체인 토큰 생태계 확장 본격화	게임동아
크래프톤, '배틀그라운드' 신규 캐릭터 업그레이드 시스템 '컨텐더' 공개	게임동아
무선 게이밍 기어로 게임 즐기려면 ‘지연 시간’이 중요하다	IT동아
2028 LA 올림픽, 골프 혼성 단체전 포함한 22개 종목 추가(종합)	연합뉴스
'승리의 여신: 니케'에 신규 SSR 캐릭터 크러스트 등장!	게임동아
엔씨 리니지M, ‘말하는섬&윈다우드’ 첫 월드 공성전 진행!	게임동아
크래프톤 '썬더 티어 원' 무료 전환 및 환불 발표	게임동아
넷마블 '레이븐2' 길드 챔피언십' 4월 26일 국내 개최	게임동아
최고와 함께하라 슈퍼센트, 상금 30억 상당 '제4회 슈퍼센트 게임 챌린지' 개최	게임동아
트리플, AI 기반 홈 화면 전면 개편... 150만 리뷰 데이터로 초개인화 여행 제안	뉴스탭
임성재, KPGA 새 역사 쓰러 출격…우리금융 챔피언십 3연패 도전	연합뉴스
모바일 게임 다운로드 줄고 결제는 늘었다…중동·중남미가 새 기회	뉴스탭
옥천군, 향수CC 도시계획시설 결정…"농업보호구역 등 배제"	연합뉴스
MZ세대 중심의 ‘미닝아웃’ 확산… 지속가능한 패션 브랜드 각광	뉴스탭
박보영과 함께하는 제주삼다수, ‘믿음’과 ‘청정’의 가치를 노래하다	뉴스탭
최등규·최정훈 부자, 아시아 파워 골프인 3년 연속 선정	연합뉴스
'웰컴투어'에 9.99달러 책정한 닌텐도.. '설명서 보려면 돈 내세요'	게임동아
‘스마트홈’부터 ‘AI 챗봇’까지... 3월 이용자 폭증한 모바일 앱은?	뉴스탭
세가 'Sonic Rumble', 오는 5월 8일 정식 서비스.. 사전 등록 이벤트 진행	게임동아
로스트아크, 총 상금 5,500만 원 규모 '2025 로스트아크 아트 공모전' 개최	게임동아
[겜덕연구소] 오락실 멸종 단계.. 오락실 게임기 어떻게 수리해야 하나요?	게임동아
그라비티, '라그나로크X : Next Generation' PVP 대회 WOC 시즌7 오픈	게임동아
2028년 LA 올림픽 골프에 혼성 단체전 추가	연합뉴스
이해도 낮고, 신뢰는 흔들리고… AI 뉴스의 그림자	다나와
오픈AI CEO "GPT-5, 통합 난이도와 용량 문제로 출시 연기할 예정"	다나와
델, ‘AI 레디’ 서버 및 스토리지 신제품 다수 선보여	IT동아
세계 1위 셰플러 '절친' 김주형 "세플러 덕분에 더 노력한다"	연합뉴스
에차바리아, 마스터스 파3 콘테스트 우승…홀인원 3개 나와(종합)	연합뉴스
[기고] 인테리어와 IT기술의 융합 - '잇테리어'의 시대	IT동아
"이젠 때가 됐다"…마스터스 전문가 전망 '매킬로이 우승' 우세	연합뉴스
에차바리아, 마스터스 파3 콘테스트 우승…홀인원 3개 나와	연합뉴스
가족과 파3 콘테스트 즐긴 안병훈 "내년에도 또 올 수 있기를"	연합뉴스
오거스타 회장 "LIV 골프에 마스터스 출전 자격 부여 계획 없어"	연합뉴스
[Q&AI] ‘中 간첩 99명 체포’ 보도한 매체 압수수색… 왜? (2)	AI matters
2025년 기업들의 79%가 AI 기반 고객 서비스에 투자 계획, 서비스 혁신 가속화	AI matters
캐나다 생성형 AI 사용 보고서: 3명 중 2명 사용하지만 신뢰도는 낮아	AI matters
틱톡에서 성공하고 레딧에서 외면 받는 AI 콘텐츠? 2025 소셜미디어 보고서	AI matters
데이터 없이 AI는 무용지물, 데이터브릭스가 제시하는 AI 시대 생존 전략	AI matters
2040년 공장의 지휘자는 AI, 인간은 어디로? 초자동화가 가져올 제조업의 혁명	AI matters
트럼프, 연방기관에 AI책임자 지정 및 전략 개발 지시... 바이든 시대 규제 철회	AI matters
美 뉴스-미디어-출판사, '책임 있는 AI 지원' 공동 캠페인 전개… 워싱턴에 대응 촉구	AI matters
오픈AI, 샘 알트먼과 전 애플 디자이너가 설립한 스타트업 인수 추진 중… 하드웨어 영역 확장하나	AI matters
“AI 아바타가 의료 종사자를 대체할 수 있다”… 美 보건부 산하 CMS 행정관 발언 논란	AI matters
구글 맵스, 가짜 리뷰 퇴치 위한 대대적 업그레이드 단행	AI matters
더욱 험난한 중세, 킹덤 컴 2 '하드코어 모드' 온다	게임메카
전자기기 없는 리조트에서 싱잉볼과 함께… 선마을, 웰슬립 집중 프로그램 운영	뉴스탭
한우, 고품질 단백질 식재료로 주목…부위별 단백질 함량 차이 뚜렷 (1)	뉴스탭
메종 글래드 제주, 반려견 전용 객실 포함 ‘주말 한정 패키지’로 펫 여행객 공략	뉴스탭
아이노비아 '오르미 모어클락’ 1차 완판 재입고 기념 이벤트	다나와
최찬, KPGA 챌린지투어 3회 대회 우승…프로 데뷔승	연합뉴스
정부, 美 관세 대응 정책 금융 2조원 추가'… “자동차 산업 보호 총력전”	오토헤럴드
기아, ‘2030 중장기 전략’ 발표…전기차 확대·PBV·픽업까지 전방위 공략	오토헤럴드
넷마블 '페이트/그랜드 오더', 2025 봄의 축제 캠페인 실시	게임동아
펄어비스 '검은사막 모바일'에 ‘라밤 기술’ 업데이트	게임동아
위메이드, '미르의 전설2'에 신규 인스턴스 던전 ‘독요폐광’ 추가	게임동아
미국의 상호 관세가 우리나라 PC 시장에 미칠 영향은? (1)	IT동아
'RF 온라인 넥스트', 첫 대규모 업데이트 실시	게임동아
저니 오브 모나크, 혈맹 콘텐츠 '린드비오르 레이드' 업데이트	게임동아
컴투스홀딩스 '워킹데드: 올스타즈', 신규 생존자 '거짓의 연기자 사라' 등장	게임동아
넥슨, 고교 반 대항 축구대회 ‘2025 넥슨 챔피언스 컵’ 참가자 모집	게임동아
초이락, 더현대 팝업스토어에서 헬로카봇 에이스 골드 한정판 판매	게임동아
바다에서 힐링하는 게임. '씨 오브 페리도트' 개발한 올드아이스맥스	게임동아
中 시장 반토막, 포르쉐 1분기 판매량 8% 감소... 전기차 비중은 확대	오토헤럴드
“서울~부산 20분”… 시속 1200km/h ‘K-하이퍼튜브’ 꿈의 열차 시동 (1)	오토헤럴드
5년간 900개, '기아 엔진 도난 사건'... 경찰, 내부 소행으로 보고 수사	오토헤럴드
레이싱카ㆍ튜닝카까지... 서울모빌리티쇼 ‘X-ROAD’ 테마관 인기 폭발	오토헤럴드
한강 리버버스 이 정도는 돼야, 스톡홀름을 뜨겁게 달군 '하이드로포일'	오토헤럴드
[영상] 브라우저부터 OTT까지, 르노코리아의 디지털 드라이브	글로벌오토뉴스
[영상] 모험 가득한 일상, 기아 타스만 온오프로드 시승기	글로벌오토뉴스
현대모비스, 인도에 통합 R&D 센터 개설… 소프트웨어 개발 거점 확대	글로벌오토뉴스
영국 정부, 전기차 전환 정책 변경…하이브리드 차량 판매 2035년까지 허용	글로벌오토뉴스
볼보, 트럭 구독 서비스 '볼보 온 디맨드' 출시…전기차 도입 장벽 낮춘다	글로벌오토뉴스
GM, 전기 콜벳 콘셉트 최초 공개… 미래 슈퍼카 시장 '정조준'	글로벌오토뉴스
미국 관세 폭탄, 자동차 업계 '가격 인상 vs 마진 축소' 갈림길	글로벌오토뉴스
아우디, 미국 수출 전면 중단… 트럼프 관세 폭탄에 '백기'	글로벌오토뉴스
현대차, 미국 내 차량 가격 동결…트럼프 관세의 충격 속 안정적 가격 유지	글로벌오토뉴스
트럼프 관세 폭풍, 재규어랜드로버 미국 수출 '일시 중단'	글로벌오토뉴스
제네시스, 유러피언 르망 시리즈 데뷔전서 LMP2 클래스 우승	글로벌오토뉴스
레이싱카부터 클럽캠핑버스까지…서울모빌리티쇼 이색 전시관 눈길	글로벌오토뉴스
한국타이어, 독일서 ‘벤투스 에보 드라이빙 익스피리언스 2025’ 개최	글로벌오토뉴스
EV 트렌드 코리아 2025, 3자 공동 주관으로 산업 시너지 확대	글로벌오토뉴스
IT·자동차·XR을 잇는 디스플레이 트렌드, OLED & XR KOREA 2025 4월 16일 개최	뉴스탭
펄어비스, 검은사막 모바일 ‘라밤 기술’ 업데이트… 시각·전투 모두 강화	뉴스탭
키즈 패션, 야외활동 특수 타고 봄맞이 신제품 경쟁 본격화	뉴스탭
네오팜, 사우디 최대 드럭스토어 '나디' 입점…중동 뷰티시장 공략 본격화	뉴스탭
웨딩 밴드를 넘어선 새로운 예물 트렌드, ‘웨딩 브레이슬릿’의 부상	뉴스탭
샴페인 무제한부터 북경오리 카트 서비스까지…웨스틴 조선 서울, 오감 자극하는 봄 프로모션 진행	뉴스탭
한국프로골프협회, 기술교육위원장에 김주연 상비군 코치 선임	연합뉴스
'아시아 첫 메이저 챔프' 양용은 "시니어 PGA 챔피언십도 도전"	연합뉴스
트립닷컴, 전 세계 직원 대상 '연간 3일 유급 육아휴가' 도입	뉴스탭
MCM, 밀라노 살로네서 ‘펫 테라피’ 전시…반려동물과의 교감 담은 디자인 제안	뉴스탭
뱅앤올룹슨, 아시아·태평양 최초 체험형 매장 신세계 본점에 오픈	뉴스탭
KPR 김일유 CAIO, 1인 AI 감독 영화 '마켓'…국내외 영화제 연이어 수상	뉴스탭
창립 6년, 매출 1,150억 돌파한 앳홈…“생활 문제 해결의 정답이 되겠다”	뉴스탭
전 세계 500명뿐인 프랑스 마스터 셰프… 미카엘 로빈, 서울에서 명예 얻다	뉴스탭
집에서 즐기는 불맛 안주, 간편조리로 ‘홈술족’ 공략 나선 식품업계	뉴스탭
AI는 영감을 주는가, 빼앗는가? 디자인 작업 시 AI를 활용하는 방식과 영향	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI한테 우울증 관련 유튜브 숏츠 분석 시켰더니… 인간과 다른 시선 드러나

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI한테 우울증 관련 유튜브 숏츠 분석 시켰더니… 인간과 다른 시선 드러나

공유하기

공감/비공감