비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI한테 우울증 관련 유튜브 숏츠 분석 시켰더니… 인간과 다른 시선 드러나

2025.03.11. 10:23:15
조회 수
246
5
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Can Large Language Models Grasp Concepts in Visual Content? A Case Study on YouTube Shorts about Depression


725개 키프레임 분석 결과: AI도 영상 속 추상적 개념을 이해할 수 있다

대규모 언어 모델(LLM)은 인간-컴퓨터 상호작용 및 계산 사회과학 연구에서 점점 더 중요한 역할을 담당하고 있다. 텍스트 데이터 분석에 초점을 맞춘 기존 연구와 달리, 최근에는 멀티모달 대규모 언어 모델(MLLM)을 활용한 온라인 영상 연구의 가능성이 대두되고 있다. 텍사스 대학교 오스틴 캠퍼스의 연구팀은 MLLM을 통한 비디오 콘텐츠 분석에 관한 초기 사례 연구를 수행했다. 해당 연구 논문에 따르면, 이들은 영상에서 추상적 개념에 대한 AI의 해석과 인간의 이해를 비교하며, 향후 MLLM 지원 비디오 콘텐츠 분석의 발전 가능성을 탐색했다.

연구팀은 LLaVA-1.6 Mistral 7B 모델을 활용해 비디오 매개 자기 노출(video-mediated self-disclosure)과 관련된 4가지 추상적 개념(발표 스타일, 상호작용 스타일, 시각적 다양성, 각성 수준)을 해석하도록 하였다. 142개의 우울증 관련 유튜브 쇼츠 비디오에서 추출한 725개 핵심 프레임을 분석한 결과, MLLM의 인간 이해와의 정렬은 개념의 복잡성이나 프롬프트 구성 방식에 따라 크게 달라졌다. 특히 추상적 개념 설명을 더 구체적으로 제공하는 것이 반드시 인간-AI 정렬도를 높이지는 않는다는 흥미로운 발견이 있었다.

유튜브·틱톡·인스타그램: 3대 영상 플랫폼 데이터가 AI 연구의 새로운 영역을 열다

유튜브, 틱톡, 인스타그램과 같은 비디오 공유 플랫폼은 인간-컴퓨터 상호작용 및 계산 사회과학 연구의 풍부한 데이터 원천이다. 그러나 디지털 민족지학이나 콘텐츠 분석과 같은 전통적인 비디오 분석 방법은 노동 집약적이고 확장성이 제한되어 있다. 이러한 배경에서 멀티모달(시각, 텍스트, 오디오) 콘텐츠를 분석하기 위한 자동화된 접근법에 대한 수요가 증가하고 있다.

최근 LLM을 활용한 텍스트 기반 콘텐츠 분석의 성공적인 사례들이 등장했지만, 비디오 콘텐츠 분석에 MLLM을 최적으로 활용하는 방법에 대한 연구는 아직 초기 단계에 있다. LLaVA나 GPT-4와 같은 MLLM이 시각적 정보를 대규모로 이해하는 데 유망한 결과를 보여주고 있지만, 비디오 프레젠테이션 스타일과 같은 추상적인 개념을 포착하는 데는 여전히 어려움이 있다.

4가지 프롬프트 전략으로 테스트: 단순 질문부터 열린 사고까지, AI의 이해력은 어떻게 달라졌나

연구팀은 우울증과 자기 노출 행동에 관련된 4가지 개념(발표 스타일, 상호작용 스타일, 다양성, 각성)에 대한 MLLM의 해석을 평가했다. 이를 위해 "depression"을 검색어로 유튜브 데이터 API를 사용해 2024년 2월까지 업로드된 3,892개 영상의 메타데이터를 수집하고, 그중 무작위로 선택한 150개 영상을 다운로드했다. 이후 FFmpeg를 사용해 각 영상에서 시각적으로 구별되는 키프레임을 추출하여 최종적으로 142개 비디오에서 725개 키프레임을 분석 대상으로 선정했다.

MLLM이 추상적 시각 개념을 얼마나 잘 이해하는지 평가하기 위해 4가지 프롬프트 구성 전략을 테스트했다:

  1. 단순(Naive): 추가 맥락 없이 개념의 존재 여부를 직접 질문
  2. 간단 정의(Simple): 단순 질문에 짧은 정의 추가
  3. 상세 정의(Detailed): 세 가지 추상적 발현과 함께 자세한 정의 제공
  4. 열린 사고(Open-minded): 상세 정의와 유사하지만 명시되지 않은 다른 시나리오도 고려하도록 유도
  5. "발표" vs "상호작용": 복잡한 개념일수록 AI는 인간과 다르게 이해한다


MLLM은 다양한 개념에 대해 서로 다른 정확도를 보였다. 각성이나 다양성과 같은 추상적 개념에서는 높은 성능을 보인 반면, 발표 스타일이나 상호작용 스타일과 같은 수행적 개념에서는 낮은 정렬도와 더 높은 편차를 보였다. 단순 접근법에서 MLLM은 상호작용, 각성, 다양성 개념에 대해 잘 수행했는데, 이는 MLLM의 사전 지식(사전 훈련 데이터에서 파생된)이 인간의 개념과 잘 일치함을 시사한다.

그러나 발표 스타일의 경우, 더 많은 작동 지침을 제공할 때만 상당한 정렬 이득이 관찰되었다. 또한 이러한 효과는 단조롭지 않았다(더 상세한 프롬프트가 항상 더 나은 정렬로 이어지지는 않음). 연구팀은 MLLM의 설명을 질적으로 분석하여 인간-AI 정렬 불일치에 영향을 미치는 세 가지 주요 요인을 확인했다:

  1. 개념 구체화의 변화: 프롬프트에 포함된 세부 사항의 양에 따라 MLLM의 해석이 달라졌다. 발표 스타일과 상호작용의 경우, 보조 정의는 이미지의 전체적인 맥락보다 "프롬프트에 있는 것"을 우선시하여 MLLM이 인간 인식과 덜 일치하게 만들었다.
  2. 개념의 복잡성 차이: 다양성은 시각적 범주를 식별하고 계산하는 것과 관련되어 상대적으로 간단했지만, 상호작용과 발표 스타일은 더 도전적이었다. 이들은 시각적 단서를 맥락 내에서 상황화하는 것을 요구하기 때문이다. 예를 들어 발표 이미지에서 손동작이 있더라도 그것이 청중을 향한 것인지 아니면 텍스트 오버레이로 인코딩된 시나리오를 제시하는 것인지를 구분해야 한다.
  3. 다양한 비디오 장르: 비디오의 다양성은 MLLM의 사회적 개념 이해 능력에 도전을 제기했다. 텍스트와 시각적 요소가 혼합된 비디오의 경우, MLLM은 일반적으로 시각적 신호보다 텍스트 신호를 우선시하여 잠재적 오해석을 초래했다. 또한 만화, 밈, 추상 예술과 같은 비인간적 비디오 장르를 해석하는 데 어려움을 겪었다.

142개 우울증 영상 분석으로 드러난 AI의 미래: 대규모 콘텐츠 분석은 가능할까

MLLM은 적절한 작동화를 통해 발표 스타일과 같은 추상적 개념에 대해서도 인간 인식과 높은 정렬도를 보여, 비디오 콘텐츠 분석 규모를 확장하는 데 큰 잠재력을 가지고 있다. 수작업 라벨링을 가속화함으로써 MLLM은 더 포괄적인 대규모 데이터셋 분석을 가능하게 하고, 소규모 질적 연구에서는 감지하기 힘든 희귀한 커뮤니케이션 패턴을 발견할 수 있다.

그러나 MLLM의 인간 인식과의 불일치도 명백하다. 연구 결과에 따르면 추상적 개념을 더 세부적으로 작동화하면 정렬도가 향상될 수 있지만, 지정된 기준을 넘어서는 새로운 사회적 역학을 발견하는 MLLM의 능력이 제한될 위험도 있다. 이는 전형적인 맥락 내 학습 시나리오와 대조된다.

연구팀은 MLLM 응답 감사, 다중 모드 입력 합성, 비디오 시간성 통합 등 인간-AI 정렬을 개선하기 위한 세 가지 방향을 제안했다. 또한 인간 중심의 사후 감사를 구현하고, 향후 MLLM 지원 콘텐츠 분석 워크플로우에 인간 중심 평가를 표준 단계로 통합하는 것이 중요하다고 강조했다.

만화·밈·추상예술: AI가 가장 해석하기 어려워하는 비디오 장르들

이 탐색적 연구는 MLLM을 활용하여 비디오 데이터에서 추상적 사회적 개념을 해석하는 초기 사례 연구 중 하나이다. 기존 연구가 주로 텍스트 기반 소셜 미디어 데이터에 LLM을 활용한 반면, 이 연구는 MLLM이 비디오 콘텐츠로 대규모 자동화 콘텐츠 분석을 확장할 수 있음을 보여준다.

양적 및 질적 비교를 통해, 개념 작동화, 복잡성, 장르 다양성과 같은 인간 인식과 MLLM 인식 사이의 불일치를 야기하는 주요 요인들이 강조되었다. 흥미롭게도, 추상적 개념의 전형적인 발현을 추가하는 것이 일관되게 정렬도를 향상시키지는 않았다. 이 결과는 AI 출력과 인간 이해 사이의 일치를 보장하기 위해 사후 감사와 인간 감독의 중요성을 강조한다.

멀티모달 입력 통합에 대한 더 정교한 방법을 개발하고, 모델이 더 복잡한 사회적 상호작용을 이해하도록 미세 조정하거나 맥락 내 학습을 실험하는 것이 향후 연구의 유망한 방향이 될 것이다.

FAQ

Q: 멀티모달 대규모 언어 모델(MLLM)이란 무엇이며 비디오 콘텐츠 분석에 어떻게 활용되나요?
A: MLLM은 텍스트뿐만 아니라 이미지나 비디오와 같은 여러 형태의 데이터를 이해하고 처리할 수 있는 AI 모델입니다. 비디오 콘텐츠 분석에서는 MLLM이 비디오의 키프레임을 분석하여 발표 스타일, 상호작용 방식, 시각적 다양성 등의 추상적 개념을 식별하고 해석하는 데 활용됩니다.

Q: 연구에서 발견한 MLLM의 주요 한계점은 무엇인가요?
A: 연구에 따르면 MLLM은 만화, 밈, 추상 예술과 같은 비인간적 비디오 장르를 해석하는 데 어려움을 겪으며, 텍스트와 시각적 요소가 혼합된 콘텐츠에서는 종종 시각적 신호보다 텍스트를 우선시하는 경향이 있습니다. 또한 발표 스타일이나 상호작용과 같이 맥락 이해가 필요한 복잡한 개념을 해석하는 데도 제한이 있습니다.

Q: MLLM을 활용한 비디오 콘텐츠 분석이 향후 어떻게 발전할 것으로 예상되나요?
A: 향후 MLLM을 활용한 비디오 콘텐츠 분석은 다중 모드 입력(시각, 오디오, 텍스트) 합성 기술 개선, 시간적 맥락을 고려한 모델 개발, 그리고 인간 중심 평가 및 감사 시스템의 통합을 통해 발전할 것으로 예상됩니다. 이를 통해 더 정확하고 맥락에 맞는 비디오 콘텐츠 분석이 가능해질 것입니다.

해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.

기사는 클로드와 챗GPT를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
위쳐들의 아버지, 베스미어 성우 윌리엄 로버츠 별세 게임메카
휴대용 기기 공개하나? Xbox 쇼케이스 6월 9일 개최 게임메카
"성폭력 게임 철회하라!" 영국 여성 단체 스팀에 게임 삭제 요구 게임동아
비피엠지, 신규 서비스 및 일본 진출로 블록체인 토큰 생태계 확장 본격화 게임동아
크래프톤, '배틀그라운드' 신규 캐릭터 업그레이드 시스템 '컨텐더' 공개 게임동아
무선 게이밍 기어로 게임 즐기려면 ‘지연 시간’이 중요하다 IT동아
2028 LA 올림픽, 골프 혼성 단체전 포함한 22개 종목 추가(종합) 연합뉴스
'승리의 여신: 니케'에 신규 SSR 캐릭터 크러스트 등장! 게임동아
엔씨 리니지M, ‘말하는섬&윈다우드’ 첫 월드 공성전 진행! 게임동아
크래프톤 '썬더 티어 원' 무료 전환 및 환불 발표 게임동아
넷마블 '레이븐2' 길드 챔피언십' 4월 26일 국내 개최 게임동아
최고와 함께하라 슈퍼센트, 상금 30억 상당 '제4회 슈퍼센트 게임 챌린지' 개최 게임동아
트리플, AI 기반 홈 화면 전면 개편... 150만 리뷰 데이터로 초개인화 여행 제안 뉴스탭
임성재, KPGA 새 역사 쓰러 출격…우리금융 챔피언십 3연패 도전 연합뉴스
모바일 게임 다운로드 줄고 결제는 늘었다…중동·중남미가 새 기회 뉴스탭
옥천군, 향수CC 도시계획시설 결정…"농업보호구역 등 배제" 연합뉴스
MZ세대 중심의 ‘미닝아웃’ 확산… 지속가능한 패션 브랜드 각광 뉴스탭
박보영과 함께하는 제주삼다수, ‘믿음’과 ‘청정’의 가치를 노래하다 뉴스탭
최등규·최정훈 부자, 아시아 파워 골프인 3년 연속 선정 연합뉴스
'웰컴투어'에 9.99달러 책정한 닌텐도.. '설명서 보려면 돈 내세요' 게임동아
이 시간 HOT 댓글!
1/4