
Can Large Language Models Grasp Concepts in Visual Content? A Case Study on YouTube Shorts about Depression
725개 키프레임 분석 결과: AI도 영상 속 추상적 개념을 이해할 수 있다
대규모 언어 모델(LLM)은 인간-컴퓨터 상호작용 및 계산 사회과학 연구에서 점점 더 중요한 역할을 담당하고 있다. 텍스트 데이터 분석에 초점을 맞춘 기존 연구와 달리, 최근에는 멀티모달 대규모 언어 모델(MLLM)을 활용한 온라인 영상 연구의 가능성이 대두되고 있다. 텍사스 대학교 오스틴 캠퍼스의 연구팀은 MLLM을 통한 비디오 콘텐츠 분석에 관한 초기 사례 연구를 수행했다. 해당 연구 논문에 따르면, 이들은 영상에서 추상적 개념에 대한 AI의 해석과 인간의 이해를 비교하며, 향후 MLLM 지원 비디오 콘텐츠 분석의 발전 가능성을 탐색했다.
연구팀은 LLaVA-1.6 Mistral 7B 모델을 활용해 비디오 매개 자기 노출(video-mediated self-disclosure)과 관련된 4가지 추상적 개념(발표 스타일, 상호작용 스타일, 시각적 다양성, 각성 수준)을 해석하도록 하였다. 142개의 우울증 관련 유튜브 쇼츠 비디오에서 추출한 725개 핵심 프레임을 분석한 결과, MLLM의 인간 이해와의 정렬은 개념의 복잡성이나 프롬프트 구성 방식에 따라 크게 달라졌다. 특히 추상적 개념 설명을 더 구체적으로 제공하는 것이 반드시 인간-AI 정렬도를 높이지는 않는다는 흥미로운 발견이 있었다.
유튜브·틱톡·인스타그램: 3대 영상 플랫폼 데이터가 AI 연구의 새로운 영역을 열다
유튜브, 틱톡, 인스타그램과 같은 비디오 공유 플랫폼은 인간-컴퓨터 상호작용 및 계산 사회과학 연구의 풍부한 데이터 원천이다. 그러나 디지털 민족지학이나 콘텐츠 분석과 같은 전통적인 비디오 분석 방법은 노동 집약적이고 확장성이 제한되어 있다. 이러한 배경에서 멀티모달(시각, 텍스트, 오디오) 콘텐츠를 분석하기 위한 자동화된 접근법에 대한 수요가 증가하고 있다.
최근 LLM을 활용한 텍스트 기반 콘텐츠 분석의 성공적인 사례들이 등장했지만, 비디오 콘텐츠 분석에 MLLM을 최적으로 활용하는 방법에 대한 연구는 아직 초기 단계에 있다. LLaVA나 GPT-4와 같은 MLLM이 시각적 정보를 대규모로 이해하는 데 유망한 결과를 보여주고 있지만, 비디오 프레젠테이션 스타일과 같은 추상적인 개념을 포착하는 데는 여전히 어려움이 있다.
4가지 프롬프트 전략으로 테스트: 단순 질문부터 열린 사고까지, AI의 이해력은 어떻게 달라졌나
연구팀은 우울증과 자기 노출 행동에 관련된 4가지 개념(발표 스타일, 상호작용 스타일, 다양성, 각성)에 대한 MLLM의 해석을 평가했다. 이를 위해 "depression"을 검색어로 유튜브 데이터 API를 사용해 2024년 2월까지 업로드된 3,892개 영상의 메타데이터를 수집하고, 그중 무작위로 선택한 150개 영상을 다운로드했다. 이후 FFmpeg를 사용해 각 영상에서 시각적으로 구별되는 키프레임을 추출하여 최종적으로 142개 비디오에서 725개 키프레임을 분석 대상으로 선정했다.
MLLM이 추상적 시각 개념을 얼마나 잘 이해하는지 평가하기 위해 4가지 프롬프트 구성 전략을 테스트했다:
- 단순(Naive): 추가 맥락 없이 개념의 존재 여부를 직접 질문
- 간단 정의(Simple): 단순 질문에 짧은 정의 추가
- 상세 정의(Detailed): 세 가지 추상적 발현과 함께 자세한 정의 제공
- 열린 사고(Open-minded): 상세 정의와 유사하지만 명시되지 않은 다른 시나리오도 고려하도록 유도
- "발표" vs "상호작용": 복잡한 개념일수록 AI는 인간과 다르게 이해한다
MLLM은 다양한 개념에 대해 서로 다른 정확도를 보였다. 각성이나 다양성과 같은 추상적 개념에서는 높은 성능을 보인 반면, 발표 스타일이나 상호작용 스타일과 같은 수행적 개념에서는 낮은 정렬도와 더 높은 편차를 보였다. 단순 접근법에서 MLLM은 상호작용, 각성, 다양성 개념에 대해 잘 수행했는데, 이는 MLLM의 사전 지식(사전 훈련 데이터에서 파생된)이 인간의 개념과 잘 일치함을 시사한다.
그러나 발표 스타일의 경우, 더 많은 작동 지침을 제공할 때만 상당한 정렬 이득이 관찰되었다. 또한 이러한 효과는 단조롭지 않았다(더 상세한 프롬프트가 항상 더 나은 정렬로 이어지지는 않음). 연구팀은 MLLM의 설명을 질적으로 분석하여 인간-AI 정렬 불일치에 영향을 미치는 세 가지 주요 요인을 확인했다:
- 개념 구체화의 변화: 프롬프트에 포함된 세부 사항의 양에 따라 MLLM의 해석이 달라졌다. 발표 스타일과 상호작용의 경우, 보조 정의는 이미지의 전체적인 맥락보다 "프롬프트에 있는 것"을 우선시하여 MLLM이 인간 인식과 덜 일치하게 만들었다.
- 개념의 복잡성 차이: 다양성은 시각적 범주를 식별하고 계산하는 것과 관련되어 상대적으로 간단했지만, 상호작용과 발표 스타일은 더 도전적이었다. 이들은 시각적 단서를 맥락 내에서 상황화하는 것을 요구하기 때문이다. 예를 들어 발표 이미지에서 손동작이 있더라도 그것이 청중을 향한 것인지 아니면 텍스트 오버레이로 인코딩된 시나리오를 제시하는 것인지를 구분해야 한다.
- 다양한 비디오 장르: 비디오의 다양성은 MLLM의 사회적 개념 이해 능력에 도전을 제기했다. 텍스트와 시각적 요소가 혼합된 비디오의 경우, MLLM은 일반적으로 시각적 신호보다 텍스트 신호를 우선시하여 잠재적 오해석을 초래했다. 또한 만화, 밈, 추상 예술과 같은 비인간적 비디오 장르를 해석하는 데 어려움을 겪었다.
142개 우울증 영상 분석으로 드러난 AI의 미래: 대규모 콘텐츠 분석은 가능할까
MLLM은 적절한 작동화를 통해 발표 스타일과 같은 추상적 개념에 대해서도 인간 인식과 높은 정렬도를 보여, 비디오 콘텐츠 분석 규모를 확장하는 데 큰 잠재력을 가지고 있다. 수작업 라벨링을 가속화함으로써 MLLM은 더 포괄적인 대규모 데이터셋 분석을 가능하게 하고, 소규모 질적 연구에서는 감지하기 힘든 희귀한 커뮤니케이션 패턴을 발견할 수 있다.
그러나 MLLM의 인간 인식과의 불일치도 명백하다. 연구 결과에 따르면 추상적 개념을 더 세부적으로 작동화하면 정렬도가 향상될 수 있지만, 지정된 기준을 넘어서는 새로운 사회적 역학을 발견하는 MLLM의 능력이 제한될 위험도 있다. 이는 전형적인 맥락 내 학습 시나리오와 대조된다.
연구팀은 MLLM 응답 감사, 다중 모드 입력 합성, 비디오 시간성 통합 등 인간-AI 정렬을 개선하기 위한 세 가지 방향을 제안했다. 또한 인간 중심의 사후 감사를 구현하고, 향후 MLLM 지원 콘텐츠 분석 워크플로우에 인간 중심 평가를 표준 단계로 통합하는 것이 중요하다고 강조했다.
만화·밈·추상예술: AI가 가장 해석하기 어려워하는 비디오 장르들
이 탐색적 연구는 MLLM을 활용하여 비디오 데이터에서 추상적 사회적 개념을 해석하는 초기 사례 연구 중 하나이다. 기존 연구가 주로 텍스트 기반 소셜 미디어 데이터에 LLM을 활용한 반면, 이 연구는 MLLM이 비디오 콘텐츠로 대규모 자동화 콘텐츠 분석을 확장할 수 있음을 보여준다.
양적 및 질적 비교를 통해, 개념 작동화, 복잡성, 장르 다양성과 같은 인간 인식과 MLLM 인식 사이의 불일치를 야기하는 주요 요인들이 강조되었다. 흥미롭게도, 추상적 개념의 전형적인 발현을 추가하는 것이 일관되게 정렬도를 향상시키지는 않았다. 이 결과는 AI 출력과 인간 이해 사이의 일치를 보장하기 위해 사후 감사와 인간 감독의 중요성을 강조한다.
멀티모달 입력 통합에 대한 더 정교한 방법을 개발하고, 모델이 더 복잡한 사회적 상호작용을 이해하도록 미세 조정하거나 맥락 내 학습을 실험하는 것이 향후 연구의 유망한 방향이 될 것이다.
FAQ
Q: 멀티모달 대규모 언어 모델(MLLM)이란 무엇이며 비디오 콘텐츠 분석에 어떻게 활용되나요?
A: MLLM은 텍스트뿐만 아니라 이미지나 비디오와 같은 여러 형태의 데이터를 이해하고 처리할 수 있는 AI 모델입니다. 비디오 콘텐츠 분석에서는 MLLM이 비디오의 키프레임을 분석하여 발표 스타일, 상호작용 방식, 시각적 다양성 등의 추상적 개념을 식별하고 해석하는 데 활용됩니다.
Q: 연구에서 발견한 MLLM의 주요 한계점은 무엇인가요?
A: 연구에 따르면 MLLM은 만화, 밈, 추상 예술과 같은 비인간적 비디오 장르를 해석하는 데 어려움을 겪으며, 텍스트와 시각적 요소가 혼합된 콘텐츠에서는 종종 시각적 신호보다 텍스트를 우선시하는 경향이 있습니다. 또한 발표 스타일이나 상호작용과 같이 맥락 이해가 필요한 복잡한 개념을 해석하는 데도 제한이 있습니다.
Q: MLLM을 활용한 비디오 콘텐츠 분석이 향후 어떻게 발전할 것으로 예상되나요?
A: 향후 MLLM을 활용한 비디오 콘텐츠 분석은 다중 모드 입력(시각, 오디오, 텍스트) 합성 기술 개선, 시간적 맥락을 고려한 모델 개발, 그리고 인간 중심 평가 및 감사 시스템의 통합을 통해 발전할 것으로 예상됩니다. 이를 통해 더 정확하고 맥락에 맞는 비디오 콘텐츠 분석이 가능해질 것입니다.
해당 기사에서 인용한 논문은 링크에서 확인할 수 있다.
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기