
Using AI to Summarize US Presidential Campaign TV Advertisement Videos, 1952–2012
100시간 분량의 대선 광고를 디지털화: TV 광고가 여전히 전체 선거 광고 지출의 48% 차지
미국 대선에서 TV 광고는 유권자들에게 메시지를 전달하는 주요 수단으로 활용되어 왔다. 2024년 미국 선거에서만 방송 TV를 통해 147만 번 이상 광고가 방영되었으며, 그 비용은 53억 달러를 넘어섰다. 이러한 TV 광고는 최근 온라인 광고 트렌드에도 불구하고 여전히 전체 광고 지출의 48%를 차지하며, 온라인 및 소셜 미디어 광고 캠페인의 3배 이상에 달한다. 따라서 대선 TV 광고는 정치 커뮤니케이션, 정치 심리학, 정치 행동 연구에서 중요한 연구 대상이 되어왔다.
이에 다트머스 대학, 퍼듀 대학, 오클라호마 대학, 아이오와 대학, 하버드 대학 공동 연구팀이 인공지능(AI)으로 과거의 미국 대선 TV 광고를 분석한 연구 결과를 발표했다. 논문에 따르면, 연구자들은 광범위한 데이터 접근의 어려움과 수작업 분석의 한계로 인해 소규모 광고 세트에 집중할 수밖에 없었던 기존 연구의 한계를 AI 기술을 활용해 극복하고자 했다.
1952년 아이젠하워부터 2012년 오바마까지: 9,707개 광고를 AI로 분석한 최초의 대규모 연구
연구자들은 이러한 문제를 해결하기 위해 줄리안 P. 칸터 정치 광고 아카이브에서 대선 TV 광고를 디지털화하여 공개했다. 1952년 아이젠하워와 스티븐슨의 선거부터 2012년 오바마와 롬니의 선거까지 총 9,707개의 광고를 포함하는 이 데이터셋은 지금까지 공개된 가장 방대한 미국 대선 TV 광고 컬렉션이다. 이 데이터의 가치를 극대화하기 위해 연구팀은 대규모 병렬 AI 기반 분석 파이프라인을 개발했다. 이 시스템은 영상 준비, 자동 음성 인식을 통한 자막 생성, 그리고 요약문 작성 과정을 자동화했다. 개발된 방법론은 후속 학술 연구에 필요한 중립성, 포괄성, 일관성을 제공하도록 설계되었다.
Whisper에서 GPT-4까지: 광고 한 편당 평균 22개 핵심 프레임 추출로 정치 메시지 분석
연구팀이 개발한 영상 요약 워크플로우는 네 단계로 구성된다. 첫째, OpenAI의 Whisper 모델을 사용해 고품질 자막을 생성한다. 둘째, 영상의 주요 장면을 담은 프레임을 추출하기 위해 음성 세그먼트 기반과 3초 간격 샘플링 방식을 병행한다. 이 방식으로 광고당 평균 9.78개의 텍스트 세그먼트 기반 프레임과 12.24개의 정규 간격 프레임, 총 약 22개의 핵심 프레임을 확보했다. 셋째, GPT-4-Vision을 활용해 추출된 프레임의 내용을 간결하게 설명한다. 마지막으로, 이 모든 정보를 종합하여 각 광고에 대한 50단어 분량의 요약문을 생성한다. 이 접근법은 기존의 단순 텍스트 처리보다 풍부한 정보를 담으면서도, 연구자들이 100시간이 넘는 전체 영상을 효율적으로 탐색할 수 있게 돕는다.

AI vs 인간 요약 성능: AI 요약이 유창성에서 85.9% 더 높은 평가 받아
연구팀은 개발된 시스템의 성능을 철저히 검증하기 위해 인간 전문가와 AI의 성능을 비교했다. 특히 광고 자막의 경우, AI 생성 자막은 100단어당 약 3개의 오류만을 보이며, 전문 인간 전사자에 필적하는 성능을 보였다. 광고 요약 품질 평가에서는 AI 생성 요약문이 일관성, 응집성, 유창성, 관련성 측면에서 인간 작성 요약문보다 우수하거나 동등한 품질을 나타냈다. 혼합 효과 순서형 로짓 모델 분석 결과, AI 요약문은 인간 작성보다 응집성에서 39.8%, 유창성에서 85.9%, 관련성에서 39.4% 더 높은 평가를 받았다. 또한 모든 평가에서 정당 성향이나 시대에 관계없이 일관된 품질을 유지함을 통계적으로 확인했다.
FAQ
Q: 이 연구에서 사용된 데이터셋은 얼마나 포괄적인가요?
A: 이 데이터셋은 1952년부터 2012년까지 9,707개의 미국 대선 TV 광고를 포함하며, 지금까지 공개된 가장 방대한 컬렉션입니다. 모든 광고를 포함한다고 주장하지는 않지만, 이 기간 동안 가장 완전한 컬렉션으로, 상당수 광고는 이 아카이브에만 존재합니다.
Q: AI로 생성된 요약문은 얼마나 정확한가요?
A: 인간 전문가의 평가에 따르면, AI 생성 요약문은 일관성, 응집성, 유창성, 관련성 측면에서 인간 작성 요약문보다 우수하거나 동등한 품질을 나타냈습니다. 특히 유창성 측면에서는 인간 작성보다 85.9% 더 높은 평가를 받았습니다.
Q: 이 연구 결과는 어떻게 활용될 수 있나요?
A: 연구자들은 이 데이터셋을 통해 70년에 걸친 정치 커뮤니케이션의 진화를 연구할 수 있습니다. 예를 들어, 경제, 외교 정책, 범죄와 같은 주요 선거 이슈들이 시대에 따라 어떻게 변화했는지 분석할 수 있으며, 온라인 인터페이스를 통해 특정 주제에 관한 광고를 검색하고 연구할 수 있습니다.
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기