비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

코로나19에선 정확, 경제는 취약? 5대 AI 모델의 팩트체킹 능력 비교

2025.03.14. 18:08:41
조회 수
288
12
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Fact-checking with Generative AI: A Systematic Cross-Topic Examination of LLMs Capacity to Detect Veracity of Political Information


LLM, 거짓 정보 탐지에는 강하지만 전반적 성능은 아직 미흡

생성형 AI를 기반으로 한 대형 언어 모델(LLM)이 정치 정보의 진위를 판별하는 팩트체킹 영역에서 어떤 역할을 할 수 있을지 관심이 커지고 있다. 최근 ChatGPT와 같은 대화형 AI의 등장으로 정보의 진위를 자동으로 판별하는 기술에 대한 기대가 높아지고 있는 가운데, 바이젠바움 연구소와 베른 대학 연구팀이 5개 주요 LLM의 팩트체킹 능력을 체계적으로 평가한 연구 결과를 발표했다.

연구팀은 ChatGPT-4, Llama 3(70B), Llama 3.1(405B), Claude 3.5 Sonnet, Google Gemini 등 5개 LLM을 대상으로 전문 팩트체커가 이미 검증한 1만 6,513개의 정치 정보 진술문에 대한 진위 판별 능력을 테스트했다. 주제 모델링과 회귀 분석을 통해 진술문의 주제나 모델 유형이 판별 정확도에 어떤 영향을 미치는지 체계적으로 분석했다.

정확도는 챗GPT와 제미나이가 앞서… 거짓 정보 탐지 정확도 최대 80%

연구 결과에 따르면 ChatGPT-4와 Google Gemini가 다른 모델보다 전반적으로 높은 정확도를 보였다. 특히 모든 모델이 참인 정보보다 거짓 정보를 탐지하는 데 더 강점을 보였는데, 특히 코로나19, 미국 정치 논쟁, 사회 이슈와 같은 민감한 주제에서 더 높은 정확도를 나타냈다.

이는 모든 LLM이 공중 보건이나 정치인과 관련된 민감한 주제에 대해 가드레일(안전장치)을 설정했을 가능성을 시사한다. 이런 주제에 대한 높은 정확도는 훈련 데이터에 관련 거짓 정보가 더 많이 포함되었을 가능성도 있지만, GPT 모델이 건강 관련 주제에서 높은 정확도를 보인다는 이전 연구와도 일치하는 결과다.


코로나19는 133% 더 정확하게, 경제 주제는 70% 더 부정확하게 판별

모든 LLM은 전반적으로 '혼합(MIXTURE)' 범주의 진술문보다 '거짓(FALSE)' 범주의 진술문을 더 정확하게 식별했다. 특히 진위 여부가 명확한 극단적 사례보다 부분적 사실과 부분적 거짓이 혼합된 복잡한 진술을 평가하는 데 어려움을 겪었다.

흥미롭게도 연구진은 LLM 간 성능 차이가 상당하다는 점을 발견했다. 예를 들어 Llama 모델은 진술문이 '참'인지 '거짓'인지 혹은 '혼합'인지에 관계없이 '참'으로 판정하는 경향이 있었다. 이는 모델들의 기반이 되는 훈련 데이터가 성능에 깊은 영향을 미친다는 점을 보여준다.

또한 미국 재정 문제나 경제 관련 주제에서는 모든 LLM이 거짓 정보를 식별하는 정확도가 낮았다. 이는 특정 주제에 대한 훈련 데이터의 부족이나 주제별 가드레일의 차이에서 기인했을 가능성이 있다.

더 큰 모델이 팩트체킹도 더 정확하게 수행

연구팀은 LLM의 팩트체킹 성능이 모델의 아키텍처 및 파라미터 규모와 직접적인 관련이 있다고 지적했다. Llama 3.1(405B)이 Llama 3(70B)보다 모든 카테고리에서 더 나은 성능을 보인 것이 이를 증명한다. 이는 더 많은 파라미터로 훈련된 모델이 복잡한 팩트체킹 작업에서 더 좋은 성능을 발휘한다는 것을 의미한다.

연구진은 LLM의 팩트체킹 능력 향상을 위해 목표화된 사전 훈련과 미세 조정이 필요하다고 제안했다. 특히 코로나19와 미국 정치 관련 주제에서 모든 LLM이 높은 정확도를 보인 점에 주목하며, 가드레일 설정이 출력의 정확성을 보장하는 유망한 전략이 될 수 있다고 밝혔다.

하지만 이러한 가드레일은 변화하는 사회정치적 맥락에 맞춰 지속적인 조정이 필요하다는 도전과제도 함께 존재한다. 연구팀은 또한 ClaimsKG 데이터셋이 미국 중심적이라는 점을 한계로 지적하며, 다른 사회정치적 맥락이나 언어에서는 LLM 성능이 다를 수 있다고 경고했다.

FAQ

Q: 생성형 AI가 팩트체킹을 완전히 자동화할 수 있을까요?

A: 현재로서는 어렵습니다. 이번 연구에서 보듯 대형 언어 모델(LLM)은 특히 거짓 정보 탐지에 강점을 보이지만, 전반적인 정확도는 여전히 제한적입니다. LLM은 팩트체킹을 보조하는 도구로 활용하되, 전문가의 검증이 여전히 필요합니다.

Q: 왜 AI는 참인 정보보다 거짓 정보를 더 잘 탐지하나요?

A: 연구에 따르면 이는 훈련 데이터의 특성과 관련이 있을 수 있습니다. 예를 들어 ChatGPT-4는 팩트체크된 거짓 정보가 더 많이 포함된 데이터로 훈련되었을 가능성이 있고, 특히 코로나19나 정치 논쟁과 같은 민감한 주제에 대해서는 가드레일(안전장치)이 설정되어 있을 수 있습니다.

Q: 어떤 주제에서 AI 팩트체킹이 가장 정확한가요?

A: 이번 연구에서는 코로나19, 미국 정치 논쟁, 사회 이슈와 같은 민감한 주제에서 AI가 더 정확한 팩트체킹을 수행했습니다. 반면 미국 경제나 재정 정책 관련 주제에서는 정확도가 낮았습니다. 이는 특정 주제에 대한 데이터 부족이나 가드레일 설정의 차이에서 비롯될 수 있습니다.



해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
'역시 신지애' 2R까지 1오버파 기록…KLPGA 60경기 연속 컷 통과 연합뉴스
3㎏ 체중 불린 이예원 "비거리 늘고, 아이언 샷도 묵직해졌어요" 연합뉴스
김시우, PGA 투어 텍사스오픈 1라운드 공동 43위(종합) 연합뉴스
출시 일주일 만에, 인조이 판매량 100만 장 돌파 게임메카
인생 시뮬레이션 ‘인조이’, 스팀 얼리 액세스 일주일 만에 100만 장 돌파 뉴스탭
캐로스컴퍼니, IFS 박람회서 신개념 튀김기·초음파 식기세척기 첫 공개 뉴스탭
GTA 온라인, HSW 레이스와 새스쿼치 복장으로 새봄 맞이 콘텐츠 대거 공개 뉴스탭
MSI코리아, 그래픽카드 구매 고객에 스팀 월렛 코드 증정 다나와
美 관세 "누군가는 웃는다" 포드, 모든 고객 임직원 할인가 파격 프로모션 오토헤럴드
[EV 트렌드] "안 팔릴 차였어" 사이버트럭 재고 수천억, 중고차 가격 반토막 오토헤럴드
세계 최고의 매체가 뽑은 최고의 타이어, 미쉐린도 굿이어도 아니었어 오토헤럴드
'공력 성능 향상으로 안정성 · 제동력 향상' BMW모토라드, 뉴 S 1000 RR 출시 오토헤럴드
'우리도 이제 전동화' 지프, 차세대 컴패스에서 3가지 파워트레인 탑재 오토헤럴드
현대차·엠티알 공동 개발, 11인승 전기 중형 승합차 ST1 기반 ‘CV1’ 공개 오토헤럴드
BMW 그룹, ‘2025 서울모빌리티쇼’에서 즐기는 현장 이벤트 및 체험 프로그램 오토헤럴드
로터스자동차코리아, 브랜드 역사상 최초로 서울모빌리티쇼 참가 글로벌오토뉴스
[인터뷰] 10년 준비한 한국 시장 진출, 이제는 신뢰 구축의 시간 류쉐량 대표 인터뷰 글로벌오토뉴스
1분기 수입차 등록 11.1% 증가… 벤츠·BMW·테슬라 순 글로벌오토뉴스
마세라티, 브랜드 첫 전기 SUV '그레칼레 폴고레' 고객 인도 개시 글로벌오토뉴스
2025 서울모빌리티쇼 - ‘씰’부터 ‘양왕 U9’까지…BYD, 8종 전기차 라인업 공개 글로벌오토뉴스
이 시간 HOT 댓글!
1/4