비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

돈 내고 써도 오답률 높은 AI 뉴스 검색… 8개 검색엔진 모두 '인용 문제' 심각

2025.03.19. 09:48:36
조회 수
46
1
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

AI Search Has A Citation Problem


AI 검색엔진, 60%가 넘는 쿼리에서 잘못된 답변 제공

AI 검색 도구가 빠르게 인기를 얻으면서 미국인 4명 중 1명이 전통적 검색엔진 대신 AI를 사용하고 있다. 이러한 도구들은 인터넷에서 최신 정보를 크롤링하여 가치를 창출하는데, 이 정보의 상당 부분은 뉴스 출판사가 생산한 콘텐츠다. 그러나 콜롬비아 저널리즘 리뷰의 타우 센터(Tow Center for Digital Journalism)가 진행한 연구에 따르면, 8개 생성형 AI 검색 도구를 테스트한 결과 모두 뉴스 콘텐츠를 인용하는 데 심각한 문제가 있는 것으로 나타났다. 전통적인 검색엔진이 사용자를 뉴스 웹사이트로 안내하는 중개자 역할을 하는 반면, 생성형 검색 도구는 정보를 직접 요약하고 재구성하여 원본 출처로의 트래픽 흐름을 차단하고 있다. 이러한 채팅봇의 대화형 출력은 종종 정보 품질의 심각한 기본 문제를 가리는 경향이 있다.

프리미엄 모델이 무료 모델보다 더 자신 있게 오답 제공

연구진은 8개 생성형 검색 도구에 대해 각 20개 출판사의 10개 기사에서 발췌한 텍스트를 제공하고, 해당 기사의 제목, 원출판사, 발행일, URL을 식별하도록 요청했다. 총 1,600개의 쿼리를 실행한 결과, 이 챗봇들은 전체 쿼리의 60% 이상에서 잘못된 답변을 제공했다. 플랫폼별로 오류율은 다양했는데, 퍼플렉시티(Perplexity)는 쿼리의 37%를 잘못 답변한 반면, 그록 3(Grok 3)은 훨씬 높은 94%의 오답률을 보였다. 더 우려되는 점은 이러한 도구들이 부정확한 답변을 매우 확신에 찬 어조로 제시한다는 것이다. 예를 들어, 챗GPT(ChatGPT)는 134개 기사를 잘못 식별했지만, 200개 응답 중 단 15번만 자신감 부족을 표시했고, 답변을 거부한 적은 한 번도 없었다.

특히 퍼플렉시티 프로($20/월)나 그록 3($40/월) 같은 프리미엄 모델들은 무료 버전보다 더 신뢰할 수 있을 것으로 기대됐지만, 테스트 결과 이들은 더 많은 오답을 제공했다. 이는 주로 정확하지 않은 정보라도 확신에 찬 어조로 답변하는 경향 때문이었다. 이러한 근거 없는 자신감은 사용자에게 정확성과 신뢰성에 대한 위험한 환상을 제공한다.


출판사가 차단한 콘텐츠도 크롤링하는 AI 검색엔진들

테스트된 8개 채팅봇 중 5개(챗GPT, 퍼플렉시티와 퍼플렉시티 프로, 코파일럿, 제미니)는 자사의 크롤러 이름을 공개하여 출판사가 이를 차단할 수 있는 선택권을 주었고, 나머지 3개(딥시크, 그록 2, 그록 3)는 크롤러 정보를 공개하지 않았다. 연구진은 채팅봇이 크롤러 접근이 허용된 출판사 관련 쿼리에만 올바르게 답변하고, 차단된 웹사이트 관련 쿼리는 응답을 거부할 것으로 예상했으나, 실제로는 그렇지 않았다.

특히 퍼플렉시티 프로는 접근이 차단되었어야 할 90개 발췌문 중 거의 3분의 1을 올바르게 식별했다. 놀랍게도 퍼플렉시티의 무료 버전은 내셔널 지오그래픽의 유료화된 기사 10개를 모두 정확히 식별했는데, 이는 출판사가 퍼플렉시티의 크롤러를 차단했고 AI 회사와 공식적인 관계가 없음에도 불구했다. 퍼플렉시티가 "robots.txt 지시를 존중한다"고 주장함에도 불구하고, 이러한 발견은 내셔널 지오그래픽의 크롤러 선호도를 무시했을 가능성을 시사한다.

로봇 배제 프로토콜(Robot Exclusion Protocol)은 법적 구속력이 없지만, 어떤 사이트 부분이 크롤링되어야 하고 어떤 부분이 크롤링되지 않아야 하는지를 신호하는 널리 수용된 표준이다. 이 프로토콜을 무시하는 것은 출판사가 자신의 콘텐츠가 검색에 포함되거나 AI 모델 학습 데이터로 사용될지 여부를 결정할 수 있는 권한을 빼앗는 것이다.


8개 검색엔진 모두 링크 위조… 그록 3, 200개 중 154개 가짜 URL 제공

AI 챗봇은 자신의 답변을 정당화하기 위해 종종 외부 소스를 인용하지만, 테스트된 생성형 검색 도구들은 잘못된 기사를 인용하는 경향이 있었다. 예를 들어, 딥시크(DeepSeek)는 200번의 쿼리 중 115번이나 잘못된 출처를 인용했다. 이는 뉴스 출판사의 콘텐츠가 대부분 잘못된 출처로 귀속되고 있음을 의미한다.

채팅봇이 기사를 올바르게 식별한 것처럼 보이는 경우에도, 종종 원본 출처에 적절하게 링크하지 못했다. 때로는 Yahoo News나 AOL 같은 플랫폼에 게재된 신디케이트 버전의 기사로 안내하기도 했다. 예를 들어, 텍사스 트리뷴(Texas Tribune)과 파트너십을 맺고 있음에도 불구하고, 퍼플렉시티 프로는 10개 쿼리 중 3개에서 트리뷴 기사의 신디케이트 버전을 인용했다.

반면에, 크롤링을 거부하고자 하는 출판사들도 문제에 직면했다. 그들의 콘텐츠는 동의 없이 결과에 계속 나타났지만, 잘못된 출처로 귀속되었다. 예를 들어, USA 투데이는 챗GPT의 크롤러를 차단했지만, 챗봇은 여전히 Yahoo News에 재발행된 버전의 기사를 인용했다.

OpenAI와 퍼플렉시티는 뉴스 출판사와 공식적인 관계를 수립하는 데 가장 많은 관심을 표명한 회사들이다. 그러나 이러한 라이센싱 계약이 있다고 해서 출판사가 더 정확하게 인용되는 것은 아니었다. OpenAI와 퍼플렉시티 모두와 계약을 맺은 타임(Time)의 경우, 두 회사 관련 모델 중 어느 것도 콘텐츠를 100% 정확하게 식별하지 못했다. 반면, 샌프란시스코 크로니클(San Francisco Chronicle)은 OpenAI의 검색 크롤러를 허용하고 Hearst의 "전략적 콘텐츠 파트너십"의 일부이지만, 챗GPT는 출판사에서 공유한 10개 발췌문 중 하나만 올바르게 식별했다.


뉴스 출판사와 계약해도 소용없어… 여전히 콘텐츠 100% 정확히 식별 못해

이 연구 결과는 2024년 11월에 발표된 이전 챗GPT 연구와 일치하며, 채팅봇 전반에 걸쳐 일관된 패턴을 보여준다. 잘못된 정보의 확신에 찬 발표, 신디케이트 콘텐츠에 대한 오해의 소지가 있는 귀속, 일관성 없는 정보 검색 관행 등이 그것이다. 생성형 검색에 대한 비판가들은 대규모 언어 모델을 검색에 사용하는 것에 대해 "투명성과 사용자 권한을 빼앗고, 정보 접근 시스템과 관련된 편향 문제를 더욱 증폭시키며, 일반 사용자가 검증하지 못할 수 있는 근거 없는 또는 유해한 답변을 제공하는 경우가 많다"고 지적한다.

이러한 문제는 뉴스 생산자와 소비자 모두에게 잠재적인 해를 끼칠 수 있다. 이러한 도구를 개발하는 많은 AI 기업들은 뉴스 출판사와 협력하는 데 관심을 공개적으로 표명하지 않았다. 관심을 표명한 기업들조차도 종종 정확한 인용을 제공하거나 로봇 배제 프로토콜을 통해 표시된 선호도를 존중하지 못한다. 결과적으로 출판사들은 자신들의 콘텐츠가 채팅봇에 의해 표면화되는지 여부와 방법을 제어하는 옵션이 제한적이며, 그 옵션들도 제한된 효과만 있는 것으로 보인다.


FAQ

Q. AI 검색 엔진이 뉴스 콘텐츠를 인용할 때 어떤 문제가 있나요?

A:AI 검색 엔진은 뉴스 콘텐츠를 정확하게 인용하지 못하는 경우가 많습니다. 테스트 결과 이들은 잘못된 기사를 인용하거나, 원본 출처 대신 다른 플랫폼에 재발행된 버전을 링크하거나, 심지어 존재하지 않는 URL을 생성하는 등의 문제를 보였습니다. 이런 오류에도 불구하고 대부분의 AI 검색 도구는 확신에 찬 어조로 답변을 제공합니다.

Q. 프리미엄 AI 검색 서비스가 무료 서비스보다 더 정확한가요?

A:놀랍게도, 프리미엄 AI 검색 서비스(퍼플렉시티 프로, 그록 3 등)는 일부 쿼리에서 무료 버전보다 더 많은 정확한 답변을 제공했지만, 동시에 더 높은 오류율도 보였습니다. 이는 주로 답변을 거부하기보다 확신에 찬 어조로 잘못된 정보를 제공하는 경향 때문입니다. 따라서 비용이 더 높다고 해서 반드시 더 신뢰할 수 있는 것은 아닙니다.

Q. 출판사는 자신의 콘텐츠가 AI 검색 엔진에 사용되는 것을 어떻게 통제할 수 있나요?

A:출판사는 자사 웹사이트의 robots.txt 파일을 통해 특정 AI 크롤러의 접근을 차단할 수 있습니다. 그러나 연구 결과에 따르면 일부 AI 회사들은 이러한 제한을 무시하고 있으며, 신디케이트된 콘텐츠나 타 플랫폼에 재발행된 버전을 통해 우회하는 경우도 있습니다. 또한 일부 AI 회사들은 출판사와 라이센싱 계약을 맺지만, 이것이 항상 정확한 인용을 보장하지는 않습니다.



해당 기사에서 인용한 연구에 대한 자세한 사항은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
3/1
[루머] 스위치2에 새로운 업스케일링 기술 탑재되나? 게임동아
중국에서 화제인 AI 대화형 인터랙티브 게임 ‘별이 보내는 속삭임’ 공개 게임동아
당신의 회사는 AI 준비가 되었는가? 가트너가 제시하는 2025 인공지능 로드맵 AI matters
양자 컴퓨터, 초고전적 계산으로 양자 시뮬레이션 한계 돌파… D-웨이브 연구 결과 공개 AI matters
"엑스컴 스타일부터 구공기 부활까지.." 스타워즈 게임들 연달아 등장 예고 게임동아
돈 내고 써도 오답률 높은 AI 뉴스 검색… 8개 검색엔진 모두 '인용 문제' 심각 (1) AI matters
KLPGA 입장권, 네이버페이로 예약·결제 연합뉴스
중국, 자국 AI '딥시크' 감시 강화... 직원들 여행 제한 조치까지 AI matters
코딩 AI, 사용자에 "그냥 네가 직접 코드 작성해라" 충격 발언 AI matters
구글, 모바일 어시스턴트를 제미나이로 전면 업그레이드 AI matters
아마존, ‘AWS 서밋 서울 2025’ 사전 등록 받는다… 5월 14일 개최 AI matters
LG AI연구원, GTC에서 '엑사원 딥' 공개…글로벌 AI 시장 정조준 다나와
BMW, 2024년 전기차 판매량에서 메르세데스-벤츠·아우디 합산 기록 넘어 글로벌오토뉴스
BMW, ‘노이어 클라쎄’ 첫 모델 9월 공개... 시작은 ix3 글로벌오토뉴스
한국자동차연구원, AI 융합 모빌리티 산업 미래 전략 논의 글로벌오토뉴스
테슬라 주가 225.70달러까지 다시 하락…중국 시장 부진 영향 글로벌오토뉴스
샤오미, 2024년 137,000대 전기차 인도…2025년 35만 대 목표 글로벌오토뉴스
아우디, 2029년까지 7,500명 감원 결정…내연기관 전략 재검토 가능성 시사 글로벌오토뉴스
장청자동차, 호주 시장에 하이브리드 SUV ‘하발 H6 GT’ 출시 글로벌오토뉴스
기아, 국내 야구팬을 위한 ‘KBO 디스플레이 테마’ 공개 글로벌오토뉴스
이 시간 HOT 댓글!
1/4