비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI가 쓴 인도 이야기 10편 중 9편이 '가짜 문화'... 음식·의상·축제 모두 틀렸다

2025.12.03. 10:06:21
조회 수
66
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

대규모 언어모델(LLM)이 생성한 이야기 10개 중 9개에서 문화를 잘못 표현하고 있는 것으로 나타났다. 특히 영어가 아닌 인도 현지 언어로 작성된 이야기에서 문화적 부정확성이 3배 이상 증가했으며, 잘 알려지지 않은 중소 도시를 배경으로 한 이야기일수록 오류가 더 많았다. 인도 과학연구소와 카네기멜론대학교 등 공동 연구진은 이러한 내용을 담은 연구 논문을 발표했다.

연구진은 인도 전역 71개 지역에서 온 108명의 문화 전문가와 함께 GPT-4.1, 제미나이 2.5 프로(Gemini 2.5 Pro), 라마 3.3(Llama 3.3) 등 6개 주요 LLM이 생성한 540개의 이야기를 분석했다. 그 결과 88%의 이야기에서 하나 이상의 문화적 오류가 발견됐으며, 평균적으로 이야기 한 편당 5.42개의 문화적 오류가 포함되어 있었다. 이는 5개 문장마다 하나의 문화적 오류가 발생한다는 의미다.


영어 대비 저자원 언어에서 문화 오류 3배 증가, 언어적 부정확성이 주요 원인

연구진이 영어와 힌디어, 벵골어, 타밀어 등 13개 인도 언어로 생성된 이야기를 비교 분석한 결과, 자원이 적은 언어일수록 문화적 오류가 급증하는 것으로 나타났다. 중자원 언어에서는 영어 대비 오류가 56% 증가했고, 저자원 언어에서는 3배 이상 증가했다.

언어적 부정확성이 비영어권 이야기에서 가장 두드러진 오류 유형이었다. 특히 저자원 언어로 작성된 이야기에서 언어적 오류가 전체 오류 분포를 지배했으며, 이는 철자 오류, 문법 오류, 부적절한 코드 전환 등을 포함한다. 연구진은 친족 관계를 나타내는 용어를 잘못 사용하거나, 지역 언어를 부적절하게 혼용하는 경우가 빈번했다고 설명했다. 예를 들어 '푸파지(Phuphaji)'는 고모부를 가리키는 남성 친족 용어인데, 이를 '이모'로 잘못 번역하는 등의 오류가 발견됐다.

중소 도시 배경 이야기가 대도시보다 문화 오류 많아, 사실 오류도 급증

연구진은 이야기의 배경이 되는 지역의 규모에 따라서도 문화적 오류의 빈도가 달라진다는 사실을 발견했다. 인도 중앙은행의 인구 기준 도시 분류에 따라 이야기를 분석한 결과, 인구 10만 명 미만의 중소 도시나 농촌 지역을 배경으로 한 이야기에서 대도시 배경 이야기보다 평균 1개 더 많은 문화적 오류가 발견됐다. 이는 통계적으로 유의미한 차이였다.

특히 문화적 부정확성과 사실 오류가 중소 도시 배경 이야기에서 가장 크게 증가했다. 예를 들어, 조드푸르(Jodhpur) 외곽에 사막이 있다고 묘사하거나, 군투르(Guntur)에 실제로 존재하지 않는 시장 이름을 언급하는 등의 오류가 발견됐다. 연구진은 이러한 현상이 LLM의 학습 데이터에 대도시에 관한 정보는 풍부하지만 중소 도시에 관한 정보는 상대적으로 부족하기 때문이라고 분석했다.

반면 논리적 오류는 지역 규모에 따른 일관된 패턴을 보이지 않았다. 이는 논리적 오류가 문화적 지식보다는 추론 능력의 결함을 반영하기 때문으로 해석된다.

음식·사회 관습·사회규범 가장 많이 왜곡, 고정관념과 과도한 단순화도 문제

연구진은 포커스 그룹과 설문조사를 통해 7가지 유형의 문화적 오류 분류 체계인 'TALES-Tax'를 개발했다. 이 분류 체계는 문화적 부정확성, 비현실적 시나리오, 고정관념, 과도한 단순화, 사실 오류, 언어적 부정확성, 논리적 오류로 구성된다.

연구진이 문화적으로 특정한 항목들을 분석한 결과, 음식, 사회적 관습, 사회적 규범이 가장 많이 왜곡되는 것으로 나타났다. 예를 들어, 구자라트 전통 스낵인 '카크라(khakhra)'를 집에서 갓 요리한 아침 식사로 묘사하는 오류가 있었다. 실제로 카크라는 즉석에서 먹을 수 있는 스낵으로, 아침에 조리하는 음식이 아니다.

고정관념도 심각한 문제로 지적됐다. 연구진은 고정관념이 반드시 부정확한 것은 아니지만, 문화를 지나치게 단순화하거나 외부인의 시각에서 바라본다는 점에서 문제가 있다고 설명했다. 한 참가자는 "이야기를 쓴 사람이 인도 출신이 아닌 것 같다"며 "이야기가 실제 경험에 기반한 것이 아니라 그 문화가 알려진 것에만 의존하고 있다"고 지적했다.

문화 지식은 있지만 활용 못하는 LLM, 질문 답변 정확도는 평균 77%

흥미롭게도 연구진은 LLM들이 문화 지식 자체는 보유하고 있지만, 이를 이야기 생성에 제대로 활용하지 못한다는 사실을 발견했다. 연구진은 수집한 문화적 오류 주석을 바탕으로 1,600개 이상의 문화 지식 질문으로 구성된 'TALES-QA'를 구축했다. 이 질문들은 영어와 13개 인도 언어로 작성됐다.

6개 모델을 TALES-QA로 평가한 결과, 영어 질문에 대한 평균 정확도는 77%였다. 제미나이 2.5 프로가 86.3%로 가장 높은 정확도를 보였고, GPT-4.1이 79.4%, 라마 3.3이 82.2%를 기록했다. 그러나 인도 언어 질문에 대한 정확도는 평균 60%로 약 17% 포인트 낮았다. 저자원 언어에서는 정확도가 더욱 떨어졌다.

연구진은 특정 모델이 생성한 이야기의 오류에서 추출한 질문에 대해서도 해당 모델을 평가했다. 놀랍게도 대부분의 모델은 자신이 이야기에서 오류를 범한 문화 지식에 대한 질문도 비교적 정확하게 답했다. 이는 모델들이 문화 지식을 보유하고 있지만, 개방형 이야기를 생성할 때 이를 적절히 적용하지 못한다는 것을 의미한다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. LLM이 생성한 이야기에서 가장 많이 발견되는 문화적 오류는 무엇인가요?

A1. 언어적 부정확성이 가장 많이 발견되며, 특히 비영어권 언어에서 두드러진다. 문화적 측면에서는 음식, 사회적 관습, 사회적 규범에 관한 오류가 가장 빈번하게 나타난다. 예를 들어 전통 음식을 잘못된 시간대나 상황에서 먹는 것으로 묘사하거나, 실제로는 하지 않는 사회적 관습을 이야기에 포함시키는 경우가 많다.

Q2. 왜 LLM은 문화 지식 질문에는 답을 잘하는데 이야기 생성에서는 오류를 범하나요?

A2. 연구에 따르면 LLM들은 문화 지식 자체는 보유하고 있지만, 복잡한 맥락이 필요한 개방형 이야기를 생성할 때 이 지식을 적절히 활용하지 못한다. 단순한 질문-답변 형식에서는 저장된 지식을 꺼내기가 쉽지만, 여러 문화적 요소를 자연스럽게 엮어 일관된 서사를 만드는 것은 훨씬 어려운 작업이기 때문이다.

Q3. 어떤 LLM이 가장 문화적으로 정확한 이야기를 생성하나요?

A3. 연구 결과 제미나이 2.5 프로가 가장 우수한 성능을 보였다. 이 모델은 이야기당 평균 3.9개의 문화적 오류로 가장 낮은 수치를 기록했고, 문화적 풍부성을 나타내는 지표인 문화적 특정 항목(CSI) 수는 87.1개로 가장 높았다. 또한 5점 만점에 4.1점으로 가장 높은 공감도 점수를 받았다. 오픈소스 모델들은 전반적으로 폐쇄형 모델보다 낮은 성능을 보였다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: TALES: A Taxonomy and Analysis of Cultural Representations in LLM-generated Stories

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 DPG 모아보기 전체 둘러보기
1/1
유머게시판 - 우스개 소리 -
취미 상품포럼 대회도 대회지만 역시 이벤트가
자유게시판 한 명만 걸려라, 발렌시아가 슬리퍼 148만원
자유게시판 USB 꽂는 순간 퍼지는 코인 마이너, 어떻게 침투할까?
당첨후기 갤럭시 GALAX 지포스 RTX 5060 Ti BLACK ~ 룰렛에서 네이버페이 1만원 당첨
자유게시판 이커머스 유출 불안, 지금 바로 해야 할 보안 점검
입소문쇼핑 ■ 쿠팡 단독 프로모션![특가!! 169만!!]니트로 16S AI 게이밍노트북 R7 350 RTX5060 1TB / 32GB
체험단 완본체 데스크탑 추천 레노버 아이디어센터 타워 17 벤치마크 및 실사용 후기
전문가 리뷰 바이오스 UI 개선 이제는 내실 올릴 때, GIGABYTE B850 EAGLE ICE 제이씨현
ㄷㅂㄷ 이름빼고 싹 다 바뀐 이춘삼 건면 짜장면
전문가 리뷰 알파스캔 AOC Q27G40 : 합리적 가격에 담긴 미니 LED의 새로운 표준
ㄷㅂㄷ 테슬라 FSD "경쟁자가 나올 수 있을까?"
입소문쇼핑 인기순위 상위권의 크로커다일레이디 하트변형퀼팅 슬림A라인 거위털 패딩 CLCWDW105, 저렴해졌어요
일반뉴스 위성 13기 실은 누리호 4호기, 뉴 스페이스 코리아를 열다
입소문쇼핑 머스트잇 클릭아슈 CLIC H 로즈골드 뱅글 팔찌 H700001FO31 (973,700/무료배송) 구매찬스
입소문쇼핑 인기순위 상위권의 사조대림 마일드 참치 안심따개 200g(24개), 저렴해졌어요
입소문쇼핑 예스골프 그레이하운드 6 크루즈 ZT 퍼터(정품) (277,500/무료배송) 구매찬스
입소문쇼핑 DF골프 미즈노 프로 S-3 아이언 경량스틸(정품 7개) (1,300,000/무료배송) 구매찬스
입소문쇼핑 쿠팡 펠로우 Aiden (431,830/무료배송) 구매찬스
입소문쇼핑 쿠팡 펠로우 ODE 그라인더 GEN2(매트블랙) (454,400/무료배송) 구매찬스
이 시간 HOT 댓글!
1/4