AI가 쓴 인도 이야기 10편 중 9편이 '가짜 문화'... 음식·의상·축제 모두 틀렸다 : 다나와 DPG는 내맘을 디피지

대규모 언어모델(LLM)이 생성한 이야기 10개 중 9개에서 문화를 잘못 표현하고 있는 것으로 나타났다. 특히 영어가 아닌 인도 현지 언어로 작성된 이야기에서 문화적 부정확성이 3배 이상 증가했으며, 잘 알려지지 않은 중소 도시를 배경으로 한 이야기일수록 오류가 더 많았다. 인도 과학연구소와 카네기멜론대학교 등 공동 연구진은 이러한 내용을 담은 연구 논문을 발표했다.

연구진은 인도 전역 71개 지역에서 온 108명의 문화 전문가와 함께 GPT-4.1, 제미나이 2.5 프로(Gemini 2.5 Pro), 라마 3.3(Llama 3.3) 등 6개 주요 LLM이 생성한 540개의 이야기를 분석했다. 그 결과 88%의 이야기에서 하나 이상의 문화적 오류가 발견됐으며, 평균적으로 이야기 한 편당 5.42개의 문화적 오류가 포함되어 있었다. 이는 5개 문장마다 하나의 문화적 오류가 발생한다는 의미다.

영어 대비 저자원 언어에서 문화 오류 3배 증가, 언어적 부정확성이 주요 원인

연구진이 영어와 힌디어, 벵골어, 타밀어 등 13개 인도 언어로 생성된 이야기를 비교 분석한 결과, 자원이 적은 언어일수록 문화적 오류가 급증하는 것으로 나타났다. 중자원 언어에서는 영어 대비 오류가 56% 증가했고, 저자원 언어에서는 3배 이상 증가했다.

언어적 부정확성이 비영어권 이야기에서 가장 두드러진 오류 유형이었다. 특히 저자원 언어로 작성된 이야기에서 언어적 오류가 전체 오류 분포를 지배했으며, 이는 철자 오류, 문법 오류, 부적절한 코드 전환 등을 포함한다. 연구진은 친족 관계를 나타내는 용어를 잘못 사용하거나, 지역 언어를 부적절하게 혼용하는 경우가 빈번했다고 설명했다. 예를 들어 '푸파지(Phuphaji)'는 고모부를 가리키는 남성 친족 용어인데, 이를 '이모'로 잘못 번역하는 등의 오류가 발견됐다.

중소 도시 배경 이야기가 대도시보다 문화 오류 많아, 사실 오류도 급증

연구진은 이야기의 배경이 되는 지역의 규모에 따라서도 문화적 오류의 빈도가 달라진다는 사실을 발견했다. 인도 중앙은행의 인구 기준 도시 분류에 따라 이야기를 분석한 결과, 인구 10만 명 미만의 중소 도시나 농촌 지역을 배경으로 한 이야기에서 대도시 배경 이야기보다 평균 1개 더 많은 문화적 오류가 발견됐다. 이는 통계적으로 유의미한 차이였다.

특히 문화적 부정확성과 사실 오류가 중소 도시 배경 이야기에서 가장 크게 증가했다. 예를 들어, 조드푸르(Jodhpur) 외곽에 사막이 있다고 묘사하거나, 군투르(Guntur)에 실제로 존재하지 않는 시장 이름을 언급하는 등의 오류가 발견됐다. 연구진은 이러한 현상이 LLM의 학습 데이터에 대도시에 관한 정보는 풍부하지만 중소 도시에 관한 정보는 상대적으로 부족하기 때문이라고 분석했다.

반면 논리적 오류는 지역 규모에 따른 일관된 패턴을 보이지 않았다. 이는 논리적 오류가 문화적 지식보다는 추론 능력의 결함을 반영하기 때문으로 해석된다.

음식·사회 관습·사회규범 가장 많이 왜곡, 고정관념과 과도한 단순화도 문제

연구진은 포커스 그룹과 설문조사를 통해 7가지 유형의 문화적 오류 분류 체계인 'TALES-Tax'를 개발했다. 이 분류 체계는 문화적 부정확성, 비현실적 시나리오, 고정관념, 과도한 단순화, 사실 오류, 언어적 부정확성, 논리적 오류로 구성된다.

연구진이 문화적으로 특정한 항목들을 분석한 결과, 음식, 사회적 관습, 사회적 규범이 가장 많이 왜곡되는 것으로 나타났다. 예를 들어, 구자라트 전통 스낵인 '카크라(khakhra)'를 집에서 갓 요리한 아침 식사로 묘사하는 오류가 있었다. 실제로 카크라는 즉석에서 먹을 수 있는 스낵으로, 아침에 조리하는 음식이 아니다.

고정관념도 심각한 문제로 지적됐다. 연구진은 고정관념이 반드시 부정확한 것은 아니지만, 문화를 지나치게 단순화하거나 외부인의 시각에서 바라본다는 점에서 문제가 있다고 설명했다. 한 참가자는 "이야기를 쓴 사람이 인도 출신이 아닌 것 같다"며 "이야기가 실제 경험에 기반한 것이 아니라 그 문화가 알려진 것에만 의존하고 있다"고 지적했다.

문화 지식은 있지만 활용 못하는 LLM, 질문 답변 정확도는 평균 77%

흥미롭게도 연구진은 LLM들이 문화 지식 자체는 보유하고 있지만, 이를 이야기 생성에 제대로 활용하지 못한다는 사실을 발견했다. 연구진은 수집한 문화적 오류 주석을 바탕으로 1,600개 이상의 문화 지식 질문으로 구성된 'TALES-QA'를 구축했다. 이 질문들은 영어와 13개 인도 언어로 작성됐다.

6개 모델을 TALES-QA로 평가한 결과, 영어 질문에 대한 평균 정확도는 77%였다. 제미나이 2.5 프로가 86.3%로 가장 높은 정확도를 보였고, GPT-4.1이 79.4%, 라마 3.3이 82.2%를 기록했다. 그러나 인도 언어 질문에 대한 정확도는 평균 60%로 약 17% 포인트 낮았다. 저자원 언어에서는 정확도가 더욱 떨어졌다.

연구진은 특정 모델이 생성한 이야기의 오류에서 추출한 질문에 대해서도 해당 모델을 평가했다. 놀랍게도 대부분의 모델은 자신이 이야기에서 오류를 범한 문화 지식에 대한 질문도 비교적 정확하게 답했다. 이는 모델들이 문화 지식을 보유하고 있지만, 개방형 이야기를 생성할 때 이를 적절히 적용하지 못한다는 것을 의미한다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. LLM이 생성한 이야기에서 가장 많이 발견되는 문화적 오류는 무엇인가요?

A1. 언어적 부정확성이 가장 많이 발견되며, 특히 비영어권 언어에서 두드러진다. 문화적 측면에서는 음식, 사회적 관습, 사회적 규범에 관한 오류가 가장 빈번하게 나타난다. 예를 들어 전통 음식을 잘못된 시간대나 상황에서 먹는 것으로 묘사하거나, 실제로는 하지 않는 사회적 관습을 이야기에 포함시키는 경우가 많다.

Q2. 왜 LLM은 문화 지식 질문에는 답을 잘하는데 이야기 생성에서는 오류를 범하나요?

A2. 연구에 따르면 LLM들은 문화 지식 자체는 보유하고 있지만, 복잡한 맥락이 필요한 개방형 이야기를 생성할 때 이 지식을 적절히 활용하지 못한다. 단순한 질문-답변 형식에서는 저장된 지식을 꺼내기가 쉽지만, 여러 문화적 요소를 자연스럽게 엮어 일관된 서사를 만드는 것은 훨씬 어려운 작업이기 때문이다.

Q3. 어떤 LLM이 가장 문화적으로 정확한 이야기를 생성하나요?

A3. 연구 결과 제미나이 2.5 프로가 가장 우수한 성능을 보였다. 이 모델은 이야기당 평균 3.9개의 문화적 오류로 가장 낮은 수치를 기록했고, 문화적 풍부성을 나타내는 지표인 문화적 특정 항목(CSI) 수는 87.1개로 가장 높았다. 또한 5점 만점에 4.1점으로 가장 높은 공감도 점수를 받았다. 오픈소스 모델들은 전반적으로 폐쇄형 모델보다 낮은 성능을 보였다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: TALES: A Taxonomy and Analysis of Cultural Representations in LLM-generated Stories

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

유머게시판	- 우스개 소리 -	L20 붉은토끼풀
취미 상품포럼	대회도 대회지만 역시 이벤트가	L5 장차될사람
자유게시판	한 명만 걸려라, 발렌시아가 슬리퍼 148만원	M5 plc-wave
자유게시판	USB 꽂는 순간 퍼지는 코인 마이너, 어떻게 침투할까?	M5 plc-wave
당첨후기	갤럭시 GALAX 지포스 RTX 5060 Ti BLACK ~ 룰렛에서 네이버페이 1만원 당첨	M20 야간순찰™
자유게시판	이커머스 유출 불안, 지금 바로 해야 할 보안 점검	M5 plc-wave
입소문쇼핑	■ 쿠팡 단독 프로모션![특가!! 169만!!]니트로 16S AI 게이밍노트북 R7 350 RTX5060 1TB / 32GB	L9 (주)아이티블루
체험단	완본체 데스크탑 추천 레노버 아이디어센터 타워 17 벤치마크 및 실사용 후기	L8 야콤
전문가 리뷰	바이오스 UI 개선 이제는 내실 올릴 때, GIGABYTE B850 EAGLE ICE 제이씨현	브레인박스
ㄷㅂㄷ	이름빼고 싹 다 바뀐 이춘삼 건면 짜장면	맛상무
전문가 리뷰	알파스캔 AOC Q27G40 : 합리적 가격에 담긴 미니 LED의 새로운 표준	쿨엔조이
ㄷㅂㄷ	테슬라 FSD "경쟁자가 나올 수 있을까?"	오토기어
입소문쇼핑	인기순위 상위권의 크로커다일레이디 하트변형퀼팅 슬림A라인 거위털 패딩 CLCWDW105, 저렴해졌어요	쇼핑봇
일반뉴스	위성 13기 실은 누리호 4호기, 뉴 스페이스 코리아를 열다	과학향기
입소문쇼핑	머스트잇 클릭아슈 CLIC H 로즈골드 뱅글 팔찌 H700001FO31 (973,700/무료배송) 구매찬스	쇼핑봇
입소문쇼핑	인기순위 상위권의 사조대림 마일드 참치 안심따개 200g(24개), 저렴해졌어요	쇼핑봇
입소문쇼핑	예스골프 그레이하운드 6 크루즈 ZT 퍼터(정품) (277,500/무료배송) 구매찬스	쇼핑봇
입소문쇼핑	DF골프 미즈노 프로 S-3 아이언 경량스틸(정품 7개) (1,300,000/무료배송) 구매찬스	쇼핑봇
입소문쇼핑	쿠팡 펠로우 Aiden (431,830/무료배송) 구매찬스	쇼핑봇
입소문쇼핑	쿠팡 펠로우 ODE 그라인더 GEN2(매트블랙) (454,400/무료배송) 구매찬스	쇼핑봇
일반뉴스	월희·페이트·마밤, 아크시스템웍스가 한국어 지원한다	게임메카
일반뉴스	스팀과 에픽서 ‘출시 불가’ 판정된 게임, 검열 논란 불러	게임메카
일반뉴스	롤 WASD 조작 본 서버 도입, 랭크·일반 게임은 제외	게임메카
일반뉴스	[순위분석] 올해 신작 중 최고점, 아이온2 ‘2위’ 입성	게임메카
일반뉴스	[오늘의 스팀] 스타워즈 스타일 데스티니 확장팩 반응은?	게임메카
입소문쇼핑	[네이버] 강세일 역대급 할인 혜택! LG 그램 빅세일 이벤트	L6 LG공식인증점
일반뉴스	GTA 6, 전 락스타 직원에 의해 또 정보 유출	게임메카
일반뉴스	윈도우 10 지원 종료, 스팀 유저 66% 윈도우 11 전환	게임메카
전문가 리뷰	초저노이즈와 정밀 음상, 클래스 D의 새로운 기준 Calyx I Integrated Amplifier	하이파이클럽
기획뉴스	밴쿠버 여행을 알차게 만들어 줄 '삼총사'는?	트래비
자유게시판	9년동안 말 한 마디도 안 하는 대형 유투버	L20 야거커티스
기획뉴스	캐나다 밴쿠버, 가을 단풍 스폿 BEST 5	트래비
전문가 리뷰	IK MULTIMEDIA iLoud Precision MTM MK2 스피커 NFS 측정	0db
자유게시판	LG전자 가전 구매시 참조 - 실제로 겪으니 분노가 치미네요 (1)	L1 달팽이1562
소비자사용기	알파스캔 AOC Q27G4/WS 리뷰, 200Hz FAST IPS 찐 화이트 감성 (1)	L7 테크츄
일반뉴스	"2025년 신작 중 탑 클래스" 아크 레이더스, 700만 다운로드까지 돌파	게임동아
일반뉴스	엔씨(NC) 리니지M, 암흑기사 리부트와 함께 'THE DARKNESS' 업데이트 진행	게임동아
기획뉴스	[인터뷰] 세가의 새로운 축구 시뮬레이션 게임 '세가 풋볼 클럽 챔피언스'를 기대해 주세요	게임동아
ㄷㅂㄷ	아직도 챗GPT만 쓰세요? 업무 생산성 4배 올리는 '진짜' AI 도구 TOP 4"최종	AI matters
일반뉴스	'기업가치 440조' 앤트로픽, 내년 상장 계획... “오픈AI보다 먼저”	AI matters
일반뉴스	[12월 3일 AI 뉴스 브리핑] AMD, HPE와 협력해 개방형 AI 인프라 구축 가속화 외	AI matters
일반뉴스	자녀가 쓰는 AI 캐릭터 앱, 안전할까?... 인기 16개 플랫폼 안전성 '빨간불'	AI matters
일반뉴스	세일즈포스가 말하는 실패하지 않는 산업별 AI 에이전트 도입 전략	AI matters
일반뉴스	"3년 뒤면 AI가 내 동료?" 기업 82%가 도입 예정인 AI 직원, 당신이 알아야 할 5가지	AI matters
자유게시판	12/4 전국 날씨	L20 야거커티스
일반뉴스	챗GPT 쇼핑 추천 28% 급증했지만... 아마존·월마트만 배불렸다	AI matters
일반뉴스	딥시크, 에이전트 특화 추론 모델 'V3.2' 시리즈 공개… "GPT-5 수준 성능"	AI matters
소비자사용기	LG전자 AS의 민낯 실제로 겪으니 분노가 치미네요	L1 달팽이1562
소비자사용기	강력한 쿨링성능 쿨러마스터 Hyper 212 3DHP CPU 쿨러 (4)	L9 스파이키
일반뉴스	엔씨(NC) 저니 오브 모나크, 1주년 기념 대규모 업데이트 진행	게임동아
일반뉴스	엔씨소프트 ‘아이온2’, 이용자 피드백 적극 반영한 대규모 업데이트 진행	게임동아
일반뉴스	과금 부담 낮춰서 DAU 극대화. 스팀 장악한 중국 게임사들의 박리다매 전략	게임동아
일반뉴스	카카오게임즈, ‘아키에이지 워’ 최초 글로벌 통합서버 및 첫 기술 전환 직업 사전등록 시작	게임동아
일반뉴스	노래방에서 포켓몬을 만난다. 포켓몬코리아 TJ미디어와 협업	게임동아
일반뉴스	글로벌 K-게임의 미래가치를 조명하다, 융합 콘텐츠 전시회 'GEEKS 2025' 개최	게임동아
자유게시판	미국 상원에서 이중국적 금지 법안이 발의됨 (2)	L2 공부는머리
자유게시판	LG생활건강 잭다니엘 코카콜라 출시 (3)	L9 신상매냐
유머게시판	니들 방에서 뭐해? (2)	M2 파노백작
유머게시판	냥아치 (1)	M2 파노백작
자유게시판	마이크론 소비자용 메모리 브랜드 크루셜 사업 철수 (2)	L6 링가드
유머게시판	댕댕이 간식 주는 앵무새 (1)	M2 파노백작
유머게시판	아기와 냐옹이 (1)	M2 파노백작
자유게시판	좋은 것을 따라 배운다 (3)	M2 파노백작
체험단	파워윈 무극성 유니크 멀티 충전기 - 만능배터리충전기 (1)	L20 angeless1224
자유게시판	바람이 있는.... 한파네요. (3)	L20 까망여우
댕냥이게시판	댕댕이와 냥이 비교 (1)	M2 아콤
자유게시판	어제보다 더 기온 낮아져서 추운 날씨에 목요일이네요. (4)	M3 관성
자유게시판	많이 춥네요. (3)	L20 벗꽃엔딩
자유게시판	마이크론이 소비자 시장 철수한다네요. (7)	L1 히카루!
엄근진게시판	오세훈, 나경원, 그루밍족(김용태 ,이주영) 세금깡??? (1)	M9 무한제리사랑
엄근진게시판	스윗한 사법부<이철규 아들 ,법원폭동범 > 그리고 경찰 <이준석편> (1)	M9 무한제리사랑
체험단	최신 WiFi 7 유무선공유기 \| ASUS ROG STRIX GS-BE7200X, 10G 고속 네트워크 게이밍 끝판왕 리뷰! (1)	L6 teha4
자유게시판	12월 3일 박스오피스 / 주토피아 2 250만 돌파 (4)	M4 하늘을담은와인
Q&A게시판	ax1500i 와 케이블 호환이 되나요?	L3 천국왕
자유게시판	종일 이어지는 매서운 한파…눈·빙판길 주의하세요. (5)	M9 천사다나와
취미 상품포럼	몰입형 시뮬레이션 "도둑 시뮬레이터 3" - 발표 트레일러 (3)	L10 휘룽
소비자사용기	기가바이트 X870E AORUS PRO ICE 사용기 (1)	L1 비련
취미 상품포럼	글로벌 화제작 '연운', 모바일 버전 12월 12일 출시 확정 (1)	M9 무한제리사랑
푸드 상품포럼	고소하고 바삭한 굿프랜즈푸드 `귀리 방앗간 크림치즈` (6)	M20 야간순찰™
취미 상품포럼	GTA VI 한국 스페셜 트레일러 (1)	M9 무한제리사랑
자유게시판	아직 모기가 있네요 (5)	M1 아피홀릭
자유게시판	마이너스 365 일 밤샌날... (6)	M9 무한제리사랑
체험단	앱코 타이폰 DT120X6 듀얼타워 CPU 쿨러 (1)	L9 잼스뻔
체험단	우리 집 와이파이 속도 맛집 등극! 가성비 끝판왕 netis MEX601 유무선공유기 실사용기 \| 유무선 공유기, 기가 와이파이 공유기, 인터넷 공유기 (1)	L5 맛플릭스
체험단	아키츠 미디엄(Akitsu Medium) 무선 게이밍 마우스 (1)	L8 뚜비뚜비뚜뚜바
체험단	앱코 타이폰 DT120X6 듀얼타워 공랭 쿨러 (1)	L5 Nine23
자유게시판	12/3(수) 7,185보를 걸었습니다. (7)	L20 느낌하나
체험단	마이크로닉스 WIZMAX 모노크롬 케이스 리뷰 (1)	L4 토스트는이삭
소비자사용기	기가바이트 GS27QA 180 qhd 모니터 리뷰 (1)	L1 도마뱀5961
유머게시판	간혹가다 한두명씩 있다는 떡볶이 취향.jpg (6)	L7 공동유머구역
입소문쇼핑	드라이 기모 맨투맨 빅사이즈 15,000원 배송비 3,000원	L6 NAPMKMCURUTXO0
취미 상품포럼	내일 토시로 픽업... (4)	L5 5080불칸사주새요
자유게시판	9만km 주행을 하니 (8)	L13 까부수자
자유게시판	국물이 땡기네요 (6)	L15 otosan
자유게시판	근데 다나와래플 이제 안해요? (7)	L5 나만안되네
자유게시판	많이 춥네요 (6)	L17 HomeRun
유머게시판	막내때문에 이름 맞추기 실패한 사남매.jpg (8)	L7 공동유머구역
자유게시판	테슬라 스타링크, 힌국 서비스 가격 발표 (10)	L20 야거커티스
자유게시판	매미킴 김동현과 하바스팀 근황 (스압) (2)	L20 야거커티스
유머게시판	신입의 일처리를 지켜보는 사장 시점 (12)	L20 야거커티스

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 쓴 인도 이야기 10편 중 9편이 '가짜 문화'... 음식·의상·축제 모두 틀렸다

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 쓴 인도 이야기 10편 중 9편이 '가짜 문화'... 음식·의상·축제 모두 틀렸다

공유하기

공감/비공감