
독일 트리어 대학교 전산언어학과 사이먼 뮌커(Simon Münker) 박사가 이끄는 연구팀이 충격적인 사실을 발견했다. 챗GPT와 같은 AI가 다양한 나라의 문화를 제대로 이해하지 못한다는 것이다. 해당 연구팀이 19개국의 도덕관을 조사한 결과, AI는 언어 실력은 뛰어나지만 각 나라의 독특한 문화적 가치관은 전혀 구분하지 못했다. 이번 연구는 AI가 실제로 인간의 가치를 대변할 수 있는지, 아니면 단순히 여러 문화를 섞어서 평균치만 내놓는지 확인하기 위해 시작됐다. 특히 사회과학 연구에서 AI를 인간 대신 사용하는 경우가 늘어나면서, AI가 정말로 각 나라 사람들의 생각을 정확히 반영할 수 있는지가 중요한 문제로 떠올랐다.
연구팀이 19개국의 도덕관을 조사한 결과, AI는 언어 실력은 뛰어나지만 각 나라의 독특한 문화적 가치관은 전혀 구분하지 못했다. 연구진은 여러 AI 모델에게 각국의 관점에서 도덕적 질문에 답하도록 했다. 그런데 놀랍게도 AI는 어떤 나라 사람 역할을 하든 비슷한 답변만 반복했다. 더 큰 AI 모델을 사용해도 문화적 차이를 더 잘 이해하지는 못했다. 이는 현재 AI 기술의 근본적인 한계를 보여주며, 단순히 "한국인처럼 답해줘"라고 요청하는 것만으로는 진짜 한국 문화를 반영할 수 없음을 의미한다.
라마와 미스트랄 AI, 인간과는 전혀 다른 패턴

연구진은 메타(Meta)의 라마(Llama), 유럽의 미스트랄(Mistral), 중국의 큐엔(Qwen) 등 세계 각국에서 만든 AI 모델들을 실험했다. 각 AI에게 아르헨티나부터 일본까지 19개국 사람의 입장에서 도덕적 질문에 답하도록 했다. 실험 결과는 충격적이었다. 실제 인간들은 나라마다 권위에 대한 생각, 조국에 대한 충성심, 종교적 순수성에 대한 관점이 크게 달랐다. 예를 들어 어떤 나라 사람들은 전통과 권위를 매우 중시하는 반면, 다른 나라 사람들은 개인의 자유를 더 소중히 여겼다.
하지만 AI들은 이런 차이를 전혀 보여주지 못했다. 라마 AI는 어떤 나라 역할을 하든 평균적인 답변만 했고, 미스트랄 AI는 모든 나라에서 똑같은 편향된 답변을 반복했다. 마치 전 세계 모든 사람이 똑같은 생각을 한다고 가정하는 것처럼 행동했다.
중국 AI '큐엔'이 가장 우수, 일본 문화는 모든 AI가 포기
흥미롭게도 중국에서 만든 큐엔(Qwen) AI가 인간의 답변과 가장 비슷했다. 여러 나라의 문화적 특성을 어느 정도 반영할 수 있었고, 특히 아프리카 일부 국가들의 관점을 잘 표현했다. 유럽의 미스트랄 대형 모델이 두 번째로 좋은 성과를 보였다. 하지만 모든 AI가 공통적으로 어려워한 것이 있었다. 바로 일본 문화였다. 실험에 참여한 모든 AI 모델이 일본인의 도덕관을 제대로 이해하지 못했다. 이는 동아시아 문화의 독특한 특성을 AI가 학습하기 어렵다는 것을 보여준다.
또 다른 발견은 AI 모델의 크기와 성능이 반드시 비례하지 않는다는 점이었다. 작은 모델인 큐엔 7B가 훨씬 큰 72B 모델보다 더 나은 결과를 보였다. 이는 단순히 AI를 크게 만든다고 해서 문화적 이해력이 향상되는 것은 아니라는 뜻이다.
통계 분석으로 확인된 AI의 한계
연구진은 통계적 방법으로도 AI의 한계를 확인했다. 같은 질문을 여러 번 반복해서 물어본 결과, 대부분의 AI가 나라별로 다른 답변을 하지 못했다. 즉, "한국인으로서 답해줘"와 "미국인으로서 답해줘"라고 해도 실제로는 거의 똑같은 답변을 한 것이다.
36개 질문 중 미스트랄 AI는 34개 질문에서 나라별 차이를 전혀 보이지 않았다. 라마 AI는 21개 질문에서 약간의 차이를 보였지만, 여전히 절반 이상에서는 구분이 없었다. 이는 AI가 표면적으로는 다른 말을 하는 것 같지만, 실제로는 같은 사고방식으로만 답하고 있다는 증거다.
서구 중심 데이터가 만든 편견
이런 문제가 생기는 이유는 무엇일까? 연구진은 AI 훈련에 사용되는 데이터가 서구 중심이기 때문이라고 분석했다. 인터넷상의 대부분 정보가 영어와 서구 문화 중심으로 되어 있어, AI가 서구 관점에만 익숙해진 것이다. 실제로 벨기에, 프랑스 같은 유럽 국가들의 문화는 AI가 비교적 잘 표현했다. 하지만 아프리카, 아시아, 남미 국가들의 독특한 문화적 특성은 제대로 반영하지 못했다. 이는 AI가 "서구식 사고"에만 길들여져 있다는 것을 보여준다.
더 심각한 문제는 AI 모델을 아무리 크게 만들어도 이런 편견이 해결되지 않는다는 점이다. 근본적으로 다양한 문화의 데이터를 골고루 학습시키고, 각 문화의 특성을 제대로 평가할 수 있는 새로운 방법이 필요하다는 것이 연구진의 결론이다.
FAQ
Q: AI가 문화적 차이를 못 알아보는 이유가 뭔가요?
A: AI는 주로 영어와 서구 문화 중심의 인터넷 데이터로 학습했기 때문입니다. 또한 실제로 각 나라에서 살아본 경험이 없어서 문화적 미묘함을 이해하기 어렵습니다.
Q: AI 모델이 클수록 문화를 더 잘 이해하나요?
A: 아닙니다. 이번 연구에서는 작은 AI 모델이 큰 모델보다 더 좋은 결과를 보인 경우도 있었습니다. 크기보다는 어떤 데이터로 학습했는지가 더 중요합니다.
Q: 이 문제가 우리 생활에 어떤 영향을 주나요?
A: AI가 전 세계에서 사용되는데 특정 문화의 가치관만 반영한다면, 다른 문화권 사람들이 불공평한 대우를 받을 수 있습니다. AI 개발할 때 더 다양한 문화를 고려해야 합니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: Cultural Bias in Large Language Models: Evaluating AI Agents through Moral Questionnaires
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기