비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

"10대는 이기적, 노인은 친절?" AI 모델 10개의 나이·성별·인종 편견 분석

2025.06.18. 13:28:40
조회 수
35

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

The Biased Samaritan: LLM biases in Perceived Kindness


대형 언어모델(Large Language Models, LLMs)이 다양한 분야에서 널리 활용되면서, 이들 모델이 가진 편향성에 대한 우려가 커지고 있다. 캘리포니아 대학교 데이비스 캠퍼스 연구팀이 발표한 연구 논문에 따르면, 오픈AI(OpenAI)의 GPT 시리즈부터 구글(Google)의 제미나이(Gemini), 앤트로픽(Anthropic)의 클로드(Claude)까지 주요 LLM들이 성별, 인종, 연령에 따른 체계적인 편향성을 보인다는 사실이 밝혀졌다.

기존 편향성 연구의 한계를 극복한 새로운 접근법

이번 연구가 주목받는 이유는 기존 AI 편향성 연구의 근본적 한계를 극복했기 때문이다. 기존 연구들은 주로 두 가지 방식을 사용했다. 첫 번째는 AI에게 객관식 선택지를 제시하고 특정 답을 고르게 하는 방식이었는데, 이는 AI가 자유롭게 판단할 여지를 주지 않았다. 두 번째는 AI가 생성한 긴 텍스트를 감정 분석하는 방식이었지만, 이는 시간이 많이 걸리고 분석 도구 자체의 편향성 문제가 있었다.

연구진은 이러한 한계를 해결하기 위해 '통제군' 개념을 도입했다. 인구통계학적 정보가 전혀 없는 상황에서 AI의 반응을 기준점으로 삼고, 각 인구집단에 대한 평가와 비교하는 방식이다. 또한 AI에게 1-100점이라는 명확한 수치 척도로 평가하게 함으로써 객관적 비교가 가능하도록 했다. 이러한 접근법을 통해 연구진은 AI가 어떤 집단을 '기본값'으로 설정하고 있는지, 그리고 다른 집단들을 어떻게 다르게 평가하는지를 명확히 구분해낼 수 있었다.

AI는 백인 중년 남성을 기본값으로 본다

연구진은 412개의 인간이 작성한 프롬프트를 사용해 10개의 주요 LLM을 테스트했다. 각 모델에게 다양한 인구통계학적 특성을 가진 가상 인물이 타인을 도울 의향을 1-100점 척도로 평가하도록 요청했다. 이 과정에서 연구진은 인구통계학적 정보가 전혀 제공되지 않은 '통제군'과 특정 인구집단을 비교하는 방식을 채택했다.

연구 결과, 모든 모델이 백인, 중년, 남성을 내재적 기본값으로 설정하고 있는 것으로 나타났다. 통제군과 비교했을 때 이들 집단은 유의미한 편차를 보이지 않았지만, 다른 인구집단들은 통계적으로 유의한 차이를 보였다. 특히 흥미로운 점은 대부분의 경우 비기본값 집단들이 더 도움을 잘 주는 것으로 평가받았다는 것이다.

논바이너리는 6.69% 더 친절, 여성은 1.77% 더 도움을 준다는 AI들

성별 카테고리에서 가장 강한 편향성이 발견됐다. 제미나이(Gemini) 1.5 플래시와 딥시크(DeepSeek) R1을 제외한 모든 모델이 여성에 대해 통계적으로 유의한 긍정적 편향을 보였다. 여성은 통제군 대비 평균 1.77% 더 도울 가능성이 높다고 평가받았다.

더욱 놀라운 것은 논바이너리(Non-binary) 집단에 대한 편향이었다. 논바이너리 개인들은 통제군보다 평균 6.69% 더 도움을 줄 가능성이 높다고 평가받았다. GPT-4 터보(Turbo)만이 논바이너리 개인에 대해 편향을 보이지 않았다. 반면 남성의 경우 대부분의 모델에서 통제군과 유의한 차이를 보이지 않았는데, 이는 모델들이 남성을 기본값으로 인식하고 있음을 시사한다.

10대는 이기적이고 노인은 친절하다는 AI

연령별 분석에서는 일관된 패턴이 나타났다. 테스트한 10개 모델 모두 노인 집단에 대해 통계적으로 유의한 긍정적 편향을 보였다. 제미나이 1.5 플래시는 노인을 6점, GPT-4o는 2.1점 더 높게 평가했다. 반대로 10대에 대해서는 대부분의 모델이 부정적 편향을 보였다. 딥시크 V3, GPT-4 터보, 미스트랄(Mistral) 네모를 제외한 모든 모델이 10대를 통제군보다 도움을 덜 줄 것으로 평가했다. 특히 클로드(Claude) 모델들은 10대를 5점 낮게 평가하며 가장 강한 부정적 편향을 보였다.

GPT만 아시아계·아프리카계에 부정적

인종 카테고리에서는 가장 많은 편향이 발견됐으며, 거의 모든 편향이 긍정적이었다. 오픈AI 모델들만이 이러한 패턴에서 벗어났다. 하와이 원주민 집단이 모든 모델에서 가장 높은 긍정적 편향을 받았으며, 통제군 대비 최대 12점 높게 평가받았다. 아메리카 원주민 집단도 유사한 결과를 보였다.

흥미롭게도 GPT-4 터보와 GPT-4o는 다른 모델들과 완전히 다른 패턴을 보였다. 이 두 모델은 대부분의 인종 집단에 대해 부정적 편향을 보인 유일한 모델들이었다. GPT-4 터보는 아시아계 미국인과 아프리카계 미국인을 상당한 폭으로 낮게 평가했다.

영어권 중심 연구의 한계, 실제 현실과의 괴리는 미지수

이번 연구는 중요한 발견을 제시했지만 몇 가지 한계점도 있다. 가장 큰 제약은 연구가 표준 미국 영어(Standard American English)로만 진행됐다는 점이다. 만약 아프리카계 미국인 영어(AAVE)나 중국어, 한국어 등 다른 언어로 동일한 실험을 했다면 완전히 다른 결과가 나올 수 있다. 예를 들어 중국어로 실험했다면 AI의 기본값이 '아시아계 중년 남성'으로 나타날 가능성이 높다.

또한 이번 연구는 AI의 편향성만 측정했을 뿐, 실제 현실에서 각 인구집단이 얼마나 도움을 주는지와는 비교하지 않았다. 연구진이 밝혔듯이 '실제 편향성(veridical bias)' 측정에는 대규모 인간 참가자 실험이 필요하지만 현실적으로 불가능했다. 따라서 AI가 10대를 덜 도움을 주는 집단으로 평가한 것이 실제 현실을 반영하는 것인지, 아니면 부당한 편견인지는 여전히 알 수 없다.

마지막으로 이번 연구는 편향성의 존재는 입증했지만, 왜 이런 편향이 생겼는지, 어떻게 해결할 수 있는지에 대한 답은 제시하지 못했다. 향후 연구에서는 편향성의 근본 원인 분석과 구체적인 해결 방안 마련이 필요하다.

FAQ

Q: 대형 언어모델의 편향성이 일상생활에 어떤 영향을 미칠 수 있나요?

A: LLM의 편향성은 채용, 대출 심사, 의료 진단 보조 등 중요한 의사결정 과정에서 특정 인구집단에 대한 불공정한 평가로 이어질 수 있습니다. 예를 들어, AI가 10대를 덜 신뢰할 만하다고 평가한다면, 이는 청소년 대상 서비스나 프로그램 설계에 부정적 영향을 미칠 수 있습니다.

Q: 모든 AI 모델이 같은 편향을 보이나요?

A: 아니요. 연구 결과에 따르면 모델 간 편향의 정도와 방향이 다릅니다. 같은 회사의 제품 내에서도 편향성이 다르게 나타나며, 특히 GPT-4 터보와 GPT-4o는 다른 모델들과 반대되는 패턴을 보였습니다.

Q: AI 편향성을 완전히 제거할 수 있나요?

A: 현재로서는 완전한 제거는 어렵습니다. AI 모델들은 인간이 작성한 대량의 텍스트 데이터로 학습되기 때문에, 사회에 존재하는 편견이 자연스럽게 반영됩니다. 하지만 지속적인 연구와 개선을 통해 편향성을 최소화하려는 노력이 계속되고 있습니다.

해당 기사에 인용된 논문 원문은 arxiv에서 확인 가능하다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
히어로 슈팅 게임 '슈퍼피플' 글로벌 CBT로 깜짝 복귀 게임동아
카카오게임즈 ‘크로노 오디세이’, 글로벌 CBT 사전 다운로드 시작 게임동아
애플, 비트코인 기반 블록체인 게임 인앱 결제 승인 게임동아
웹3 게임 기대작 됐나? ‘사무라이 쇼다운 R’, 사전 예약 50만 돌파 게임동아
텐센트 "넥슨 인수설은 사실무근" 공식 발표 게임동아
크래프톤, ‘게임스컴 2025’ 참가 발표. 인조이 첫 DLC 공개 게임동아
'수요 감소 재고 증가' 테슬라 텍사스 기가팩토리 두 달 만에 다시 중단 오토헤럴드
잘 팔리면 뭐하나… 렉서스 ES300, 30대 중 1대 꼴로 도난 ‘보안 구멍’ 오토헤럴드
기아, 지오영과 PBV 활용 친환경 의약품 물류 생태계 조성 MOU 체결 오토헤럴드
미국산 부품 쓴 혼다 · 어큐라 리콜... '제멋대로 움직이는 페달 때문' 오토헤럴드
레인지로버 일렉트릭, 혹한기 테스트 '극저온 무시한 주행거리 최적화' 오토헤럴드
도요타 황당 부업, 車 넘기면서 '예비 키' 빼 돌리고 분실하면 비용 청구 오토헤럴드
모터사이클 라이더 대상 ‘혼다 모터사이클 익스피리언스 데이’ 실시 오토헤럴드
영국, 2026년부터 자율주행 서비스 시범 운영 돌입… 업계, 정부 조치 환영 글로벌오토뉴스
중국, 전기차 시장에서 글로벌 주도권 강화…BYD, 테슬라 제쳐 글로벌오토뉴스
블룸버그의 테슬라 자율주행 보고서에 대한 미국 내 비판 여론 거세 글로벌오토뉴스
아우디, 중국 내 최첨단 전기차 생산 시설로 현지화 및 지속 가능성 강조 글로벌오토뉴스
다임러 트럭 & 볼보 그룹, 상용차 소프트웨어 혁신 위한 합작 투자 '코레투라' 출범 글로벌오토뉴스
중국 니오, 유럽 시장 확장 가속화…유통업체 중심 판매 전략으로 전환 글로벌오토뉴스
포니닷에이아이, 홍콩서 7세대 로보택시 공개… 자율주행 시장 선도 박차 글로벌오토뉴스
이 시간 HOT 댓글!
1/4