챗GPT(ChatGPT)와 같은 대화형 AI가 음성 기능을 갖추면서 문자 입력이 어려운 사람들도 쉽게 사용할 수 있게 됐다. 하지만 함부르크대학교(University of Hamburg)와 마인츠대학교(JGU Mainz) 공동 연구팀이 발표한 최신 연구에 따르면, 음성 인터페이스가 접근성을 높이는 동시에 성별 차별을 증폭시키는 것으로 나타났다. 연구팀은 8개의 최신 오디오 대형 언어 모델(LLM)을 분석한 결과, 목소리만으로 화자의 성별을 인식한 AI가 성별 고정관념에 따라 직업과 성격을 다르게 할당하는 현상을 확인했다.
같은 말을 해도 목소리에 따라 달라지는 AI의 판단
연구팀은 여성과 남성 화자가 동일한 내용을 말한 1,370개의 음성 샘플을 준비했다. 이 샘플들은 영국식과 미국식 억양, 음성 길이, 나이대 등을 최대한 일치시켜 오직 성별만 다르도록 설계됐다. 제미나이 프로 2.5(Gemini Pro 2.5), GPT-4o 오디오(GPT-4o Audio), 큐웬2-오디오(Qwen2-Audio) 등 8개 모델에 이 음성을 들려주고 화자에게 어울리는 직업이나 형용사를 선택하게 했다.
결과는 충격적이었다. 모든 모델이 여성 목소리에는 '간호사', '비서', '따뜻한', '배려하는' 같은 전형적인 여성 이미지를 연결했고, 남성 목소리에는 '엔지니어', '관리자', '강한', '논리적인' 같은 남성 이미지를 할당했다. 특히 제미나이 프로 모델은 동일한 내용을 말한 두 화자에 대해 전혀 다른 프로필을 생성했다. 여성 화자에게는 "협력적이고 공감 능력이 뛰어난 팀원"이라는 설명을 붙인 반면, 남성 화자에게는 "전략적 사고와 리더십을 갖춘 인물"이라고 묘사했다.
텍스트보다 음성에서 더 심해지는 편향
연구팀은 한 걸음 더 나아가 같은 모델에 텍스트로 입력했을 때와 음성으로 입력했을 때의 차별 정도를 비교했다. 놀랍게도 음성 입력 시 성별 고정관념에 따른 반응이 텍스트 입력보다 훨씬 강하게 나타났다. 이는 AI가 단순히 텍스트에 내재된 편향을 재현하는 수준을 넘어, 목소리의 음높이(pitch), 음색(timbre), 억양(intonation) 같은 음성 특징에서 성별 정보를 추출하고 이를 바탕으로 추가적인 차별을 만들어낸다는 것을 의미한다.
연구진은 이를 확인하기 위해 음성의 피치를 인위적으로 조작하는 실험을 진행했다. 그 결과 피치가 높아질수록 AI는 더 여성적인 특성을, 낮아질수록 더 남성적인 특성을 할당하는 경향을 보였다. 이는 AI의 성별 차별이 단순히 '여성' 또는 '남성'이라는 범주형 판단이 아니라, 음성의 물리적 특성에 따라 연속적으로 작동한다는 것을 보여준다. 마치 사람이 목소리를 듣고 무의식적으로 성별을 추론하듯, AI 역시 음성 신호에서 성별 정보를 자동으로 추출하고 이를 응답 생성에 반영하는 것이다.
1,000명 설문 결과: 가장 필요한 사람들이 가장 우려한다
연구팀은 기술적 분석과 함께 1,000명을 대상으로 한 온라인 설문조사를 실시했다. 설문 결과, 음성 AI는 실제로 접근성을 크게 향상시킬 수 있는 것으로 나타났다. 특히 고령자, 장애인, 디지털 문해력이 낮은 사람들에게 음성 인터페이스는 AI 사용의 진입 장벽을 낮추는 중요한 도구였다. 하지만 역설적이게도 이들 집단은 AI가 목소리로 자신의 성별, 나이, 인종 등을 추론하는 것에 대해 가장 강한 우려를 표현했다.
특히 챗봇을 자주 사용하지 않는 사람들은 AI가 자신의 속성을 추론한다는 사실을 알게 되면 사용을 중단할 가능성이 높았다. 반면 남성은 여성보다 이러한 우려가 현저히 낮았다. 문제는 AI 개발자의 대다수가 남성이라는 점이다. 만약 초기 사용자와 개발자 집단이 속성 추론의 위험성에 덜 민감하다면, 제품 개발 과정에서 이러한 위험이 충분히 고려되지 않을 가능성이 크다. 결국 접근성을 높이려는 기술이 정작 가장 필요로 하는 사람들을 배제하는 결과를 낳을 수 있다는 것이 연구팀의 경고다.
피치 조작으로 차별 완화 가능성 확인
연구팀은 단순히 문제를 지적하는 데 그치지 않고 해결 방향도 제시했다. 음성의 피치를 조작하는 실험을 통해 성별 차별적 출력을 체계적으로 조절할 수 있음을 확인한 것이다. 예를 들어 여성 화자의 음성 피치를 낮추면 AI가 할당하는 직업과 형용사가 덜 여성 고정관념적으로 변했고, 남성 화자의 피치를 높이면 반대 효과가 나타났다.
이는 음성 전처리 단계에서 피치를 중립화하거나, AI 모델이 피치 정보를 성별 추론에 사용하지 못하도록 학습시키는 방식으로 차별을 완화할 수 있음을 시사한다. 물론 이것이 완벽한 해결책은 아니다. 음성에는 피치 외에도 음색, 발화 속도, 억양 패턴 등 다양한 성별 단서가 존재하기 때문이다. 하지만 적어도 피치라는 구체적인 조절 지점을 확인했다는 점에서 의미가 있다.
연구팀은 논문의 도입부(Introduction)에서 "접근성과 공정성은 함께 다뤄져야 한다"고 강조한다. 음성 AI가 더 많은 사람에게 기술 접근 기회를 제공하는 것은 분명 긍정적이지만, 그 과정에서 새로운 형태의 차별이 발생한다면 진정한 의미의 포용적 기술이라 할 수 없다. 의료 상담, 교육, 취업 지원 등 고위험 영역에서 음성 AI가 확대되고 있는 만큼, 이러한 편향을 방치할 경우 실질적인 피해로 이어질 수 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 음성 AI는 어떻게 목소리만으로 성별을 판단하나요?
음성 AI는 목소리의 음높이, 음색, 억양 같은 물리적 특성을 분석해 화자의 성별을 추론한다. 이러한 특성은 텍스트로 변환하면 사라지지만, 오디오 신호를 직접 처리하는 AI는 이를 그대로 활용할 수 있다.
Q2. 음성 AI의 성별 차별이 실생활에 어떤 영향을 미치나요?
의료 상담, 취업 지원, 교육 등에서 음성 AI가 사용될 경우, 목소리에 따라 다른 조언이나 평가를 받을 수 있다. 예를 들어 같은 증상을 말해도 여성 목소리에는 덜 심각하게, 남성 목소리에는 더 심각하게 반응할 가능성이 있다.
Q3. 음성 AI의 성별 편향을 줄일 방법은 있나요?
연구팀은 음성의 피치를 중립화하거나, AI가 성별 정보를 사용하지 못하도록 학습시키는 방법을 제시했다. 하지만 음성에는 다양한 성별 단서가 있어 완전한 해결은 어렵고, 접근성과 공정성을 함께 고려한 설계가 필요하다.
기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.
논문명: Greater accessibility can amplify discrimination in generative AI
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기




[