
Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions
에이트폴드(Eightfold.ai) 연구팀이 GPT-4o, 클로드(Claude), 제미나이(Gemini) 등 주요 생성형 AI 모델들의 채용 과정에서의 정확성과 편향성을 실제 1만 건의 구직자-채용공고 데이터로 분석한 결과, 대부분의 범용 AI 모델들이 인종과 성별에 따른 심각한 편향을 보인다는 연구 결과를 발표했다. 이 연구는 AI 채용 도구의 도입이 급증하는 가운데 공정성 보장을 위한 전문적 설계의 중요성을 강조한다.
포춘 500대 기업 98%가 사용하는 AI 채용, 편향성 문제 심각
현재 포춘 500대 기업의 98%가 채용 과정에서 자동화 시스템을 사용하고 있으며, 생성형 AI의 발전으로 이력서 분석과 후보자 추천 등의 업무가 더욱 효율화되고 있다. 하지만 2018년 아마존의 AI 채용 도구가 여성 지원자를 차별하는 문제가 드러난 사례처럼, AI 시스템의 편향성 문제가 지속적으로 제기되고 있다. 이에 유럽연합의 AI 법안과 뉴욕시의 AI 채용 규제법 등 관련 법규가 강화되는 추세다.
GPT-4o는 0.77점, 전용 모델은 0.85점의 정확도 차이
연구팀은 OpenAI의 GPT-4o와 o3-mini, 구글의 제미나이 2.5 플래시(Gemini 2.5 Flash), 앤스로픽의 클로드 3.5 v2, 메타의 라마(Llama) 3.1-405B, 딥시크(Deepseek) R1 등 7개의 주요 생성형 AI 모델을 비교 분석했다. 모든 모델은 동일한 마스킹 처리된 이력서와 채용공고를 입력받아 적합도를 평가했다. 정확도 측면에서 에이트폴드의 전용 모델인 매치 스코어(Match Score)가 ROC AUC 0.85를 기록한 반면, 가장 성능이 좋은 범용 AI 모델은 0.77에 그쳤다. 이는 채용 특화 데이터로 훈련된 모델이 범용 모델보다 약 9% 높은 정확도를 보인다는 것을 의미한다.
인종별 편향성에서 최대 19% 격차, 교차 분석에서는 더 심각
편향성 분석에서는 더욱 충격적인 결과가 나타났다. 평등고용기회위원회(EEOC)의 '5분의 4 규칙'을 기준으로 한 임팩트 비율(Impact Ratio) 분석에서, 매치 스코어는 인종별 최소 0.957의 비율을 유지해 거의 완벽한 공정성을 보였다. 반면 가장 성능이 좋은 범용 AI인 딥시크 R1도 0.809에 그쳤고, GPT-4o와 제미나이 2.5 플래시는 0.774와 0.773으로 공정성 기준인 0.8을 하회했다. 특히 인종과 성별을 교차 분석한 결과에서는 모든 범용 AI 모델이 0.8 미만의 점수를 기록했으며, 제미나이 2.5 플래시는 0.616으로 가장 낮은 점수를 받았다. 이는 특정 인종-성별 조합의 지원자가 가장 높은 점수를 받는 그룹 대비 10명 중 6명 수준의 평가만 받는다는 의미다.
정확도와 공정성의 딜레마는 거짓, 동시 달성 가능
연구의 핵심 발견 중 하나는 정확도와 공정성 사이의 트레이드오프가 필연적이지 않다는 점이다. 매치 스코어는 가장 높은 정확도를 달성하면서 동시에 가장 공정한 결과를 보여줬다. 연구팀은 이를 통해 채용에서 기술적 역량과 공정성을 동시에 추구할 수 있으며, 오히려 공정성을 고려한 설계가 전체적인 의사결정 품질을 향상시킨다고 결론지었다. 이는 AI 채용 도구 개발에서 편향성 방지가 선택사항이 아닌 필수사항임을 시사한다.
FAQ
Q: 일반적인 생성형 AI를 채용에 바로 사용해도 될까요? A: 연구 결과에 따르면 GPT-4o, 클로드, 제미나이 등 범용 생성형 AI 모델들은 채용 과정에서 상당한 편향성을 보이므로, 광범위한 공정성 보장 장치 없이는 직접 사용하지 않는 것이 좋습니다.
Q: AI 채용 도구의 편향성을 어떻게 확인할 수 있나요? A: 평등고용기회위원회의 '5분의 4 규칙'을 활용한 임팩트 비율 분석을 통해 성별, 인종별 평가 격차를 측정할 수 있으며, 0.8 이상의 비율을 유지해야 공정성 기준을 충족합니다.
Q: 채용에서 정확도와 공정성을 동시에 달성할 수 있나요? A: 이 연구는 적절히 설계된 AI 모델이 정확도와 공정성을 모두 달성할 수 있음을 실증적으로 보여줍니다. 채용 특화 데이터와 편향성 방지 설계를 통해 두 목표를 동시에 추구할 수 있습니다.
기사에 인용된 리포트 원문은 arxiv에서 확인할 수 있다.
논문 명: Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기