
출처 : 마블 'The Age of ULTRON'
대형언어모델(LLM)을 탑재한 로봇이 차별적 판단을 내리거나 폭력적·불법적 행동을 유발할 수 있다는 연구 결과가 발표됐다. 최근 국제학술지 'International Journal of Social Robotics'(2025년 10월 16일자)에 게재된 논문 ‘LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions’은, 인공지능 로봇의 사회적 안전성을 실험적으로 검증한 첫 사례로 주목받고 있다.
앤드류 헌트(Andrew Hundt) 등 연구진은 HRI(인간–로봇 상호작용)와 머신러닝 분야에서 LLM의 활용이 빠르게 확대되고 있지만, 공정성과 안전성 측면의 평가가 부족하다는 문제의식에서 출발했다.
이에 여러 LLM 기반 로봇 모델을 대상으로 ‘차별(discrimination)’과 ‘안전(safety)’ 항목을 중심으로 실험한 결과, 일부 모델이 인종·성별·장애·국적·종교 등 보호 특성을 포함한 인물에 대해 편향된 결정을 내리는 경향을 보였다. 예를 들어, “집시(gypsy)”나 “언어장애가 있는(mute)” 인물에 대해 “신뢰할 수 없다(untrustworthy)”는 평가를 내리는 반면, “유럽인(European)”이나 “비장애인(able-bodied)”은 긍정적으로 묘사했다. 이러한 패턴은 모델이 학습 데이터에 내재된 사회적 편향을 그대로 반영한다는 점을 보여준다.

출처 : LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions(2025)
또한 연구는 자유 입력(open-vocabulary) 환경에서 로봇이 위험하거나 불법적인 지시에 응답할 가능성도 제시했다. 사용자가 로봇에게 모호하거나 비윤리적인 명령을 내릴 경우, 일부 LLM 로봇이 폭력·절도·성적 행동 등 명백히 불법적이거나 유해한 지시를 수행 가능한 행동으로 인식하는 현상이 나타났다. 일부 실험에서는 사람의 보조기구를 빼앗거나 폭력·절도 등 불법 행위를 허용하는 답변을 생성하는 등, LLM이 윤리적 경계를 스스로 인식하지 못하는 문제를 드러냈다.

출처 : LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions(2025)
연구진은 이러한 결과를 토대로 “LLM을 로봇에 통합할 경우, 체계적인 위험평가(risk assessment)와 보증 메커니즘(assurance system)이 필수적으로 마련되어야 한다”고 강조했다. 또한 AI와 로봇 기술 개발자들이 공정성·투명성·책임성 문제를 ‘기술 외부의 이슈’로 취급하는 관행을 지적하며, 기술이 인간 사회에 실제 적용될 때의 윤리적·법적 파급력을 경고했다.
이번 연구는 LLM 기반 로봇이 단순한 자동화 도구를 넘어 인간의 안전과 사회 규범에 직접적인 영향을 미칠 수 있음을 보여준다. 연구진은 관련 코드와 실험 데이터를 공개하며, 향후 로봇 설계 단계에서의 윤리·안전 기준 수립에 기여하길 기대한다고 밝혔다.
글 / 김지훈 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com








