인공지능 챗봇에 질문했을 때 "예" 또는 "아니요"로 답해야 하는 상황에서, AI가 답을 모르면 무조건 "아니요"라고 대답하는 경향이 있다는 연구 결과가 나왔다. 서울대학교 전기·정보공학부 연구팀의 논문에 따르면, 이는 AI가 질문의 뜻을 제대로 이해하지 못할 때 습관적으로 부정 답변을 선택하는 현상이다. 흥미로운 점은 AI가 실제로 답이 틀렸다고 생각해서가 아니라, 단순히 "아니요"라는 말 자체를 더 선호한다는 것이다.
"예/아니요" 질문엔 유독 "아니요" 답변 많아
연구진은 AI가 같은 내용을 물어봐도 질문 방식에 따라 답변이 달라진다는 사실을 발견했다. "1+1이 2인가요? 예 또는 아니요로 답하세요"라고 물으면 "아니요"라고 답할 가능성이 높았다. 하지만 "다음 중 맞는 것을 고르세요. (A) 1+1은 2다 (B) 1+1은 2가 아니다"라고 물으면 정답인 (A)를 더 잘 선택했다. 이는 AI가 1+1이 2가 아니라고 생각해서가 아니라, "아니요"라는 단어 형태 자체를 좋아하기 때문이다.
연구팀은 라마, 큐웬, 미스트랄, GPT-4o 등 4개 AI 모델을 테스트했다. 복잡한 문제일수록 이런 현상이 더 심했다. 선택지를 고르는 방식보다 직접 "예/아니요"로 답하게 하는 방식에서 부정 답변 비율이 훨씬 높았다. 이는 AI들이 답변 내용보다는 "아니요"라는 부정어를 직접 말하는 것 자체에 편향되어 있음을 보여준다.
모를 땐 85.7% 확률로 부정 답변 급증
연구진은 AI의 지식수준을 세 가지로 나눠 테스트했다. 정답을 아는 경우, 틀린 답을 알고 있는 경우, 그리고 관련 지식이 아예 없는 경우다. 결과는 명확했다. AI가 답을 모를 때 부정 답변 편향이 가장 심했다. 7개 데이터셋과 4개 모델을 조합한 28개 테스트 중 85.7%에서 지식이 없을 때 부정 답변 비율이 급증했다.
이는 AI가 확신이 없으면 일단 "아니요"부터 말하는 습관이 있다는 뜻이다. 반면 AI가 답을 알고 있거나 틀린 답이라도 뭔가 알고 있을 때는 부정 답변 편향이 상대적으로 약했다. 흥미롭게도 지식이 없을 때 "예/아니요" 질문은 대부분 부정 쪽으로 치우쳤지만, 선택지 방식은 그렇지 않았다. 이는 질문 형식이 AI의 답변 패턴에 큰 영향을 준다는 것을 의미한다.
배경 설명과 "모른다" 선택지는 효과 있어
연구팀은 이런 편향을 줄일 방법을 세 가지 테스트했다. 첫째, 질문과 관련된 배경 설명을 함께 제공하면 부정 답변 편향이 줄어들었다. 배경 설명이 있으면 AI의 지식수준에 따른 차이가 작아졌다. 하지만 완벽한 해결책은 아니었다. 틀린 정보를 알고 있거나 아예 모를 때는 여전히 부정 답변이 많았다.
둘째, "모르겠습니다"라는 선택지를 추가하면 대부분 효과가 있었다. 특히 부정 답변이 "모르겠습니다"로 바뀌는 비율이 긍정 답변보다 훨씬 높았다. 답을 모를 때 이 비율이 가장 높았는데, 이는 "모르겠습니다" 옵션이 AI의 불필요한 부정 답변을 줄이는 데 도움이 된다는 뜻이다. 단, 부작용도 있었다. 원래 맞게 "아니요"라고 답해야 할 때도 "모르겠습니다"로 바뀌는 경우가 생겨 정확도가 떨어지기도 했다.
셋째, AI에게 답을 말하기 전에 단계별로 생각하게 만드는 방법(사고 연쇄 프롬프팅)은 예상과 달리 부정 편향을 오히려 악화시켰다. 선택지 방식에서는 정확도가 올랐지만, "예/아니요" 방식에서는 개선이 거의 없거나 더 나빠졌다. 이는 생각 과정에서 편향이 더 증폭되기 때문으로 분석된다.
질문 방식만 살짝 바꿔도 편향 사라져
연구진은 질문 형식을 바꾸는 것만으로도 부정 편향을 크게 줄일 수 있다는 사실을 발견했다. "예/아니요로 답하세요" 대신 "다음 중 맞는 것을 고르세요. (A) 예 (B) 아니요"처럼 선택지 형태로만 바꿔도 효과가 있었다.
미스트랄을 제외한 대부분 모델에서 선택지 방식으로 바꾸면 부정 답변 비율이 줄고 정확도도 높아졌다. 이는 AI가 직접 "아니요"라는 말을 생성하는 것 자체가 편향의 핵심 원인임을 보여준다. 복잡한 기술 없이 단순히 질문 구조만 바꿔도 AI의 과도한 부정 답변을 막을 수 있다는 점에서 실용적이다.
재미있는 점은 이런 편향이 AI 크기와 관계없다는 것이다. 비슷한 크기의 AI 중 어떤 것은 편향이 심하고 어떤 것은 약했다. 심지어 훨씬 큰 GPT-4o가 작은 모델보다 더 강한 편향을 보이기도 했다. 이는 부정 편향이 AI 크기와 별개의 문제이며, 따로 해결해야 할 과제임을 의미한다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. AI의 부정 편향이 뭔가요?
A: AI가 "예" 또는 "아니요"로 답해야 할 때 "아니요"를 지나치게 많이 선택하는 현상입니다. 실제 답이 맞든 틀리든 상관없이 "아니요"라는 말 자체를 더 선호하는데, 특히 AI가 답을 모를 때 이런 현상이 심해집니다.
Q2. 왜 AI는 모를 때 "아니요"를 더 많이 말하나요?
A: 연구에 따르면 AI는 확신이 없으면 일단 "아니요"부터 말하는 습관이 있습니다. 답을 모르는 경우의 85.7%에서 부정 답변이 급증했는데, 이는 AI가 불확실할 때 "아니요"를 기본값처럼 사용한다는 뜻입니다.
Q3. 이 문제를 어떻게 해결할 수 있나요?
A: 질문할 때 배경 설명을 함께 제공하거나 "모르겠습니다"라는 선택지를 추가하면 효과가 있습니다. 또한 "예/아니요로 답하세요" 대신 "(A) 예 (B) 아니요" 같은 선택지 형태로 질문하는 것만으로도 편향을 크게 줄일 수 있습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: A Multifaceted Analysis of Negative Bias in Large Language Models through the Lens of Parametric Knowledge
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기



