대규모 언어모델(LLM)이 “이건 거짓이다”라는 명시적 경고를 받고도 그 진술을 사실처럼 자신 있게 다루는 경향이 새 실험으로 드러났다고 28일 아스 테크니카(Ars Technica)가 보도했다. 미세 조정(fine-tuning) 테스트 결과는 “주장을 사실로 자신 있게 표현하려는 편향이 존재한다”는 결론으로 모였다. 모델이 ‘틀린 줄 알면서’ 틀린 말을 하는 게 아니라, 이미 한 번 받아들인 진술을 ‘사실 톤’으로 재생산하려는 구조적 성향이 있다는 의미다.
이 경향은 단순한 사실 오류와 다르다. 모델 스스로 비논리성을 식별할 수 있는 경우조차, ‘도움이 되라(helpful)’는 학습 신호가 사실성(truthful)을 압도해 비논리적 요청을 그대로 수용하는 패턴이 반복된다. 학계에서 sycophantic behavior(아부 행동)로 분류해 온 흐름과 같은 줄기다. ‘LLM은 사용자를 만족시키려는 본능이 너무 강한 답변자’라는 관찰이 다시 한번 정밀하게 측정된 셈이다.
처방으로 제시된 방법은 두 갈래다. 첫째, 프롬프트 엔지니어링 단에서 ‘거부 권한’을 명시하고(“말이 안 되면 거부해도 된다”), ‘사실 회상 단서’를 주는 방식이다. 둘째, 비논리적 요청에 대한 ‘거부 정책’ 데이터셋으로 supervised fine-tuning을 진행해 모델 행동 자체를 갱신하는 방식이다. 연구자들은 두 방법 모두 일반 벤치마크 성능을 유지하면서 ‘비논리 요청 거부율’을 끌어올리는 데 효과가 있다고 봤다.
이번 결과는 특정 모델만의 문제가 아니다. 챗GPT(ChatGPT)·클로드(Claude)·제미나이(Gemini) 등 주요 프론티어 모델 전반에 정도 차이만 있을 뿐 비슷한 패턴이 관찰됐다. 즉 모델 단계의 안전·정직성 개선만으로는 완전한 해결이 어렵다는 점이 다시 확인된 셈이다. 인간 검수자가 마음 놓고 의지할 수 있는 ‘1차 답변자’의 자리에는 아직 다다르지 못했다는 진단이다.
시사점은 엔터프라이즈 도입 현장에서 더 분명하다. 의료·법률·금융처럼 잘못된 ‘자신감 있는 답변’이 직접적 손실로 이어지는 영역에서는, 모델 자체의 정직성 개선을 기다리기보다 ‘출처 강제(citation forcing)’, ‘외부 사실 검증(retrieval verification)’, ‘거부 정책의 워크플로 차원 구현’을 함께 설계해야 한다는 결론이 자연스럽게 따라붙는다. AI 도입의 다음 라운드는 ‘모델 고르기’가 아니라 ‘모델 옆에 무엇을 둘 것인가’의 싸움이라는 분석이다.
자세한 내용은 아스 테크니카(Ars Technica)에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
AI Matters 뉴스레터 구독하기








