어제까지 잘 쓰던 AI가 오늘은 왠지 다르게 느껴진다면, 그건 착각이 아닐 수 있다. 챗GPT(ChatGPT)나 클로드(Claude) 같은 AI 서비스들은 사용자에게 알리지 않고 내부 시스템을 조용히 바꾸는 경우가 많다. 프로젝트 베일(Project VAIL)과 일리노이 대학교 어바나-샴페인(University of Illinois Urbana-Champaign) 연구팀이 개발한 '스태빌리티 모니터(Stability Monitor)'는 바로 이런 변화를 자동으로 잡아내는 시스템이다. 연구팀은 같은 이름을 달고 서비스되는 AI라도 제공 업체에 따라, 심지어 같은 업체 안에서도 시간이 지나면 실제 행동이 크게 달라진다는 사실을 실험으로 증명했다.
서버가 멀쩡해도 AI는 이미 다른 존재가 되어 있다
일반적인 소프트웨어 서비스에서는 서버가 켜져 있고 반응 속도가 빠르면 아무 문제가 없다고 본다. 하지만 AI 서비스는 다르다. 기술적 점검을 모두 통과해도 AI가 실제로 내놓는 답변의 패턴은 소리 없이 변할 수 있다.
연구팀은 이 현상을 설명하기 위해 '안정성(stability)'이라는 새로운 운영 지표를 도입했다. 안정성이란 같은 질문에 대해 AI가 일관되게 비슷한 방식으로 답하는지를 나타내는 개념이다. 서비스 제공자가 모델 가중치(weight), 토크나이저(tokenizer), 추론 엔진(inference engine)을 교체하거나, 모델을 더 가볍게 압축하는 양자화(quantization) 기술을 적용하거나, 서버 하드웨어를 바꾸기만 해도 답변 패턴은 달라진다.
더 주목할 부분은 사용자 요청이 여러 서버에 분산 처리되는 구조 때문에 생기는 문제다. 사용자가 AI의 창의성 수준을 조절하는 '온도(temperature)' 설정을 0으로 고정해도, 서비스 제공자가 서로 다른 환경의 서버에 요청을 나눠 처리하면 같은 질문에 매번 다른 답이 나올 수 있다. 연구팀은 이처럼 겉으로 드러나지 않는 불확실성이 여러 단계를 거치는 AI 에이전트(agent) 자동화 작업에서 특히 심각한 문제를 일으킨다고 지적했다. 예를 들어 AI가 고객 문의를 분류하고, 정보를 검색하고, 답변을 생성하는 세 단계를 거치는 시스템이라면, 첫 번째 단계의 작은 차이 하나가 최종 답변의 품질을 완전히 뒤바꿀 수 있다.
질문 800번으로 AI의 '지문'을 채취하다
스태빌리티 모니터는 AI의 내부 구조나 가중치 데이터에 전혀 접근하지 않는다. 오직 질문을 던지고 답변을 받는 방식만으로 변화를 감지하는 '블랙박스(black-box)' 방식이다.
작동 원리는 이렇다. 미리 정해놓은 질문 묶음을 AI에게 반복해서 던지고, 각 답변을 수치 벡터(vector)로 변환해 저장한다. 연구팀의 구현 방식에서는 총 800번의 질문과 답변으로 하나의 '지문(fingerprint)'을 만들어낸다. 이렇게 만든 지문들을 비교할 때는 '에너지 거리(energy distance)'라는 통계 기법을 사용한다. 두 사람의 필체를 비교할 때 글자 하나하나가 아닌 전체적인 글씨 스타일을 보는 것과 비슷한 방식이다. 에너지 거리가 0이면 두 AI의 반응 패턴이 동일하다는 뜻이고, 값이 클수록 차이가 크다는 의미다.
신뢰도를 높이기 위해 연구팀은 순열 검정(permutation test)이라는 방법도 함께 적용했다. 데이터를 무작위로 섞어가며 관찰된 차이가 우연의 일치일 가능성을 계산하는 방법이다. 이 확률, 즉 p값(p-value)이 낮을수록 실제 변화가 있었다는 증거가 강해진다. 시스템은 주기적으로 새 지문을 만들어 기준 지문과 비교하고, 쌓인 증거가 일정 수준을 넘으면 '변화 이벤트(change event)'를 선언한다. 그러면 가장 최근 지문이 새 기준으로 설정되고, 이후 비교는 이 새 기준을 중심으로 계속된다.
실제 테스트 결과: 5가지 변화를 모두 잡아냈다
연구팀은 직접 통제한 실험 환경에서 스태빌리티 모니터의 성능을 검증했다. 로컬 서버에 모델을 올려놓고 스태빌리티 모니터가 모르는 상태에서 모델을 바꾼 뒤, 시스템이 이를 감지하는지 확인하는 방식이었다.
연구팀이 테스트한 변화 유형은 다섯 가지다. 모델 계열 교체(Qwen에서 Llama로), 버전 업그레이드(Qwen2.5-0.5B에서 Qwen3-0.6B로), 추론 스택 교체(vLLM에서 Transformers로), 양자화 적용(BF16에서 INT8로), 그리고 온도 파라미터 조정(0.7에서 0.6으로)이었다. 온도를 조금 바꾼 경우를 제외하면 나머지 네 가지 변화는 모두 다음 지문을 생성하는 즉시 변화 이벤트로 감지됐다. 온도 미세 조정은 변화 이후 18번째 지문에서 감지됐다. 중요한 점은 변화 이벤트가 정확히 한 번씩만 기록됐다는 것이다. 변화 전에도 안정적이었고, 감지 이후 새 기준으로 전환된 뒤에도 다시 안정적인 상태를 유지했다.
실제 서비스 환경에서도 충격적인 결과가 나왔다. 2025년 11월, 연구팀이 여러 업체가 동시에 서비스하는 키미-K2(Kimi-K2-0905-Instruct) 모델을 모니터링한 결과, 딥인프라(DeepInfra)는 지문을 생성할 때마다 거의 매번 변화 이벤트가 감지될 만큼 불안정했던 반면, 이 모델을 직접 만든 무샷(Moonshot)의 서비스는 100% 안정성을 유지했다. 같은 모델인데 어디서 서비스를 받느냐에 따라 결과가 완전히 달랐던 것이다. 2025년 12월에는 파라세일(Parasail)에서 변화 이벤트가 감지됐는데, 파라세일 팀은 물리적 서버 장애로 인한 하드웨어 교체가 있었음을 직접 확인해주었다.
의료 AI가 어제와 다른 판단을 내린다면
이 문제가 단순한 기술적 호기심으로 끝나지 않는 이유가 있다. 의료 상담 AI를 예로 들어보자. 환자가 똑같은 증상을 입력했는데 어제는 '즉시 병원 방문'을 권고하고, 오늘은 '며칠 더 지켜보세요'라고 답한다면 어떻게 될까. 금융 투자 AI가 모델 교체 이후 갑자기 위험을 대하는 방식이 달라진다면, 법률 문서를 검토하는 AI가 중요한 조항을 다르게 해석하기 시작한다면 피해는 고스란히 사용자에게 돌아간다.
핵심 문제는 이런 변화가 사용자에게 알려지지 않는다는 점이다. 서비스 제공자는 성능 개선이나 비용 절감을 위해 내부를 자주 바꾸지만, 사용자는 외부 인터페이스(API)만 보기 때문에 이를 알아차리기 어렵다. 연구팀이 인용한 선행 연구(Chen et al., 2024)에서도 GPT-3.5(지피티3.5)와 GPT-4의 답변 패턴이 수개월에 걸쳐 정확도, 형식, 안전성 측면에서 눈에 띄게 달라졌다는 사실이 확인된 바 있다.
기업 입장에서도 이는 법적 준수, 즉 컴플라이언스(compliance) 문제다. 연구팀은 모델이 조용히 바뀌면 이전에 수행했던 안전성 검증과 출력 필터링이 더 이상 유효하지 않을 수 있다고 지적했다. 스태빌리티 모니터는 변화 이벤트와 안정 기간의 기록을 자동으로 생성해 엔지니어링, 보안, 컴플라이언스 팀이 활용할 수 있도록 설계되었다.
기존 방식과 어떻게 다른가
기존의 모델 지문 인식 연구들은 주로 지적재산권 보호에 초점을 맞췄다. 배포된 모델이 원본 모델을 허가 없이 복사한 것인지 확인하는 것이 주된 목적이었고, 이를 위해 모델 내부에 접근하거나 특수하게 조작된 적대적 입력(adversarial input)을 사용해야 했다.
스태빌리티 모니터는 목적과 방식 모두 다르다. 모델 소유권 확인이 아니라 시간에 따른 행동 변화 감지가 목표이며, 특별한 접근 권한 없이 일반적인 자연어 질문만으로 작동한다. 최근 발표된 B3IT(Chauvin et al., 2026) 연구도 유사한 문제를 블랙박스 방식으로 다루지만 핵심적인 차이가 있다. B3IT는 초기 설정 단계에서 각 서비스마다 AI 모델의 판단이 거의 막상막하인 '경계 입력(border inputs)'을 찾아야 한다. 문제는 변화 이벤트가 발생하면 AI의 판단 경계 자체가 바뀌기 때문에 이 경계 입력을 다시 찾아야 한다는 번거로움이 있다. 반면 스태빌리티 모니터는 어떤 모델에도 동일하게 적용할 수 있는 고정 질문 세트를 계속 재사용할 수 있어, 변화 이벤트가 발생한 이후에도, 그리고 여러 서비스 제공자를 비교할 때도 일관되게 쓸 수 있다.
연구팀은 자신들의 방식이 특정 능력을 시간에 따라 깊이 평가하는 기존 프로젝트들과 상호보완 관계에 있다고 설명한다. 기존 방식들이 특정 능력에 대한 정밀한 신호를 제공하지만 실행 비용이 높아 다양한 모델과 제공자를 폭넓게 커버하기 어렵다면, 스태빌리티 모니터는 몇 시간마다 새 지문을 생성하는 가볍고 빠른 상시 감시에 특화되어 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 일반 사용자도 자신이 쓰는 AI 서비스가 바뀌었는지 알 수 있나요?
A. 현재로서는 직접 확인하기 어렵습니다. 스태빌리티 모니터는 연구 목적의 도구로 기술적 진입장벽이 있습니다. 다만 연구팀이 운영하는 스태빌리티 아레나(arena.projectvail.com)에서 주요 AI 서비스들의 안정성 데이터를 누구나 확인할 수 있습니다. 향후 AI 서비스 비교 플랫폼에 이런 모니터링 기능이 통합될 가능성도 있습니다.
Q. AI 서비스 제공자가 모델을 업데이트하는 것 자체가 문제인가요?
A. 업데이트 자체는 문제가 아닙니다. 성능 개선과 오류 수정을 위해 필요한 과정입니다. 문제는 사용자에게 알리지 않고 변경하거나, 동일한 모델 이름을 유지하면서 실제 작동 방식이 달라지는 경우입니다. 특히 의료, 금융, 법률처럼 규제가 엄격한 분야에서는 AI의 행동 변화를 추적하고 기록할 수 있어야 합니다.
Q. 온도(temperature)를 0으로 설정하면 AI 답변이 항상 똑같지 않나요?
A. 그렇지 않습니다. 온도는 사용자가 조절할 수 있는 설정값일 뿐입니다. 서비스 제공자가 내부 추론 엔진, 캐싱 방식, 서버 하드웨어 등을 바꾸면 온도를 0으로 설정해도 답변이 달라질 수 있습니다. 또한 서버 부하 상황에 따라 배치 크기(batch size)가 바뀌면서 생기는 연산 차이도 비결정성을 만들어냅니다. 사용자 요청이 서로 다른 환경의 여러 서버에 분산 처리될 때도 같은 질문에 다른 답변이 나올 수 있습니다.
기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.
논문명: Behavioral Fingerprints for LLM Endpoint Stability and Identity
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기








