"AI야, 네가 할 수 있어?" 묻고 나서 답한다… 애피어, '역량 캘리브레이션' 기술 공개

2026.03.25. 12:52:43

AI 네이티브 AaaS(Agentic AI as a Service) 기업 애피어(Appier)가 2026년 3월 25일, 최신 연구 논문 "거대언어모델의 캘리브레이션 연구: 응답에서 역량으로(On Calibration of Large Language Models: From Response to Capability)"를 발표했다. 이번 연구는 거대언어모델(LLM)의 과도한 확신과 환각 현상을 해결하기 위해, AI 시스템이 주어진 과업을 해결할 수 있는지 스스로 능력을 평가하는 '역량 캘리브레이션(Capability Calibration)' 프레임워크를 제시한다.

이번 연구의 핵심은 AI 에이전트가 답변을 생성하기 전에 해당 문제를 해결할 수 있는 가능성을 먼저 추정하는 능력을 갖추도록 하는 것이다. 정량화된 자기평가 메커니즘을 도입함으로써, AI 시스템은 보다 신뢰도 높은 의사결정을 내리고 연산 자원을 더욱 효율적으로 배분할 수 있다. 애피어는 이를 통해 기업용 AI 도입 시 신뢰성, 비용 효율성, 확장성을 동시에 개선할 수 있다고 밝혔다.

기존의 LLM 캘리브레이션은 개별 응답의 정확도, 즉 단일 답변이 맞는지에 초점을 맞춰왔다. 그러나 LLM의 출력은 확률적 특성을 가지기 때문에 동일한 질문에도 여러 번 시도할 경우 서로 다른 답변이 생성될 수 있다. 이 때문에 단일 응답만으로는 모델의 실제 역량을 충분히 파악하기 어렵다는 한계가 있었다.

애피어의 역량 캘리브레이션 프레임워크는 평가 초점을 단일 응답의 확신도에서 '주어진 질문에 대해 모델이 성공적으로 문제를 해결할 확률', 즉 기대 성공률로 전환한다. 실제 기업 환경에서는 AI가 한 번 우연히 맞히는 것보다 특정 과업을 일관되게 해결할 수 있는지 여부가 더 중요하기 때문이다. 이를 통해 평가 대상은 개별 응답이 아닌 모델의 전반적인 문제 해결 역량으로 확장되며, 실제 비즈니스 환경에 부합하는 성능 지표를 제공한다.

치한 위(Chih-Han Yu) 애피어 CEO 겸 공동창업자는 "AI 에이전트는 답변 생성에 그치지 않고, 스스로의 역량이 어디까지인지 이해할 수 있어야 한다"며 "역량 캘리브레이션을 통해 에이전트는 응답 전에 성공 확률을 추정하고 이에 따라 자원을 효율적으로 배분할 수 있다. 단순한 질의는 빠르게 처리하고, 복잡한 과업은 더 강력한 모델이나 추가 연산 자원을 자동으로 활용하도록 만들 수 있다"고 말했다. 그는 이어 "이는 AI를 단순한 도구에서 벗어나 자원 관리, 비용 최적화, 의사결정 품질 향상을 능동적으로 수행하는 시스템으로 전환시키는 것으로, 기업용 AI 에이전트 확장을 위한 핵심 기반"이라고 강조했다.

애피어는 이번 연구에서 역량 캘리브레이션과 기존 응답 캘리브레이션 간의 이론적 관계를 정립하고, 세 가지 LLM과 7개 데이터셋을 활용해 다양한 확신도 추정 방식을 비교 분석했다. 주요 평가 방법으로는 모델이 텍스트나 백분율 형태로 확신도를 직접 표현하는 방식, 생성 과정의 신호를 기반으로 정답 가능성을 추정하는 방식, 모델 내부 신호를 활용해 문제 이해 여부를 판단하는 선형 탐사(Linear Probes) 방식 등이 활용됐다. 실험 결과, 선형 탐사 방식이 성능과 비용 측면에서 가장 균형 잡힌 결과를 보였으며, 단일 토큰 생성보다 낮은 연산 비용으로도 안정적인 확신도 추정이 가능한 것으로 나타났다.

애피어가 제안한 프레임워크는 두 가지 실질적인 활용 가능성을 제시한다. 첫째는 pass@k 예측으로, 실제로 여러 번 답변을 생성하지 않고도 모델이 정답을 낼 확률을 미리 추정할 수 있다. 둘째는 추론 자원 배분(inference resource allocation) 최적화로, 과업 난이도에 따라 연산 자원을 동적으로 할당함으로써 동일한 연산 예산 내에서 더 많은 과업을 처리하도록 돕는다.

역량 캘리브레이션은 AI 에이전트가 행동을 수행하기 전에 안정적이고 정량화된 확신도 시그널을 확보할 수 있도록 지원한다. 이를 통해 에이전트는 스스로 문제를 해결할지, 외부 툴을 활용할지, 아니면 사람에게 도움을 요청할지 스스로 판단할 수 있게 된다. 애피어 AI 연구팀은 앞으로도 역량 캘리브레이션 기술을 고도화해 모델 라우팅, 인간-AI 협업, 신뢰 가능한 AI 시스템 구축 등 다양한 영역으로 적용 범위를 확장할 예정이다. 또한 이러한 연구 성과를 자사의 광고 및 마케팅 솔루션에 통합해 기업들이 복잡한 디지털 생태계에서 보다 효율적이고 신뢰할 수 있는 에이전틱 AI 운영 체계를 구축하도록 지원할 계획이다.

자세한 내용은 애피어(Appier) 공식 홈페이지에서 확인할 수 있다.

이미지 출처: 애피어

AI Matters 뉴스레터 구독하기