마이크로소프트가 취약점 발굴부터 검증·증명 및 대응까지 단계형 파이프라인을 갖춘 에이전틱 보안 분석 시스템 ‘멀티 모델 에이전틱 스캐닝 하네스(MDASH)’를 공개했다.
MDASH는 마이크로소프트 자율 코드 보안(ACS) 팀이 구축한 멀티 모델 에이전틱 스캐닝 하네스다. 단일 모델 접근 방식의 한계를 보완하기 위해 프런티어 모델과 증류 모델을 결합한 앙상블 아키텍처를 적용했다. 100개 이상의 전문 AI 에이전트가 취약점 발견부터 검증·토론, 악용 가능성 증명까지 전 과정을 엔드투엔드로 수행하도록 설계된 것이 특징이다.
마이크로소프트는 MDASH의 핵심이 단일 AI 모델의 성능에 있지 않고, 다수 모델과 에이전트를 결합한 시스템 아키텍처에 있다고 설명했다.
공개 사이버짐 벤치마크 리더보드(88.4%)에서 1위를 기록한 마이크로소프트 MDASH
윈도우 네트워킹·인증 스택서 신규 취약점 16건 식별
마이크로소프트는 MDASH를 활용해 윈도우 네트워킹 및 인증 스택 전반에서 16개의 신규 취약점을 식별했다. 이 가운데 4건은 치명적 원격 코드 실행 취약점으로, 윈도우 커널 TCP/IP 스택과 IKEv2 서비스 등 구성요소에서 발견됐다.
대표 사례로는 레이스 컨디션 기반 UAF(Use-after-free) 등 단순 패턴 매칭만으로는 포착하기 어려운 복잡한 결함 유형도 확인됐다. 이는 코드 흐름, 객체 생명주기, 동시성 등을 종합적으로 추론해야 하는 취약점 분석 영역에서 MDASH가 활용될 수 있음을 보여주는 사례로 제시됐다.
실전 대응 역량을 보여주는 지표도 함께 공개됐다. MDASH는 공개 사이버짐(CyberGym) 벤치마크에서 88.45% 점수로 리더보드 최고 점수를 기록했다. 이는 다음 엔트리 대비 약 5포인트 높은 수치다. 또한 마이크로소프트 보안 대응 센터(MSRC)의 5개년 확정 사례를 기준으로 한 회고 평가에서 clfs.sys 96%(28건), tcpip.sys 100%(7건)의 재현율을 기록했다.
연도별 주요 AI 모델의 취약점 탐지 성공률 추이
하이퍼스케일 환경 겨냥한 AI 기반 취약점 발굴
마이크로소프트는 보안 감사가 까다로운 자사 코드베이스의 특수성을 강조했다. 윈도우, 하이퍼-V(Hyper-V), 애저(Azure) 등은 방대한 비공개 코드 영역과 서비스 생태계로 구성돼 있으며, 해당 영역은 범용 AI 모델의 학습 데이터에서 제외된다.
이 때문에 커널 호출 규칙이나 IPC 신뢰 경계와 같은 요소는 단순 패턴 매칭만으로 식별하기 어렵다. 실제 취약점 발굴에는 코드 흐름, 객체 생명주기, 동시성까지 고려한 분석과 추론이 요구된다는 설명이다.
대규모 데브섹옵스(DevSecOps) 환경에서 오탐을 줄이는 것도 중요한 과제로 제시됐다. 취약점이 발견되면 담당자 배정과 검증·분류를 거쳐 정기 보안 업데이트인 패치 화요일에 반영된다. 이 과정에서 오탐이나 불필요한 경고가 증가하면 대응 비용이 커지고, 사용자 기반이 큰 제품일수록 부담도 커진다.
5단계 자동화 파이프라인으로 검증·증명까지 수행
MDASH는 준비부터 증명까지 이어지는 5단계 자동화 파이프라인으로 구성됐다. 소스 분석과 위협 모델링을 수행하는 준비 단계에서 시작해 후보 발굴을 위한 스캔 단계, 에이전트 간 교차 검증 단계, 중복 제거 단계를 거친다. 이후 취약점을 실제로 재현할 수 있는 입력을 구성·실행해 최종적으로 취약점을 입증한다.
이 파이프라인은 세 가지 핵심 속성을 기반으로 작동한다. 먼저 추론·검증·대조 단계별로 모델 앙상블을 운용하고, 모델 간 판단 불일치를 신뢰도 신호로 활용한다. 또 감사·검증·증명 단계에는 역할이 다른 전문 에이전트를 배치한다. 여기에 플러그인 방식으로 내부 맥락을 주입할 수 있으며, 주요 단계는 모델 불가지론적으로 설계돼 새 모델 도입 시 설정 변경과 A/B 테스트로 반영할 수 있다.
마이크로소프트는 MDASH가 단일 프롬프트 기반 도구가 아니라 파일 간 비교, 다단계 도달 가능성 분석, 에이전트 간 토론, 증명 단계를 순차적으로 결합한 엔지니어링 시스템이라고 설명했다.
비공개 코드베이스로 사전 학습 영향 배제
MDASH의 버그 탐지 성능 평가는 외부에 공개된 적 없는 비공개 코드베이스를 활용해 진행됐다. 모델의 사전 학습 영향을 배제하기 위한 방식이다.
비공개 장치 드라이버인 스토리지드라이브(StorageDrive)에는 커널 UAF, 정수 처리 문제, IOCTL 검증 누락, 락 오류 등 의도적으로 주입된 21개 취약점이 포함됐다. 테스트 결과 MDASH는 주입된 취약점을 모두 오탐 없이 정확히 식별했다.
과거 보안 대응 사례를 기준으로 한 실전 재현 성능도 공개됐다. 마이크로소프트 보안 대응 센터의 5개년 데이터를 기반으로 검증한 결과, 공통 로그 파일 시스템인 clfs.sys에서 96%(28건), tcpip.sys에서 100%(7건)의 재현율을 달성했다.
사이버짐 벤치마크서 88.45%로 최고 점수
공개 사이버짐(CyberGym) 벤치마크에서는 88.45% 성공률로 리더보드 최고 점수를 기록했다. 해당 평가는 188개 OSS-Fuzz 프로젝트에서 추출한 1,507개 취약점 재현 과제를 기반으로 한다. MDASH의 점수는 2위 83.1%보다 약 5포인트 높았다.
평가는 사이버짐 기본 설정인 레벨1로 진행됐다. 마이크로소프트는 평가 프로토콜 연계를 위해 증명 단계를 확장하고, PoC 입력을 자동 제출해 플래그를 회수하는 방식으로 평가를 수행했다.
남은 약 12%의 실패 사례도 분석됐다. 잘못된 코드 영역을 겨냥한 경우의 82%는 함수·파일 식별자 없이 설명이 모호한 과제에서 발생했다. 입력 형식이 libFuzzer와 honggfuzz 사이에서 불일치해 재현이 실패한 사례도 확인됐다. 이를 근거로 작업 설명의 품질과 입력 형식 호환성이 스캔 정확도와 재현 결과에 영향을 줄 수 있다고 설명했다.
“AI 취약점 발굴, 연구 넘어 엔지니어링 과제로 전환”
마이크로소프트는 AI 기반 취약점 발굴이 연구 단계를 넘어 실전 엔지니어링 과제로 전환되고 있다고 평가했다. 정기 보안 업데이트 결과와 공통 로그 파일 시스템(CLFS) 관련 MSRC 5개년 사례 재현율을 근거로, AI 취약점 발굴 결과가 규모 있게 확장될 수 있다고 내다봤다.
기술적 핵심으로는 구성과 검증이 제시됐다. MDASH는 후보를 표시하는 수준에 머무르지 않고 에이전트 간 토론, 중복 제거, 증명 단계까지 이어지도록 구성됐다. 새 모델 도입 시에도 파이프라인을 재구축하지 않고 설정 변경과 A/B 테스트 재실행으로 반영할 수 있으며, 프로젝트별 컨텍스트·스캔 플러그인·증명 에이전트 구성은 유지된다.
이는 AI 기반 취약점 탐지가 개별 모델 성능 경쟁을 넘어 시스템 설계 중심의 엔지니어링 문제로 전환되고 있음을 보여준다.
김태수(Taesoo Kim) 마이크로소프트 에이전틱 보안 부사장은 “MDASH는 마이크로소프트 엔지니어링 팀이 상용 AI 모델을 활용해 보안 성과를 실질적으로 개선하는 데 도움을 주고 있다”며 “앞으로도 마이크로소프트는 모두에게 더 안전한 세상을 만들기 위한 노력을 이어갈 것”이라고 말했다.
한편 마이크로소프트는 현재 일부 고객을 대상으로 MDASH의 한정 프라이빗 프리뷰(Limited Private Preview)를 진행 중이다.
이준문 기자/jun@newstap.co.kr
ⓒ 뉴스탭(https://www.newstap.co.kr) 무단전재 및 재배포금지
[뉴스탭 인기 기사]
· 고려은단, 캔 타입 ‘허니&유자 비타민C’ 출시…휴대성과 음용 편의성 강화
· 벤큐코리아, 500Hz QD-OLED 게이밍 모니터 앞세워 MOBIUZ 라인업 확대
· 조텍코리아, RTX 5060 그래픽카드 10만원 구매 기회 제공
· “첫 러닝 워치 겨냥” 가민, 포러너 70·170으로 러너 입문 시장 공략
· 에이수스, KOBA 2026서 ProArt 생태계 공개…8K 모니터부터 AI 노트북까지








