AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다 : 다나와 DPG는 내맘을 디피지

오픈에이아이(OpenAI), 패러다임(Paradigm), 오터섹(OtterSec)이 공동 개발한 EVMbench는 AI 에이전트의 스마트 계약 보안 능력을 측정하는 최초의 대규모 벤치마크다. 취약점 탐지 45.6%, 익스플로잇(exploit, 취약점 실제 공격) 성공률 72.2%라는 결과가 발표되면서 "AI가 곧 보안 감사를 완전히 자동화할 것"이라는 기대가 업계에 퍼졌다. 그러나 저장(BlockSec)의 연구자들이 이 벤치마크의 설계 한계를 지적하고 더 엄밀한 조건으로 재평가를 진행한 결과, 실제 세계에서 AI 에이전트가 공격을 끝까지 성공시킨 사례는 단 한 건도 없었다.

EVMbench가 놓친 두 가지 맹점

저장대학교와 블록섹(BlockSec)의 연구팀은 EVMbench의 실험 설계에서 두 가지 핵심 문제를 발견했다. 첫째는 평가 범위가 지나치게 좁다는 점이다. EVMbench는 14개의 에이전트 설정만 테스트했고, 대부분의 모델을 해당 모델 제조사가 만든 전용 도구와만 묶어서 평가했다. 예를 들어 클로드(Claude)는 클로드 코드(Claude Code)와, GPT는 코덱스 CLI(Codex CLI)와만 짝지어 테스트됐다. 도구 선택이 결과에 큰 영향을 미친다는 사실을 인정하면서도 이를 통제하지 않은 것이다.

둘째는 데이터 오염 가능성이다. EVMbench의 120개 취약점은 모두 코드4레나(Code4rena)라는 감사 경진대회에서 가져온 것으로, 그중 40개 저장소 중 36개가 2025년 8월 이전에 공개된 자료다. 2025년 말과 2026년에 출시된 AI 모델들의 학습 데이터 수집 기간과 상당 부분 겹친다. 즉, 높은 점수가 진짜 추론 능력이 아니라 기억에서 비롯됐을 수 있다.

26개 설정, 22건 실제 사고로 재평가

연구팀은 4개 모델 군과 3개 도구 조합으로 총 26개 에이전트 설정을 구성해 평가 범위를 대폭 넓혔다. 클로드(Claude), GPT, 제미나이(Gemini), GLM 계열 모델들을 클로드 코드, 코덱스 CLI, 그리고 오픈소스 도구인 오픈코드(OpenCode)와 각각 교차 테스트했다.

데이터 오염 문제를 해결하기 위해서는 모든 평가 모델의 출시일인 2026년 2월 이후에 실제로 발생한 보안 사고 22건을 별도로 수집해 '인시던트(Incidents) 데이터셋'을 구성했다. 이 사고들은 실제 블록체인에서 자금 피해가 확인된 것들이며, 어떤 모델의 학습 데이터에도 포함될 수 없는 새로운 사례들이다.

실제 사건에서 AI 익스플로잇 성공률 0%

가장 충격적인 결과는 실제 보안 사
고 데이터에서 나왔다. EVMbench 데이터에서 최고 61.1%의 익스플로잇 성공률을 보인 AI 에이전트들이, 실제 사건 22건에 대해서는 5개 에이전트 × 22건 = 총 110쌍에서 단 한 건도 공격을 끝까지 성공시키지 못했다. 에이전트들은 대부분 계약 코드를 읽고 블록체인 상태를 조회하는 데 대부분의 시간을 소비하다가 수익 있는 공격 전략에 도달하지 못했다. 특히 여러 계약에 걸친 복잡한 상호작용, 플래시론(flash loan, 담보 없이 같은 거래 내에서 빌리고 갚는 기법)과 토큰 승인을 연쇄적으로 실행하는 다단계 공격에서 AI는 손을 쓰지 못했다.

취약점 탐지 결과도 주목할 만하다. 클로드 오퍼스(Claude Opus) 4.6이 65%로 가장 높은 탐지율을 기록했고, 간단한 단일 함수 취약점은 대부분의 에이전트가 잡아냈다. 하지만 여러 계약에 걸쳐 있거나 특정 프로토콜의 내부 논리를 깊이 이해해야 하는 취약점은 AI가 전혀 발견하지 못했다. 서명 검증 상태 기계(signature validation state machine)와 관련된 취약점은 26개 에이전트 설정 전체가 탐지율 0%를 기록했다.

도구 선택이 모델보다 결과를 더 바꾼다

연구팀이 같은 모델을 서로 다른 도구와 조합해 비교한 결과, 오픈소스 도구 오픈코드가 6번의 비교 중 5번에서 제조사 전용 도구를 최대 5퍼센트포인트(pp) 차이로 앞섰다. 5pp 차이는 순위를 여러 단계 바꿀 수 있는 수치다. 오픈코드가 클로드 코드나 코덱스 CLI보다 먼저 출시됐음에도 더 나은 성과를 낸 것은, 도구의 최신 여부가 아닌 설계 방식이 결과에 결정적 영향을 미친다는 것을 보여준다.

추론 노력의 증가가 항상 성능을 높이지도 않았다. GPT-5.2 모델은 낮은 추론 노력 설정(37.5%)이 가장 높은 설정(29.2%)보다 오히려 익스플로잇 성능이 높게 나타났다. 추론 토큰을 더 많이 쓸수록 단순한 공격 경로를 과도하게 분석하다 정답을 놓치는 현상이 생기는 것으로 연구팀은 추정했다. 모델 순위도 탐지와 익스플로잇 사이에서 크게 요동쳤다. 탐지 2위였던 제미나이 3.1 프로(Gemini 3.1 Pro)가 익스플로잇에서는 10위로 떨어졌고, 탐지 꼴찌였던 제미나이 3 프로(Gemini 3 Pro)가 익스플로잇에서는 4위로 올라섰다.

AI 보안 에이전트의 현실적 활용 방향

연구팀은 AI 에이전트가 완전한 자율 보안 감사를 대체할 수 없지만, 제한적이고 실질적인 능력을 갖추고 있다고 결론 내렸다. 개발자 입장에서는 배포 전 AI 에이전트 검사를 보조 수단으로 활용할 수 있다. 접근 권한 누락, 재진입 공격(reentrancy), 산술 오버플로 같은 잘 알려진 취약점 패턴은 AI가 비교적 안정적으로 잡아낸다. 실제 사고 22건 중 6건은 거의 모든 에이전트가 탐지했다. 그러나 탐지율이 최대 47.5%에 불과하기 때문에 AI 검사만 믿으면 절반 이상의 취약점이 미탐지로 남는다는 점을 반드시 인식해야 한다.

보안 감사 기업에게는 AI를 인간 감사자의 업무를 보조하는 첫 번째 필터로 활용하는 방식이 현실적이다. 인간이 프로토콜 맥락을 제공할 때 AI 성능이 크게 오른다는 사실은 EVMbench의 힌트 실험에서도 확인됐다. 힌트가 주어지면 익스플로잇 점수가 65.2%에서 95.7%로 급등한다. AI가 코드베이스의 넓은 영역을 빠르게 훑고, 인간 전문가가 프로토콜 고유 지식과 적대적 추론으로 깊이를 더하는 인간 참여형 에이전트 워크플로가 현재로서는 가장 현실적인 방향이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 스마트 계약(smart contract)이란 무엇이고, 왜 보안이 중요한가요? 스마트 계약은 이더리움(Ethereum) 같은 블록체인 위에서 자동으로 실행되는 프로그램입니다. 한 번 배포되면 수정이 매우 어렵고, 취약점이 발견될 경우 자금이 즉시 빠져나가는 돌이킬 수 없는 피해로 이어질 수 있어 배포 전 보안 검사가 매우 중요합니다.

Q. AI가 스마트 계약 보안을 완전히 자동화하지 못하는 이유는 무엇인가요? AI 에이전트는 잘 알려진 패턴의 취약점은 어느 정도 탐지할 수 있지만, 여러 계약에 걸쳐 복잡하게 얽힌 논리적 취약점이나 특정 프로토콜에 고유한 결함은 현재 AI가 이해하지 못하는 경우가 많습니다. 실제 공격을 처음부터 끝까지 재현하는 데도 아직 성공하지 못하고 있습니다.

Q. 개발자나 보안 기업이 AI 에이전트를 어떻게 활용하는 것이 가장 효과적인가요? AI 에이전트는 보안 감사의 첫 번째 필터로 활용하는 것이 현실적입니다. 흔한 취약점 패턴을 빠르게 걸러내는 역할을 AI에 맡기고, 프로토콜 고유 지식과 판단이 필요한 심층 분석은 인간 전문가가 담당하는 협업 구조가 현재로선 가장 효과적입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

이미지 출처: 이디오그램

AI Matters 뉴스레터 구독하기

아이폰 폴더블 유출 총정리 출시 시기∙스펙∙폼 팩터 동영상 있음	AI matters
AI에도 지문이 있다, 몰래 바뀐 모델을 잡아내는 기술의 등장	AI matters
챗GPT·클로드 이용약관의 충격적 진실, "품질 보장 없고 책임은 사용자 몫"	AI matters
기자 10명 중 8명이 AI 쓰지만 정작 AI 가장 두려워 해	AI matters
전기차가 아낀 석유, 이란 수출량의 70% 달해 '총량 아닌 구성' 효과	오토헤럴드
'카메라 중심' 테슬라 FSD 대위기, 美 NHTSA 최고 단계 조사 착수	오토헤럴드
[EV 트렌드] GM, 배터리 전략 대폭 수정 'EV 보다 에너지 저장 시스템'	오토헤럴드
[위대한 발명 ④ 크럼플 존] 자동차를 부숴 충격을 삼키는 생명의 공간	오토헤럴드
[포토] 격투게임 팬 집중! 아크 월드 투어 2026 파이널 개막	게임메카
신규 직업 '기사' 예고, 마비노기 모바일 1주년 라이브	게임메카
한국인 취향 저격할 호주 브리즈번 맛집 3	트래비
1인 가구를 위한 냉장고·세탁기 셀프 관리법 [원룸 백과사전] (1)	다나와
4680 건식 공정 이걸 하네! 테슬라 가격 1000만 원 더 내려 간다? (1) 동영상 있음	오토기어
[기획] 5일간의 테스트 마무리한 '낙원' '글로벌 서바이벌 흥행작 될까?" (1)	게임동아
[순정남] 머리 말리기 진짜 힘들 것 같은 게임 캐릭터 TOP 5 (1)	게임메카
[포토] 게임챔프 복각판까지! 애니·게임 행사 '마리페' 현장	게임메카
AI가 미술·디자인 교사의 수업을 바꾼다, 결정적 열쇠는 '자신감'과 '동료 압력'이었다 (1)	AI matters
AI가 두려울수록 취업 결정을 못 한다, 중국 대학생 315명이 증명했다	AI matters
12광년 떨어진 별로 떠나는 헤일메리 프로젝트, 실제로 가능할까? (1)	과학향기
[기자 수첩] 현대차가 경계해야 할 것 '中 지커의 프리미엄 가성비'	오토헤럴드
언제 어디서나 가볍게 펼치는 작업 환경, 2026년형 LG전자 그램 AI 14	다나와
[생활 속 IT] "검색하면 추천·요약" 네이버, 쇼핑 AI 에이전트 서비스 얼마나 유용할까	IT동아
엔비디아 서버 CPU 공세에 인텔은 ‘동맹’ AMD는 ‘정면승부’…일반 PC 가격까지 영향?	IT동아
현대차 자율 주행 결국 엔비디아로 전환! "아틀라스가 훨씬 빠를텐데?" 동영상 있음	오토기어
그 많던 비타민 워터는 모두 어디에 갔을까?	마시즘
완벽한 로마 신혼여행을 위한 2곳의 프리미엄 호텔	트래비
[체험기] 개발진의 광기가 느껴진다. 생각했던 모든 것이 준비된 오픈월드 ‘붉은사막’	게임동아
DLC·업데이트·PS5 버전 공개한 스타필드, 한국어는?	게임메카
[겜ㅊㅊ] 찰진 손맛, 패링에 집중한 액션게임 5선 (1)	게임메카
AI 군사 활용 논란, 오픈AI·구글 직원 1000명이 반기를 들었다	AI matters
AI가 유방암 검진 의사를 대체할 수 있을까, 5만 명 임상 연구가 답했다	AI matters
AI 코딩 도구 써도 보안 취약점은 그대로, 결국 중요한 건 개발자 경험	AI matters
SF 영화처럼 음성만으로 PC를 제어할 수 있을까? (16)	다나와
[넥스트 모빌리티] '수소를 일상으로' 토요타 '미하루 하우스' 프로젝트	오토헤럴드
[포토] 압도적 기계룡의 위엄, 붉은사막 컬렉터스 에디션 (1)	게임메카
이번 봄에 주목해야 할 호텔 ‘코트야드 메리어트 서울 명동’	트래비
남국의 비경 일본 미야자키 ③대자연이 빚은 작품들	트래비
남국의 비경 일본 미야자키 ②니치난 해안에서 마주한 것들	트래비
[르포] 예테보리에서 탄생하는 프리미엄 전기차 디자인…‘지커 글로벌 디자인 센터’	IT동아
엔비디아, 베라 루빈·그록 3로 학습 넘어 추론까지··· 국내 AI 반도체 '생존 해법'은?	IT동아
AI 시대 스타트업 성장 전략 제시, AWS 유니콘데이	IT동아
폴드·카메라·가격까지 전부 흔들린다… 이번 주 IT 루머 핵심 정리 (8)	다나와
'이게 다 전기차 덕분이었네' 자동차 평균 연비 사상 최고치 기록	오토헤럴드
[위대한 발명 ③ 디스크 브레이크] 자동차 기술 진화의 핵심은 '정지' (1)	오토헤럴드
[모빌리티 인사이트] 'AI·로봇이 공장을 바꾼다' 세 번째 산업 혁명 시작 (2)	오토헤럴드
[정석희의 기후 에너지 인사이트] 6. 왜곡된 기후 데이터의 함정과 과학적 실체	IT동아
가파른 성장세 'AGI'...차별화된 기술력과 서비스로 국내 시장 공략 (1)	미디어픽
[숨신소] '압긍'받은 기괴한 마인크래프트 '루시드 블록'	게임메카
얼굴 하나로 감정, 음주, 졸음까지 읽는다, AI 단일 네트워크의 등장	AI matters
AI가 AWS 클라우드 해킹을 탐지, RAG 기술이 보안 정확도를 70% 끌어올렸다 (1)	AI matters
챗GPT가 스스로를 복사하기 시작했다, 인터넷 오염이 부른 AI 자기수렴 현상	AI matters
X3D 못 잃어. 16GB VRAM 못 잃어. 그렇다면 7500X3D+9070 (1)	기글하드웨어
[EV 트렌드] '시트도 기가캐스팅' 테슬라, 차세대 로드스터 특허 공개	오토헤럴드
DDR5, HBM 메모리 폭등의 유일한 해결법 반도체 증설 현황 총정리 삼성전자, SK하이닉스, 마이크론 [메모리 가격 폭등 7부] 동영상 있음	보드나라
뻔한 기술 자랑은 끝났다! 우리가 일상에서 마주할 AI의 진짜 모습 ㄷㄷ 동영상 있음	조코딩 JoCoding
[포토] 코믹월드 수놓은 넥슨 ‘아주르 프로밀리아’	게임메카
[인디言] 혼자 4년 반 개발, 디저트 세계 탐험 '로렌스 기행문'	게임메카
남국의 비경 일본 미야자키 ①신비의 섬, 아오시마	트래비
그때 그 시절의 홍콩 럭셔리, JW 메리어트 홍콩	트래비
이력서 대신 난제 던진 일론 머스크, '파격적이지만 정답이 있는 문제'	IT동아
짐벌 카메라 달렸다고 로봇 폰이라니요? MWC를 뒤집은 아너 로봇 폰의 정체 (2) 동영상 있음	AI matters
컴퓨터공학과 학생들은 챗GPT를 어떻게 쓰고 있을까	AI matters
AI가 자신의 실수를 알면서도 고치지 못하는 이유 (1)	AI matters
"사람을 그려줘"라고 했을 뿐인데, AI는 왜 항상 백인 얼굴을 만들어낼까	AI matters
울산교육청 “AI는 차단할 기술 아닌 교육의 대상…‘우리 아이(AI)’ 플랫폼 구축 배경”	IT동아
급속 충전기보다 완속 충전기가 비싸질 판! 황당한 기후부 정책이 문제! 동영상 있음	오토기어
[김훈기 칼럼] 에너지 위기와 자동차 산업의 반복되는 역사	오토헤럴드
[모빌리티 인사이트] 30년 전 순수 전기차의 '히트 펌프와 회생제동'	오토헤럴드
[위대한 발명 ② 모노코크] 마차를 기반으로 시작한 자동차 구조 혁신	오토헤럴드
바이오하자드 레퀴엠 다음 신작은 어떤 게임일까 (앞으로 출시될 바하 신작에 관한 정보) 동영상 있음	집마 홀릭TV
1억 8천만 화소 카메라 진짜 나오나? 2026 카메라 루머 총정리 동영상 있음	Hakbong Kwon
안드레 푸의 큐레이티드 맨션, 세인트 레지스 홍콩	트래비
[순정남] 벌레 공포증이라면 이 게임은 피하세요 TOP 5 (1)	게임메카
[정보/루머] AMD Zen 6는 윈도 업데이트로 제 성능 낼까? 및 GTC 2026 개막 전 등장한 x86 CPU 출시설 등	다나와
일상 속 스며든 유선ㆍ무선 네트워크 기술, 어떻게 구현될까?	IT동아
[황성진의 '고대 사상가, AI를 만나다'] 6/완. 칸트가 AI 시대에 태어났다면 말했을 한 마디	IT동아
[자동차 디자人] ‘강력한 우아함’으로 ‘지커’ 정체성 구축…슈테판 실라프 디자인 총괄	IT동아
AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다	AI matters
[EV 트렌드] 중국 전기차 공세, 글로벌 완성차 ‘프리미엄 가성비' 대응 (1)	오토헤럴드
상승기류 타는 AI PC, 2026년 'NPU 기반 온디바이스 AI' 활용도 높아진다	IT동아
누가 버린 컴퓨터에 CPU 업그레이드를 했더니ㅋㅋ 동영상 있음	민티저
오직 홍콩에서 만날 수 있는 로컬 브랜드 모음 (1)	트래비
토요일 오후, 홈카페를 위한 부산 여행지 3 (1)	트래비
"15년이나 줬으면 많이 줬다!" 전기차 보조금 당장 폐지해야 한다! 이러다 국산 전기차 완전히 망가진다! 동영상 있음	오토기어
AI가 해커보다 먼저 움직인다, CISO들이 선택한 생존 전략	AI matters
미국 10대 64%가 AI 챗봇을 쓰는 시대, 부모 10명 중 3명은 사실조차 모른다	AI matters
챗GPT가 스택 오버플로를 오염시키고 있다, AI가 AI를 잡아낸다	AI matters
[피규어메카] 나루메아부터 벨리알까지, 그랑블루 판타지	게임메카
코로 무엇이든 집어 올리는 코끼리의 비밀은? (1)	과학향기
다시 시작된 공포!, 레지던트 이블 레퀴엠(Resident Evil Requiem, RE9)	블루프레임
람보르기니 미우라 60주년 'V12 엔진 탑재, 미드십 슈퍼카 시대 열다'	오토헤럴드
[위대한 발명 ① 스타터 모터] 핸드 크랭크 시대를 끝낸 전기 시동 장치	오토헤럴드
세계가 주목하는 홍콩의 바 10곳	트래비
명확한 콘셉트로 설계된 홍콩 바 6 (1)	트래비
“지역에 머무는 여행, 어떻게 만들까”…에어비앤비가 제주서 내놓은 청사진	IT동아
[위클리AI] 오픈AI, GPT-5.4 출시 '워크플로우 특화 모델' 외	IT동아
'세대교체·신규 라인업 등장'··· 팀 쿡 시대 저물고 새로운 애플이 온다	IT동아
프로덕트테크 “플라스틱 폭탄 된 부직포 필터…친환경 금속 필터로 순환 경제 실현”	IT동아
[겜ㅊㅊ] 슬더스 느낌 나는 로그라이크 덱빌딩 5선	게임메카
AI가 만든 영상인지 모르고 봤다, 소라 사용자 254명이 털어놓은 충격 반응	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다

공유하기

공감/비공감