비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다

2026.03.13. 09:42:41
조회 수
121
2

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

오픈에이아이(OpenAI), 패러다임(Paradigm), 오터섹(OtterSec)이 공동 개발한 EVMbench는 AI 에이전트의 스마트 계약 보안 능력을 측정하는 최초의 대규모 벤치마크다. 취약점 탐지 45.6%, 익스플로잇(exploit, 취약점 실제 공격) 성공률 72.2%라는 결과가 발표되면서 "AI가 곧 보안 감사를 완전히 자동화할 것"이라는 기대가 업계에 퍼졌다. 그러나 저장(BlockSec)의 연구자들이 이 벤치마크의 설계 한계를 지적하고 더 엄밀한 조건으로 재평가를 진행한 결과, 실제 세계에서 AI 에이전트가 공격을 끝까지 성공시킨 사례는 단 한 건도 없었다.

EVMbench가 놓친 두 가지 맹점

저장대학교와 블록섹(BlockSec)의 연구팀은 EVMbench의 실험 설계에서 두 가지 핵심 문제를 발견했다. 첫째는 평가 범위가 지나치게 좁다는 점이다. EVMbench는 14개의 에이전트 설정만 테스트했고, 대부분의 모델을 해당 모델 제조사가 만든 전용 도구와만 묶어서 평가했다. 예를 들어 클로드(Claude)는 클로드 코드(Claude Code)와, GPT는 코덱스 CLI(Codex CLI)와만 짝지어 테스트됐다. 도구 선택이 결과에 큰 영향을 미친다는 사실을 인정하면서도 이를 통제하지 않은 것이다.

둘째는 데이터 오염 가능성이다. EVMbench의 120개 취약점은 모두 코드4레나(Code4rena)라는 감사 경진대회에서 가져온 것으로, 그중 40개 저장소 중 36개가 2025년 8월 이전에 공개된 자료다. 2025년 말과 2026년에 출시된 AI 모델들의 학습 데이터 수집 기간과 상당 부분 겹친다. 즉, 높은 점수가 진짜 추론 능력이 아니라 기억에서 비롯됐을 수 있다.

26개 설정, 22건 실제 사고로 재평가

연구팀은 4개 모델 군과 3개 도구 조합으로 총 26개 에이전트 설정을 구성해 평가 범위를 대폭 넓혔다. 클로드(Claude), GPT, 제미나이(Gemini), GLM 계열 모델들을 클로드 코드, 코덱스 CLI, 그리고 오픈소스 도구인 오픈코드(OpenCode)와 각각 교차 테스트했다.

데이터 오염 문제를 해결하기 위해서는 모든 평가 모델의 출시일인 2026년 2월 이후에 실제로 발생한 보안 사고 22건을 별도로 수집해 '인시던트(Incidents) 데이터셋'을 구성했다. 이 사고들은 실제 블록체인에서 자금 피해가 확인된 것들이며, 어떤 모델의 학습 데이터에도 포함될 수 없는 새로운 사례들이다.

실제 사건에서 AI 익스플로잇 성공률 0%

가장 충격적인 결과는 실제 보안 사
고 데이터에서 나왔다. EVMbench 데이터에서 최고 61.1%의 익스플로잇 성공률을 보인 AI 에이전트들이, 실제 사건 22건에 대해서는 5개 에이전트 × 22건 = 총 110쌍에서 단 한 건도 공격을 끝까지 성공시키지 못했다. 에이전트들은 대부분 계약 코드를 읽고 블록체인 상태를 조회하는 데 대부분의 시간을 소비하다가 수익 있는 공격 전략에 도달하지 못했다. 특히 여러 계약에 걸친 복잡한 상호작용, 플래시론(flash loan, 담보 없이 같은 거래 내에서 빌리고 갚는 기법)과 토큰 승인을 연쇄적으로 실행하는 다단계 공격에서 AI는 손을 쓰지 못했다.

취약점 탐지 결과도 주목할 만하다. 클로드 오퍼스(Claude Opus) 4.6이 65%로 가장 높은 탐지율을 기록했고, 간단한 단일 함수 취약점은 대부분의 에이전트가 잡아냈다. 하지만 여러 계약에 걸쳐 있거나 특정 프로토콜의 내부 논리를 깊이 이해해야 하는 취약점은 AI가 전혀 발견하지 못했다. 서명 검증 상태 기계(signature validation state machine)와 관련된 취약점은 26개 에이전트 설정 전체가 탐지율 0%를 기록했다.

도구 선택이 모델보다 결과를 더 바꾼다

연구팀이 같은 모델을 서로 다른 도구와 조합해 비교한 결과, 오픈소스 도구 오픈코드가 6번의 비교 중 5번에서 제조사 전용 도구를 최대 5퍼센트포인트(pp) 차이로 앞섰다. 5pp 차이는 순위를 여러 단계 바꿀 수 있는 수치다. 오픈코드가 클로드 코드나 코덱스 CLI보다 먼저 출시됐음에도 더 나은 성과를 낸 것은, 도구의 최신 여부가 아닌 설계 방식이 결과에 결정적 영향을 미친다는 것을 보여준다.

추론 노력의 증가가 항상 성능을 높이지도 않았다. GPT-5.2 모델은 낮은 추론 노력 설정(37.5%)이 가장 높은 설정(29.2%)보다 오히려 익스플로잇 성능이 높게 나타났다. 추론 토큰을 더 많이 쓸수록 단순한 공격 경로를 과도하게 분석하다 정답을 놓치는 현상이 생기는 것으로 연구팀은 추정했다. 모델 순위도 탐지와 익스플로잇 사이에서 크게 요동쳤다. 탐지 2위였던 제미나이 3.1 프로(Gemini 3.1 Pro)가 익스플로잇에서는 10위로 떨어졌고, 탐지 꼴찌였던 제미나이 3 프로(Gemini 3 Pro)가 익스플로잇에서는 4위로 올라섰다.

AI 보안 에이전트의 현실적 활용 방향

연구팀은 AI 에이전트가 완전한 자율 보안 감사를 대체할 수 없지만, 제한적이고 실질적인 능력을 갖추고 있다고 결론 내렸다. 개발자 입장에서는 배포 전 AI 에이전트 검사를 보조 수단으로 활용할 수 있다. 접근 권한 누락, 재진입 공격(reentrancy), 산술 오버플로 같은 잘 알려진 취약점 패턴은 AI가 비교적 안정적으로 잡아낸다. 실제 사고 22건 중 6건은 거의 모든 에이전트가 탐지했다. 그러나 탐지율이 최대 47.5%에 불과하기 때문에 AI 검사만 믿으면 절반 이상의 취약점이 미탐지로 남는다는 점을 반드시 인식해야 한다.

보안 감사 기업에게는 AI를 인간 감사자의 업무를 보조하는 첫 번째 필터로 활용하는 방식이 현실적이다. 인간이 프로토콜 맥락을 제공할 때 AI 성능이 크게 오른다는 사실은 EVMbench의 힌트 실험에서도 확인됐다. 힌트가 주어지면 익스플로잇 점수가 65.2%에서 95.7%로 급등한다. AI가 코드베이스의 넓은 영역을 빠르게 훑고, 인간 전문가가 프로토콜 고유 지식과 적대적 추론으로 깊이를 더하는 인간 참여형 에이전트 워크플로가 현재로서는 가장 현실적인 방향이다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 스마트 계약(smart contract)이란 무엇이고, 왜 보안이 중요한가요? 스마트 계약은 이더리움(Ethereum) 같은 블록체인 위에서 자동으로 실행되는 프로그램입니다. 한 번 배포되면 수정이 매우 어렵고, 취약점이 발견될 경우 자금이 즉시 빠져나가는 돌이킬 수 없는 피해로 이어질 수 있어 배포 전 보안 검사가 매우 중요합니다.

Q. AI가 스마트 계약 보안을 완전히 자동화하지 못하는 이유는 무엇인가요? AI 에이전트는 잘 알려진 패턴의 취약점은 어느 정도 탐지할 수 있지만, 여러 계약에 걸쳐 복잡하게 얽힌 논리적 취약점이나 특정 프로토콜에 고유한 결함은 현재 AI가 이해하지 못하는 경우가 많습니다. 실제 공격을 처음부터 끝까지 재현하는 데도 아직 성공하지 못하고 있습니다.

Q. 개발자나 보안 기업이 AI 에이전트를 어떻게 활용하는 것이 가장 효과적인가요? AI 에이전트는 보안 감사의 첫 번째 필터로 활용하는 것이 현실적입니다. 흔한 취약점 패턴을 빠르게 걸러내는 역할을 AI에 맡기고, 프로토콜 고유 지식과 판단이 필요한 심층 분석은 인간 전문가가 담당하는 협업 구조가 현재로선 가장 효과적입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

이미지 출처: 이디오그램




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 기획뉴스 전체 둘러보기
4/1
짐벌 카메라 달렸다고 로봇 폰이라니요? MWC를 뒤집은 아너 로봇 폰의 정체 (2) 동영상 있음 AI matters
컴퓨터공학과 학생들은 챗GPT를 어떻게 쓰고 있을까 AI matters
AI가 자신의 실수를 알면서도 고치지 못하는 이유 (1) AI matters
"사람을 그려줘"라고 했을 뿐인데, AI는 왜 항상 백인 얼굴을 만들어낼까 AI matters
울산교육청 “AI는 차단할 기술 아닌 교육의 대상…‘우리 아이(AI)’ 플랫폼 구축 배경” IT동아
급속 충전기보다 완속 충전기가 비싸질 판! 황당한 기후부 정책이 문제! 동영상 있음 오토기어
[김훈기 칼럼] 에너지 위기와 자동차 산업의 반복되는 역사 오토헤럴드
[모빌리티 인사이트] 30년 전 순수 전기차의 '히트 펌프와 회생제동' 오토헤럴드
[위대한 발명 ② 모노코크] 마차를 기반으로 시작한 자동차 구조 혁신 오토헤럴드
바이오하자드 레퀴엠 다음 신작은 어떤 게임일까 (앞으로 출시될 바하 신작에 관한 정보) 동영상 있음 집마 홀릭TV
1억 8천만 화소 카메라 진짜 나오나? 2026 카메라 루머 총정리 동영상 있음 Hakbong Kwon
안드레 푸의 큐레이티드 맨션, 세인트 레지스 홍콩 트래비
[순정남] 벌레 공포증이라면 이 게임은 피하세요 TOP 5 (1) 게임메카
[정보/루머] AMD Zen 6는 윈도 업데이트로 제 성능 낼까? 및 GTC 2026 개막 전 등장한 x86 CPU 출시설 등 다나와
일상 속 스며든 유선ㆍ무선 네트워크 기술, 어떻게 구현될까? IT동아
[황성진의 '고대 사상가, AI를 만나다'] 6/완. 칸트가 AI 시대에 태어났다면 말했을 한 마디 IT동아
[자동차 디자人] ‘강력한 우아함’으로 ‘지커’ 정체성 구축…슈테판 실라프 디자인 총괄 IT동아
AI가 스마트 계약 보안을 완전히 대체할 수 없다는 연구 결과가 나왔다 AI matters
[EV 트렌드] 중국 전기차 공세, 글로벌 완성차 ‘프리미엄 가성비' 대응 (1) 오토헤럴드
상승기류 타는 AI PC, 2026년 'NPU 기반 온디바이스 AI' 활용도 높아진다 IT동아
이 시간 HOT 댓글!
1/4