AI, 코드 디버깅 여전히 난관… 마이크로소프트, 디버깅 능력을 갖춘 ‘디버그-짐’ 환경 공개 : 다나와 DPG는 내맘을 디피지

Debug-gym: an environment for AI coding tools to learn how to debug code like programmers

개발자 시간의 대부분은 디버깅에 사용된다... 코드 작성을 넘어선 AI의 진화

AI 코딩 도구가 개발자 효율성을 증가시키며 미래 소프트웨어 개발 환경을 빠르게 변화시키고 있다. 깃허브(GitHub) CEO 토마스 동케는 "머지 않아 80%의 코드가 코파일럿(Copilot)에 의해 작성될 것"이라고 예측했으며, Y 컴비네이터(Y Combinator)의 개리 탄에 따르면 최근 Y 컴비네이터 신생 기업 중 4분의 1은 코드의 95%가 대규모 언어 모델(LLM)에 의해 작성되었다고 한다.

하지만 대부분의 개발자는 코드 작성보다 디버깅에 더 많은 시간을 소비한다. 이에 마이크로소프트 리서치팀은 AI 코딩 도구가 인간처럼 코드를 디버깅할 수 있도록 가르치는 방법에 초점을 맞추게 되었다. 디버깅이란 코드 수정을 위한 대화형 반복 프로세스를 의미하며, 개발자들은 코드가 왜 충돌했는지 가설을 세우고, 프로그램을 단계별로 진행하며 변수 값을 검사하는 등의 증거를 수집한다. 이 과정에서 pdb(Python 디버거)와 같은 디버깅 도구를 사용해 정보를 수집하고, 코드가 수정될 때까지 이 과정을 반복한다.

현재의 AI 코딩 도구는 생산성을 향상시키고 가용한 코드와 오류 메시지를 기반으로 버그 해결책을 제안하는 데 탁월하다. 그러나 인간 개발자와 달리 솔루션이 실패할 때 추가 정보를 찾지 않아 일부 버그는 해결되지 않은 채 남게 된다. 이는 사용자들이 AI 코딩 도구가 해결하려는 문제의 전체 맥락을 이해하지 못한다고 느끼게 만든다.

디버그-짐: AI가 중단점 설정부터 변수값 검사까지, 인간 개발자처럼 코드를 이해하는 환경

이런 배경에서 마이크로소프트 리서치팀은 대규모 언어 모델(LLM)이 pdb와 같은 대화형 디버깅 도구를 어느 정도까지 사용할 수 있는지를 탐구하기 위해 디버그-짐(Debug-gym)을 출시했다. 해당 기술을 소개한 논문에 따르면, 디버그-짐은 코드 수정 에이전트가 능동적인 정보 탐색 행동을 위한 도구에 접근할 수 있게 해주는 환경이다. 이 환경은 에이전트의 행동 및 관찰 공간을 도구 사용에서 얻은 피드백으로 확장하여 중단점 설정, 코드 탐색, 변수 값 출력, 테스트 함수 생성 등을 가능하게 한다. 에이전트는 도구를 사용해 코드를 조사하거나 자신감이 있다면 코드를 다시 작성할 수 있다.

연구팀은 적절한 도구를 사용한 대화형 디버깅이 코딩 에이전트가 실제 소프트웨어 엔지니어링 작업을 처리할 수 있게 하고, LLM 기반 에이전트 연구의 중심이 될 것이라고 믿는다. 디버깅 기능을 갖춘 코딩 에이전트가 제안하고 인간 프로그래머가 승인한 수정 사항은 이전에 본 훈련 데이터에만 의존하는 추측이 아니라 관련 코드베이스, 프로그램 실행 및 문서의 맥락에 기반할 것이다.

도커 컨테이너부터 JSON 형식까지... 안전하고 확장 가능한 디버그-짐의 4가지 핵심 설계

디버그-짐은 여러 목표를 염두에 두고 설계 및 개발되었다.

첫째로, 저장소 수준의 정보 처리 능력을 갖추고 있어 에이전트에게 전체 저장소를 제공함으로써 파일을 자유롭게 탐색하고 편집할 수 있는 환경을 조성한다.

둘째로, 시스템과 개발 프로세스의 안전을 보장하기 위해 샌드박스 도커 컨테이너 내에서 코드를 실행하는 견고함과 안전성을 갖추었다. 이러한 격리된 런타임 환경은 유해한 작업을 방지하면서도 철저한 테스트와 디버깅을 가능하게 한다.

셋째로, 확장성을 핵심 설계 원칙으로 삼아 실무자들이 필요에 따라 새로운 도구를 쉽게 추가할 수 있는 유연한 구조를 제공한다.

마지막으로, 관찰 정보를 JSON 형식과 같은 구조화된 텍스트로 표현하고 텍스트 작업을 위한 간결한 구문을 정의하는 텍스트 기반 접근 방식을 채택했다. 이를 통해 최신 LLM 기반 에이전트들과 원활하게 호환되는 환경을 구축했다.

디버그-짐을 사용하면 연구자와 개발자는 폴더 경로를 지정하여 디버깅 에이전트의 성능을 평가하기 위해 모든 사용자 지정 저장소에서 작업할 수 있다. 또한 디버그-짐에는 대화형 디버깅에서 LLM 기반 에이전트의 성능을 측정하기 위한 세 가지 코딩 벤치마크가 포함되어 있다: 단순 함수 수준 코드 생성을 위한 Aider, 짧고 수작업으로 만든 버그가 있는 코드 예제를 위한 Mini-nightmare, 그리고 대규모 코드베이스의 포괄적인 이해와 GitHub 풀 리퀘스트 형식의 솔루션이 필요한 실제 코딩 문제를 위한 SWE-bench.

Claude 3.7은 30%, OpenAI o1은 182%... 디버깅 도구로 AI 성능 대폭 향상

연구팀은 디버깅 도구에 접근할 때 LLM이 코딩 테스트에서 더 나은 성능을 보인다는 것을 검증하기 위한 초기 시도로, 간단한 프롬프트 기반 에이전트를 구축하고 eval, view, pdb, rewrite, listdir와 같은 디버그 도구에 대한 접근 권한을 제공했다. 이 에이전트의 백본으로 9개의 다른 LLM을 사용했다.

디버깅 도구를 사용하더라도 이 간단한 프롬프트 기반 에이전트는 SWE-bench Lite 이슈의 절반 이상을 해결하는 경우가 드물었다. 연구팀은 이것이 현재 LLM 훈련 코퍼스에서 순차적 의사 결정 행동(예: 디버깅 추적)을 나타내는 데이터의 부족 때문이라고 생각한다. 그러나 성능 향상이 상당하여(Claude 3.7은 30%, OpenAI o1은 182%, OpenAI o3-mini는 160%의 상대적 성능 향상을 보임) 이것이 유망한 연구 방향임을 입증한다.

FAQ

Q: 디버그-짐(Debug-gym)은 정확히 무엇인가요?

A: 디버그-짐은 AI 코딩 도구가 인간 프로그래머처럼 코드를 디버깅하는 방법을 배울 수 있는 환경입니다. 이 환경은 코드 수정 에이전트에게 중단점 설정, 코드 탐색, 변수 값 출력 등과 같은 능동적인 정보 탐색 행동을 위한 도구에 접근할 수 있게 합니다.

Q: 왜 AI 코딩 도구에 디버깅 능력이 필요한가요?

A: 대부분의 개발자는 코드 작성보다 디버깅에 더 많은 시간을 소비합니다. 현재의 AI 코딩 도구는 코드와 오류 메시지를 기반으로 버그 해결책을 제안할 수 있지만, 솔루션이 실패할 때 추가 정보를 찾지 않아 일부 버그는 해결되지 않습니다. 디버깅 능력을 갖춘 AI는 실제 소프트웨어 엔지니ering 작업을 더 효과적으로 처리할 수 있습니다.

Q: 디버그-짐은 어떻게 AI 코딩 도구의 성능을 향상시키나요?

A: 디버그-짐은 AI 에이전트에게 pdb와 같은 디버깅 도구에 접근할 수 있게 해주어, 코드 실행 중에 추가 정보를 수집하고 더 정확한 수정을 제안할 수 있게 합니다. 초기 실험에서 디버깅 도구에 접근할 수 있는 AI 에이전트는 도구 없이 작동하는 동일한 AI 모델보다 최대 182%의 성능 향상을 보였습니다.

해당 기사에 인용된 논문 원문은 링크에서 확인할 수 있다.

이미지 출처: 마이크로소프트

기사는 클로드와 챗gpt를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

[LPGA 최종순위] 스코틀랜드 여자오픈	연합뉴스
김효주, LPGA 투어 스코틀랜드오픈 준우승…우승은 워드	연합뉴스
최민욱, G투어 5차 대회 우승…KPGA 골프존 오픈 출전권 획득	연합뉴스
장유빈, LIV 골프 영국 대회 2R 공동 33위…선두는 니만	연합뉴스
김주형, PGA 투어 3M오픈 3R 공동 54위…바티아·올레센 선두	연합뉴스
김세영, LPGA 투어 스코틀랜드오픈 3R 공동 2위…선두와 2타 차	연합뉴스
김주형, PGA 3M오픈 유일 생존…안병훈·김시우·임성재 컷 탈락	연합뉴스
장유빈, LIV골프 영국 대회 1R 공동 20위	연합뉴스
김세영, 이틀 연속 이글…LPGA 스코틀랜드 오픈 2R 4위 점프	연합뉴스
[이구동성] 명말은 '제 2의 오공'이 아니었습니다 (1)	게임메카
[오늘의 스팀] 전작만 못하네, 킬링 플로어 3 ‘복합적’ (1)	게임메카
배그 모바일 e스포츠 월드컵 '2025 PMWC' 25일 개최 (1)	게임메카
2025 롤드컵 상세 개최지 공개, 결승전은 중국 청두	게임메카
사이버펑크 도시에서 전투 없이 살아가는 '니발리스'	게임메카
한국어 더빙도 지원, 배틀필드 6 첫 트레일러 공개 (1)	게임메카
[오늘의 스팀] 소울라이크 신작 명말 ‘압도적으로 부정적’	게임메카
전기톱 든 미소녀 '롤리팝 체인소' 신작+애니메이션 발표 (1)	게임메카
당장이라도 구동될 것 같은, 닌텐도 게임보이 '레고' 등장 (1)	게임메카
배틀필드 6 정보 유출, 출시 10월 10일·가격 70유로	게임메카
EFM네트웍스, 공유기 통합 관리 시스템 'ipTIME ICC' 공개 (1)	다나와
부킹닷컴 “여행자 감정까지 자극하는 교묘한 해킹 시도 차단 중”	IT동아
대원씨티에스 'ASUS AP202 ARGB·A32·A32 Plus' 케이스 3종 출시	다나와
몬스타, 정숙함과 강력함의 조화 '허밍' PC 출시	다나와
유민혁·성해인, 블루원배 주니어 골프 선수권 우승	연합뉴스
[기고] AI와 미래 산업기술 - 5. AI 전문가, 이제 선택이 아닌 필수!	IT동아
"그렇게 바쁘면 어제 오지 그랬슈"... 모두가 위험해지는 5대 반칙운전	오토헤럴드
테슬라, 분기 순이익 16% 감소 "판매 부진 및 탄소 크레딧 수입 감소 탓"	오토헤럴드
흔히 얘기하는 선호 사양 NO, 트럭 운전자가 원하는 기능 따로 있다	오토헤럴드
“한국車 산업, 전환 시계 멈췄다…BYD 앞세운 中, 미래차 주도권 장악”	오토헤럴드
[EV 트렌드] "BYD 질주…중국 전기차, 유럽 시장서 벤츠 턱밑까지 추격"	오토헤럴드
GM, 운전자 주행 데이터 불법 판매 혐의로 美 네브래스카주에 피소	오토헤럴드
BYD코리아, 씰 전기차 ‘구형 논란’ 정면 반박…“2026년식 신차 맞다”	오토헤럴드
테슬라를 겨냥한 트럼프의 교묘한 복수 '저승사자' 보냈다	오토헤럴드
'진짜 중국산 전기차, 진짜' BYD SEAL Dynamic AWD	오토헤럴드
현대차, 2025년 2분기 '매출은 증가, 수익성은 둔화'... 영업익 15.8%↓	오토헤럴드
도요타, 인니에서 전기차 생산…中 공세 ‘현지화 전략’으로 대응	오토헤럴드
유럽 신차 시장 주도하는 '친환경차'... 상반기 전기차 점유율 15.6%	오토헤럴드
현대차, 동남아 전략 MPV ‘스타게이저 카르텐즈’… 더 길어지고 더 편해	오토헤럴드
'600만 달러의 아찔한 사고'... 초희귀 RUF 옐로우버드, 운송 도중 추락	오토헤럴드
GM 한국사업장, 자연 재해 지역봉사센터에 쉐보레 긴급구호 차량 지원	오토헤럴드
제네시스, 기술 홍보 영상 '소셜아이어워드 2025' 디지털영상 최고대상	오토헤럴드
기아 유튜브 채널 ‘Kia 사용설명서' 소셜아이어워드 대기업분야 유튜브 대상	오토헤럴드
테슬라 저가형 신차, 결국 '모델 Y' 파생형?…2분기 실적 부진 속 전략 수정	오토헤럴드
KGM, 상반기 영업이익 285억 원 달성...수출 물량 증가로 3년 연속 흑자 기록	오토헤럴드
현대모비스, 2분기 영업익 36.8%↑…전장부품 확대·북미 공장 가동 효과	오토헤럴드
벤츠, 고체 배터리 탑재 전기차 10년 내 출시…주행거리 1000km 도전 (1)	오토헤럴드
제네시스 GV90, 코치 도어 최초 적용…글로벌 전기 SUV 시장 정조준	오토헤럴드
"프랑스에서 만들었다고?" 르노코리아 세닉 E-Tech	오토헤럴드
“바람, 눈, 사막까지 재현… 현대차 남양연구소는 이렇게 미쳤다” (1)	오토헤럴드
기아, 2분기 영업이익 2조 7648억원… HEV 판매 호조 수익성 방어 (1)	오토헤럴드
캐나다 엔브리지, 텍사스에 대규모 태양광 발전 재진출…메타, 생산 전력 전량 구매 (1)	글로벌오토뉴스
중국 오토플라이트, 최대 이륙 중량 2톤급 eVTOL 'V2000CG CarryAll' 납품 성공 (1)	글로벌오토뉴스
토요타, 인도네시아서 'bZ4X' 현지 생산 돌입…전기차 시장 공략 가속화	글로벌오토뉴스
제네시스, ‘소셜아이어워드 2025’ 디지털영상 최고대상 수상	글로벌오토뉴스
BMW, My BMW 앱에 '개인 탄소 발자국' 기능 추가…지속 가능성 정보 제공 강화	글로벌오토뉴스
한국타이어, ‘아이오닉 5 N’ 전용 21인치 교체용 타이어 독점 공급	글로벌오토뉴스
GM 한국사업장, 3년 연속 지역사회에 쉐보레 긴급구호 차량 지원	글로벌오토뉴스
중국 에스볼트, 2025년 4분기 반고체 배터리 시험 생산 돌입…BMW 미니에 공급 예정	글로벌오토뉴스
만 트럭 & 버스, 휴대용 '스마트 충전 큐브' 출시…최대 400kW 충전 지원	글로벌오토뉴스
중국 포니에이아이, 7세대 자율주행 로보택시 베이징 공공도로 테스트 개시…연말까지 1,000대 배치 목표	글로벌오토뉴스
GM, 2025년 2분기 견조한 실적 발표…중국 시장 4년 만에 최고 성장 기록	글로벌오토뉴스
[질의응답] 기아 PV5 테크 데이	글로벌오토뉴스
지리 홀딩 지스페이스, 차오차오모밀리티와 전략적 파트너십 체결…위성 기반 자율주행 서비스 구축	글로벌오토뉴스
만트럭버스코리아, 맵퍼스와 손잡고 ‘데이터 기반 안전운전 캠페인’ 론칭	글로벌오토뉴스
한국수입자동차협회, 창립 30주년 기념 사진 공모전 ‘My Family, My Car’ 최종 수상작 발표	글로벌오토뉴스
기아, ‘Kia 사용설명서’로 소셜아이어워드 2025 대기업 유튜브 대상 수상	글로벌오토뉴스
'언론칭' 선언한 스플릿게이트 2, 재출시는 내년 초	게임메카
[순위분석] 마비노기 모바일의 백어택, 로스트아크 위기	게임메카
로스트아크, 로아온 썸머에서 공개한 '전투 분석기' 추가	게임메카
미소녀 ‘류코짱’ 변신한 류금태 PD, 스타세이비어 소개	게임메카
'수호신' 제작한 프랑스 개발사, K팝 육성 게임 신작 공개	게임메카
아너스톤, 한지 조명으로 감싼 1층 봉안실 공식 개관…문화예술 공간으로 진화	뉴스탭
여름 인테리어 필수품 부상한 암막커튼, 6월 검색량·판매량 동반 상승	뉴스탭
리본카, 2025년 상반기 판매 27% 증가…중고차 시장도 ‘가성비 소비’ 뚜렷	뉴스탭
비트코인 입문서 '나는 오늘도 비트코인을 산다' 출간… “지금 당장 시작해야 할 투자”	뉴스탭
“내 몸은 내가 챙긴다”…스마트 셀프케어 가전 주목	뉴스탭
아이피타임, 수천 개 공유기 원격 관리 가능한 ‘ipTIME ICC’ 공개	뉴스탭
발베니, 부토와 손잡고 ‘궁극의 페어링’ 선보여…위스키와 한식의 새로운 조화	뉴스탭
풀만 앰배서더 서울 이스트폴 공식 개관…서울 동부권 유일 프리미엄 인터내셔널 호텔	뉴스탭
지자체 보조금 확대에 음식물처리기 수요 증가… 친환경·AI 기술 제품 인기	뉴스탭
니콘이미징코리아, ‘부산 야간관광 출사 클래스’ 참가자 모집…부산관광공사와 협업 프로그램	뉴스탭
하이트진로음료, ‘2025 서울바앤스피릿쇼’서 ‘진로 낮카밤바’ 부스 운영	뉴스탭
중복 앞두고 호텔 다이닝부터 간편식까지…조선호텔, 여름 보양식 총출동	뉴스탭
중복·말복 앞두고 한우 보양식 주목…갈비탕·도가니탕·불고기전골 인기	뉴스탭
성해나 ‘혼모노’, 예스24 7월 4주 종합 베스트셀러 1위…4주 연속 1위 기록	뉴스탭
쿠쿠, 집중호우 특별재난지역에 침수 가전 무상 수리·제품 교환 긴급 지원 (1)	뉴스탭
바른치킨, 아동·청소년 위해 치킨 58마리 기부…“맛을 넘어선 따뜻함 실천” (1)	뉴스탭
삼양라면, 한강수영장 푸드존서 인기…‘맵탱’·‘짜짜로니’ 완판 행진	뉴스탭
위뜨, 여름 바캉스 시즌 맞아 ‘파리지엔느의 우아한 바캉스룩’ 제안	뉴스탭
AHC, ‘워터밤 부산 2025’ 공식 후원…현장 부스서 선케어 제품 체험 및 이벤트 진행	뉴스탭
벤큐 조위, ‘펍지 네이션스 컵 2025’ 공식 경기용 모니터로 XL2566X+ 공급	뉴스탭
컴투스 'SWC2025', 26·27일 동남아 예선 진행하며 화려한 개막	게임동아
“에스파 특별공연까지?” 크래프톤의 배틀그라운드 국가대항전 ‘PNC 2025’, 파이널 스테이지 돌입	게임동아
게임위, 인문협과 건전게임문화 조성을 위한 캠페인과 안전점검 실시	게임동아
'엘든링: '황금 나무의 그림자’ 전세계 판매량 천 만장 돌파	게임동아
‘열혈강호 온라인’, 여름 시즌 기념 이벤트 실시	게임동아
2025 LoL 월드 챔피언십, 중국에서 개최된다	게임동아
KLPGA 대회장에도 이동형 스타벅스 커피 매장 들어선다	연합뉴스
주민등록번호 수집한 ‘삼국지 전략판’ 쿠카게임즈, 개인정보위에게 9,370만 원 과징금 받아	게임동아
넥써쓰, '그랑사가 키우기' 개발사 파이드픽셀즈와 파트너십	게임동아

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI, 코드 디버깅 여전히 난관… 마이크로소프트, 디버깅 능력을 갖춘 ‘디버그-짐’ 환경 공개

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI, 코드 디버깅 여전히 난관… 마이크로소프트, 디버깅 능력을 갖춘 ‘디버그-짐’ 환경 공개

공유하기

공감/비공감