
Generative AI and labour productivity: A field experiment on coding
앤트그룹 코드퓨즈 도입과 실험 설계
국제결제은행(BIS)은 중국 앤트그룹이 2023년 9월 도입한 대규모 언어모델(LLM) 코드퓨즈(CodeFuse)의 효과를 분석했다. 실험은 2023년 9월 4일부터 11월 25일까지 총 1,219명의 프로그래머를 대상으로 진행됐다. 두 개 부서 소속 335명의 개발자들이 실험군으로 코드퓨즈를 사용했고, 다른 부서의 884명은 대조군으로 참여했다. 실험군은 9월 4일부터 10월 14일까지 코드퓨즈 사용에 대한 구체적인 지침을 받았다.
실험의 신뢰성을 높이기 위해 두 그룹은 비슷한 경력과 실력을 가진 개발자들로 구성됐다. P5(신입)부터 P8(고급 개발자)까지 네 단계로 나뉜 전문가 수준 분포도 유사했으며, 1년 이상 경력의 시니어 개발자 비율도 실험군 40%, 대조군 44%로 비슷한 수준을 보였다.
생산성 향상 효과 분석
연구진은 2주 단위로 총 7회에 걸쳐 데이터를 수집했다. 코드퓨즈 도입 전 6주간의 코드 생산량을 비교한 결과, 두 그룹이 거의 동일한 수준(실험군 6.46, 대조군 6.44)을 보였다. 코드퓨즈 도입 후에는 코드 생산량이 평균 55% 증가했는데, 이는 깃허브 코파일럿(GitHub Copilot) 도입 시의 56% 향상과 비슷한 수준이다.

생산성 향상의 원인을 세부적으로 분석한 결과, AI가 직접 생성한 코드로 인한 향상이 11~18%, 개발자들의 효율적 시간 활용으로 인한 향상이 36~43%를 차지했다. 다만 10월 초 중국의 공휴일로 인해 실험군의 생산성이 일시적으로 20% 감소하는 현상이 있었다.
경력에 따른 효과 차이

연구진이 경력 1년을 기준으로 주니어와 시니어 개발자를 구분해 분석한 결과, 주니어 개발자의 생산성이 67% 증가한 반면, 시니어 개발자의 생산성 향상은 통계적으로 의미 있는 수준에 미치지 못했다. 8주간의 AI 활용도를 보면, 경력 2년 미만의 개발자들은 하루 평균 19회(주 110회, 총 900회) AI의 도움을 받았지만, 경력 5년 이상의 개발자들은 하루 평균 9회(주 55회, 총 450회) 정도만 AI를 활용했다. 그러나 AI가 제안한 코드를 수용하는 비율은 경력과 관계없이 15~20% 수준으로 유지됐다.
AI의 범용성과 효과성

연구진은 각 개발자의 AI 요청을 작업별로 세밀하게 추적했다. AI가 제안한 코드와 최종 결과물을 비교하는 특별한 AI 분석 도구를 활용했으며, 제안된 코드의 줄 수와 단어 수를 기준으로 수용률을 측정했다. 분석 결과, AI는 한 줄짜리 간단한 명령어부터 여러 줄의 복잡한 프로그래밍까지 다양한 난이도의 작업에서 고르게 좋은 성능을 보였다. 복잡한 작업의 수용률이 단순 작업에 비해 2.1~3.1%만 낮았다는 점이 이를 뒷받침한다.
결론 및 시사점

이번 연구를 통해 생성형 AI가 코딩 생산성을 크게 향상시킬 수 있음이 확인됐다. 특히 경력이 적은 개발자들에게 더욱 효과적이었으며, 시니어 개발자들의 낮은 생산성 향상은 AI의 유용성 부족이 아닌 활용 빈도가 낮기 때문으로 분석됐다. 이는 난이도와 관계없이 AI가 유용한 도구가 될 수 있으며, 개발자의 경력 수준에 따른 맞춤형 도입 전략이 필요함을 시사한다. 이 실험은 코드퓨즈가 전체 개발자에게 공개되기 직전에 종료되어, 실제 현장 적용 시의 효과를 미리 파악할 수 있었다는 점에서도 의미가 있다.
해당 논문의 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기