AI 모델 평가 ‘크라우드소싱 벤치마크’에 전문가들 문제 제기… “과장된 결과 홍보 위해 악용돼” : 다나와 DPG는 내맘을 디피지

테크크런치가 22일(현지 시간) 보도한 내용에 따르면, 테크 업계에서 인공지능 모델의 성능을 평가하는 크라우드소싱 벤치마크 플랫폼에 대한 우려의 목소리가 커지고 있다. 오픈AI(OpenAI), 구글(Google), 메타(Meta) 등 주요 AI 기업들이 의존하는 이러한 평가 방식에 심각한 결함이 있다는 지적이 제기됐다. 최근 몇 년간 주요 AI 연구소들은 챗봇 아레나(Chatbot Arena)와 같은 크라우드소싱 벤치마킹 플랫폼을 활용해 최신 모델의 강점과 약점을 분석해왔다. 이들 기업은 모델이 유리한 점수를 받으면 이를 의미 있는 개선의 증거로 홍보하는 경향이 있다.

워싱턴대학교 언어학 교수이자 '인공지능의 기만(The AI Con)' 공동 저자인 에밀리 벤더(Emily Bender)는 이러한 접근 방식에 문제가 있다고 지적했다. 특히 벤더 교수는 자원봉사자들에게 두 개의 익명 모델에 프롬프트를 입력하고 선호하는 응답을 선택하도록 하는 챗봇 아레나의 방식을 비판했다. "유효한 벤치마크가 되려면 특정한 것을 측정해야 하고, 구성 타당성이 있어야 한다. 즉, 관심 대상인 구성이 잘 정의되어 있고 측정이 실제로 그 구성과 관련이 있다는 증거가 있어야 한다"라고 벤더는 말했다. "챗봇 아레나는 한 출력물을 다른 것보다 선호하는 투표가 실제로 선호도와 상관관계가 있다는 것을 보여주지 못했다."

AI 기업 레산(Lesan)의 공동 창업자이자 분산 AI 연구소(Distributed AI Research Institute)의 연구원인 아스멜라시 테카 하드구(Asmelash Teka Hadgu)는 챗봇 아레나와 같은 벤치마크가 "과장된 주장을 홍보하기 위해" AI 연구소들에 의해 "악용되고 있다"고 주장했다. 하드구는 메타의 라마 4 매버릭(Llama 4 Maverick) 모델과 관련된 최근 논란을 언급했다. 메타는 챗봇 아레나에서 좋은 점수를 얻기 위해 매버릭의 특정 버전을 미세 조정했지만, 실제로는 성능이 떨어지는 버전을 출시했다.

"벤치마크는 정적 데이터셋이 아닌 동적이어야 하며, 여러 독립 기관(조직이나 대학 등)에 분산되어야 한다"라고 하드구는 말했다. 또한 "교육, 의료 및 기타 분야와 같은 특정 사용 사례에 맞게 조정되어야 하며, 이러한 모델을 업무에 사용하는 전문가들에 의해 평가되어야 한다"고 덧붙였다.

하드구와 이전 아스펜 연구소(Aspen Institute)의 신흥 지능형 기술 이니셔티브를 이끌었던 크리스틴 글로리아(Kristine Gloria)는 모델 평가자들이 그들의 작업에 대해 보상을 받아야 한다고 주장했다. 글로리아는 AI 연구소들이 착취적 관행으로 악명 높은 데이터 라벨링 산업의 실수로부터 배워야 한다고 말했다. "일반적으로 크라우드소싱 벤치마킹 과정은 가치가 있으며 시민 과학 이니셔티브를 연상시킨다"라고 글로리아는 말했다. "이상적으로는 데이터의 평가와 미세 조정에 대한 심층적인 관점을 제공하기 위해 추가적인 시각을 가져오는 데 도움이 된다. 그러나 벤치마크는 결코 평가의 유일한 지표가 되어서는 안 된다. 업계와 혁신이 빠르게 진행됨에 따라 벤치마크는 빠르게 신뢰할 수 없게 될 수 있다."

크라우드소싱 레드 팀 캠페인을 운영하는 그레이 스완 AI(Gray Swan AI)의 CEO인 매트 프레드릭슨(Matt Fredrikson)은 자원봉사자들이 "새로운 기술을 배우고 연습하는" 등의 다양한 이유로 그레이 스완의 플랫폼에 끌린다고 말했다. 그러나 그는 공개 벤치마크가 "유료 비공개" 평가의 "대체재가 될 수 없다"는 점을 인정했다.

모델 마켓플레이스 오픈라우터(OpenRouter)의 CEO인 알렉스 아탈라(Alex Atallah)는 모델의 공개 테스트와 벤치마킹만으로는 "충분하지 않다"고 말했다. 이는 UC 버클리의 AI 박사과정 학생이자 챗봇 아레나를 유지하는 LM아레나(LMArena)의 창립자 중 한 명인 웨이린 치앙(Wei-Lin Chiang)도 동의하는 의견이다. "우리는 확실히 다른 테스트의 사용을 지지한다"라고 치앙은 말했다. "우리의 목표는 다양한 AI 모델에 대한 커뮤니티의 선호도를 측정하는 신뢰할 수 있는 공개 공간을 만드는 것이다."

치앙은 매버릭 벤치마크 불일치와 같은 사건이 챗봇 아레나의 설계 결함이 아니라 연구소들이 정책을 오해한 결과라고 말했다. LM아레나는 향후 불일치가 발생하는 것을 방지하기 위한 조치를 취했으며, 여기에는 "공정하고 재현 가능한 평가에 대한 우리의 약속을 강화하기 위한" 정책 업데이트가 포함된다. "우리 커뮤니티는 자원봉사자나 모델 테스터로 여기에 있는 것이 아니다"라고 치앙은 말했다. "사람들이 LM아레나를 사용하는 이유는 우리가 AI와 소통하고 집단적 피드백을 제공할 수 있는 개방적이고 투명한 공간을 제공하기 때문이다. 리더보드가 커뮤니티의 목소리를 충실히 반영하는 한, 우리는 그것이 공유되는 것을 환영한다."

크라우드소싱 AI 벤치마크의 결함이 지적되면서, 앞으로 AI 모델 평가 방식에 대한 더 신중한 접근과 다양한 평가 체계의 필요성이 강조되고 있다. 이는 인공지능 기술의 발전과 함께 더욱 중요한 과제로 부각될 전망이다.

기사의 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗gpt를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

4인 협동 지원, '슬더스 2' 3월 6일 앞서 해보기	게임메카
드래곤소드 전액환불 조치, 하운드13 vs 웹젠 갈등 심화	게임메카
틱톡에 치이고 이용률은 떨어지고, 글로벌 게임업계 이중고 (1)	게임메카
메이저나인 '아우터플레인' 오사카, 도쿄 투어. 일본 이용자들과 직접 소통	게임동아
웹젠 R2, 오리지널 리부트 서버 캐릭터명 선점 이벤트 진행	게임동아
[동아게임백과사전]출시 연기한 게임치고 제대로 된 게임 없다고? 아닐걸? (1)	게임동아
넵튠 님블뉴런 '이터널리턴', '페르소나5 더 로열'과 컬래버레이션 진행	게임동아
드림에이지 ‘알케론’, 신규 영상 2종 공개. 스팀 체험판 다운로드 시작	게임동아
명조 X 컴포즈커피 세미팝업 정식 오픈	게임동아
크릿벤처스USA, 웹3 기반 팬이코노미 플랫폼 ‘밋48’에 투자	게임동아
[겜덕연구소] 패미콤, 메가드라이브, PC엔진.. 게임기 어댑터 극성 총정리! (1)	게임동아
워게이밍, 스팀 배급사 할인 실시 "최대 90% 혜택 제공"	게임동아
블리자드, '오버워치' 1시즌 '정복' 특별 이벤트 진행	게임동아
최대 80% 저렴하게! 스토브, 2P 게임즈 특별 할인행사 진행	게임동아
‘초월의 소환서’ 받을 기회! 컴투스 ‘서머너즈 워’ 미션 이벤트 실시	게임동아
엠게임, 2025년 매출 917억원. 영업이익 176억으로 마무리	게임동아
[한주의게임소식] 2주 연속 상승한 ‘니케’와 벌써 흥행작 대열에 오른 '바하: 레퀴엠'	게임동아
넥슨, 패트릭 쇠더룬드 '회장' 선임 전격 발표	게임동아
엔씨, 타임 서바이벌 슈터 ‘타임 테이커즈’ CBT 일정 공개	게임동아
8천여 명 몰렸다... 네오위즈 ‘피망 뉴맞고’ 오프라인 팝업 성료 (1)	게임동아
[겜덕연구소] 설정 너무한데? 깜짝 놀랄 반전을 가진 게임 주인공의 정체!! (1)	게임동아
[겜덕연구소] 갑부집 아들 게임기 네오지오의 새로운 게임기 MVSX, 아 갈등된다	게임동아
SOOP, ASL 시즌 21 본선 앞두고 ‘ASL 시즌 오픈’ 개최	게임동아
소니, ‘완다와 거상’ 리메이크 스튜디오 블루포인트 폐쇄... 약 70명 감축	게임동아
라인게임즈, 방치형 신작 PC 게임 ‘햄스터 톡’ 최초 공개	게임동아
'인왕3(Nioh 3) 판매량 100만 장 돌파...시리즈 누적 1000만	게임동아
미국 로스앤젤레스, 로블록스를 상대로 소송... “미성년자 보호 소홀하다”	게임동아
사우디 자본 등에 업은 스코플라이, ‘픽셀 플로우’ 개발사 1조 4,493억 원에 인수	게임동아
넷마블 '나 혼자만 레벨업:어라이즈,' '포트나이트'와 컬래버 진행 (1)	게임동아
AI뉴스 진짜 난리난 Seedance 2.0, Gemini 3 Deep, GPT5.3CodexSpark, GLM5, M2.5, Simile, AI여친 Clawra 등 동영상 있음	조코딩 JoCoding
서린씨앤아이, 일러스타 페스 10 예스톤 부스에 협찬 및 이벤트 진행 (1)	다나와
디앤디컴 ‘바이오하자드 레퀴엠’ 엔비디아 게임 번들 프로모션 진행	다나와
1stPlayer, 일러스타 페스 10서 YESTON 콜라보 부스 오픈	다나와
“7세 이하 조식 공짜”…금호리조트, 가족 여행객 잡기 승부수	뉴스탭
RTX 5090 사면 ‘레지던트이블 레퀴엠’이 공짜…게인워드, 블랙웰 번들 프로모션 돌입	뉴스탭
“ASRock 메인보드 사면 4년 보증”…디앤디컴, 한정 프로모션 시즌2 돌입 (1)	뉴스탭
“급찐급빠 잡아라”…하림, 해동 없는 냉장 닭가슴살로 포스트 설 시장 정조준	뉴스탭
구글(Google) 제미나이(Gemini) 앱, AI 음악 생성 기능 품었다…"텍스트 한 줄이나 폰 앨범 동영상으로 30초 트랙을”	AI matters
'아이폰 자동차' 애플 카플레이 새 버전에 영상 스트리밍 기능 추가	오토헤럴드
현대차·기아 전기차 ICCU 결함 글로벌 시장 확산, 신뢰도에 ‘빨간불’	오토헤럴드
'3000만원대 프리미엄 전기차' 볼보 EX30 파격 인하, 아이오닉 5보다 저렴	오토헤럴드
포르쉐코리아, 미래 세대 ‘꿈’을 위한 ‘포르쉐 두 드림’ 10주년 맞아	오토헤럴드
독일 프리미엄3사 중국시장에서 판매 하락과 가격 인하	글로벌오토뉴스
토털에너지스-구글, 텍사스서 1GW 규모 태양광 전력 공급 계약 체결	글로벌오토뉴스
포드 CEO 짐 팔리, 트럼프 행정부에 중국과 합작 파격 제안	글로벌오토뉴스
프랑스, 사회적 임대 열풍에 전기차 점유율 25% 돌파	글로벌오토뉴스
테슬라 FSD, 이번엔 호수로 돌진, 무감독 주행 아직 멀었나	글로벌오토뉴스
아우디, 디젤 엔진 부활과 물리 버튼의 귀환	글로벌오토뉴스
샤오펑, VLA 2.0 앞세워 로보택시 출사표	글로벌오토뉴스
중국 장청자동차, 유럽 시장 재 도전 선언… 2030년 연 30만 대 생산 공장 건설	글로벌오토뉴스
폭스바겐코리아, 2026년 ‘Feel & Drive’ 시승 캠페인 전개	글로벌오토뉴스
페라리, 엔초 페라리 박물관서 “최고의 걸작 – 전설적인 뮤지션과 그들의 페라리” 전시 개최	글로벌오토뉴스
볼보자동차코리아, 순수 전기 SUV ‘EX30’ 및 ‘EX30CC’ 가격 파격 인하	글로벌오토뉴스
한국타이어 후원, 월드 랠리 챔피언십 ‘스웨덴 랠리’ 성료	글로벌오토뉴스
포르쉐코리아, ‘포르쉐 두 드림’ 10년차 맞아 사회공헌 캠페인 강화	글로벌오토뉴스
뉴욕주 로보택시 도입 제안 철회, 웨이모 사업 확장 제동	글로벌오토뉴스
르노그룹, 2025년 영업이익 15% 감소	글로벌오토뉴스
폴스타, 차세대 전기차에 물리 버튼 다시 살린다	글로벌오토뉴스
[생활 속 IT] 카카오톡, 영상 만들기 기능 도입···어디까지 가능할까	IT동아
AI가 지키는 도시 안전…컴퓨터 비전 기술로 ‘사고 이전 대응’ 시대 연다	IT동아
올림픽에 적용된 AI 기술, 무엇이 있을까	IT동아
[위클리AI] 구글·카카오, 손 잡았다 "진보된 일상 경험 제공" 외	IT동아
블랙으로 돌아온 성남, 2026시즌 유니폼 전격 공개…엄브로와 전략적 협업 결실	뉴스탭
RGB 끝판왕 총출동…클레브 DDR5 인기 라인업, 2월 28일까지 한정 특가	뉴스탭
100년의 시간을 걷다…파네라이, 피렌체에서 시작되는 단 4일간의 ‘전설 체험’	뉴스탭
주방용품 ‘가성비+내구성’ 시대…냄비·프라이팬 매출 30%↑	뉴스탭
활동비 최대 월 30만 원…MSI 노트북 서포터즈 17기 모집 시작	뉴스탭
듀먼, 2월 브랜드데이 ‘듀듀데이’ 개최…자연화식 최대 74% 할인	뉴스탭
“딸기 타워에 스파클링 와인까지”…서울드래곤시티, 33층에서 즐기는 봄 한정 다이닝 (1)	뉴스탭
“최대 40만원+7만원 카드 할인”… 크로스오버, 2월 ‘빡세일’로 역대급 혜택	뉴스탭
엔비디아·메타, ‘수백만대 GPU’ 동맹…AI 인프라 판도 바꾼다	뉴스탭
“봄 출사 제대로 배운다”…니콘스쿨, 야외 실습 6개 과정 전격 확대	뉴스탭
접이식 전기자전거부터 티니핑 자전거까지…삼천리자전거, 2026년 100종 풀 라인업 공개	뉴스탭
“144Hz IPS 게이밍 모니터가 이 가격?” 기가바이트 GS24F14A, G마켓 빡세일 전격 등장	뉴스탭
텍스트 한 줄로 30초 명곡 완성…구글 ‘리리아 3’ 제미나이 앱 전격 탑재	뉴스탭
1020은 만화, 4050은 재테크…연휴 베스트셀러 판도 갈렸다	뉴스탭
디앤디컴, 애즈락 메인보드 ‘최대 4년 보증 연장 프로그램 시즌2’ 진행 (1)	다나와
서린씨앤아이, 프랙탈디자인 스케이프 증정 이벤트 진행	다나와
대원씨티에스 ‘나의 ASRock 이야기 챌린지 Season 2’ 리뷰 이벤트 진행	다나와
'드래곤소드' 계약 해지 논란, 하운드13과 웹젠 엇갈린 입장 내놔	게임동아
미소녀와 배틀로얄의 결합! 스팀 넥스트 페스트 출격하는 ‘페이트 트리거’	게임동아
카카오게임즈, SM엔터 IP 신작 슴미니즈 2월 25일 출시 확정	게임동아
넷마블 '세븐나이츠 리버스', 신규 영웅 ‘라드그리드’ 등 업데이트	게임동아
영화에서 게임으로 이적한 배우들 (1)	게임동아
봄바람 타고 온 디스커버리 키즈 26SS…컬러·기능성 모두 잡았다	뉴스탭
씰리침대, 예비 신혼부부 겨냥 ‘웨딩 페스티벌’ 개최… 빅사이즈 매트리스 중심 특별 혜택	뉴스탭
“드라이부터 스타일링까지 한 번에”…쿠쿠, 올인원 ‘글램 드라이기’로 홈뷰티 공략	뉴스탭
여의도 메리어트, 3월 7·8일 프리미엄 돌잔치 페어 개최…2026년 5성급 최신 트렌드 공개	뉴스탭
“누적 1만5천대 돌파” 만트럭, 25주년 원년 맞아 2026 전략 공개	뉴스탭
넷마블, 3월 '스톤에이지'와 '일곱 개의 대죄'로 대공세	게임동아
그라비티, LINE 용 ‘RAGNAROK ORIGINAL EMOTION Ver.02’ 이모티콘 출시	게임동아
스마일게이트 ‘에픽세븐’, PVE 콘텐츠 ‘오르비스 결투제’와 신규 영웅 ‘루이자’ 업데이트!	게임동아
‘승리의 여신: 니케’와 손잡은 애니메이트 카페.. 롯데잠실점과 부산점 오픈 (1)	게임동아
스마일게이트 희망스튜디오, 한국가이드스타 3년 연속 전 부문 만점	게임동아
'음료 업체 먼저 출원' 테슬라 사이버캡, 상표권 분쟁에 사용 못할 수도	오토헤럴드
'미국 얘기인데 듣기만 해도 공포' 벤츠 EQB '열폭주 화재우려' 리콜	오토헤럴드
[EV 트렌드] 혹한 속 전기차 주행거리 '반토막' WLTP 최대 46% 감소	오토헤럴드
'정의선과 타이거우즈' 美 PGA 대회 타이틀 스폰서 2030년까지 동행	오토헤럴드
폴스타, 3년간 4종 ‘역대 최대 규모의 신차 공세'로 볼륨 확장에 주력	오토헤럴드
[EV 트렌드] 테슬라, 사이버캡 첫 양산차 공개 '2027년 출시 재확인'	오토헤럴드

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI 모델 평가 ‘크라우드소싱 벤치마크’에 전문가들 문제 제기… “과장된 결과 홍보 위해 악용돼”

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

AI 모델 평가 ‘크라우드소싱 벤치마크’에 전문가들 문제 제기… “과장된 결과 홍보 위해 악용돼”

공유하기

공감/비공감