비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI 모델 평가 ‘크라우드소싱 벤치마크’에 전문가들 문제 제기… “과장된 결과 홍보 위해 악용돼”

2025.04.24. 13:17:06
조회 수
41

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

테크크런치가 22일(현지 시간) 보도한 내용에 따르면, 테크 업계에서 인공지능 모델의 성능을 평가하는 크라우드소싱 벤치마크 플랫폼에 대한 우려의 목소리가 커지고 있다. 오픈AI(OpenAI), 구글(Google), 메타(Meta) 등 주요 AI 기업들이 의존하는 이러한 평가 방식에 심각한 결함이 있다는 지적이 제기됐다. 최근 몇 년간 주요 AI 연구소들은 챗봇 아레나(Chatbot Arena)와 같은 크라우드소싱 벤치마킹 플랫폼을 활용해 최신 모델의 강점과 약점을 분석해왔다. 이들 기업은 모델이 유리한 점수를 받으면 이를 의미 있는 개선의 증거로 홍보하는 경향이 있다.

워싱턴대학교 언어학 교수이자 '인공지능의 기만(The AI Con)' 공동 저자인 에밀리 벤더(Emily Bender)는 이러한 접근 방식에 문제가 있다고 지적했다. 특히 벤더 교수는 자원봉사자들에게 두 개의 익명 모델에 프롬프트를 입력하고 선호하는 응답을 선택하도록 하는 챗봇 아레나의 방식을 비판했다. "유효한 벤치마크가 되려면 특정한 것을 측정해야 하고, 구성 타당성이 있어야 한다. 즉, 관심 대상인 구성이 잘 정의되어 있고 측정이 실제로 그 구성과 관련이 있다는 증거가 있어야 한다"라고 벤더는 말했다. "챗봇 아레나는 한 출력물을 다른 것보다 선호하는 투표가 실제로 선호도와 상관관계가 있다는 것을 보여주지 못했다."

AI 기업 레산(Lesan)의 공동 창업자이자 분산 AI 연구소(Distributed AI Research Institute)의 연구원인 아스멜라시 테카 하드구(Asmelash Teka Hadgu)는 챗봇 아레나와 같은 벤치마크가 "과장된 주장을 홍보하기 위해" AI 연구소들에 의해 "악용되고 있다"고 주장했다. 하드구는 메타의 라마 4 매버릭(Llama 4 Maverick) 모델과 관련된 최근 논란을 언급했다. 메타는 챗봇 아레나에서 좋은 점수를 얻기 위해 매버릭의 특정 버전을 미세 조정했지만, 실제로는 성능이 떨어지는 버전을 출시했다.

"벤치마크는 정적 데이터셋이 아닌 동적이어야 하며, 여러 독립 기관(조직이나 대학 등)에 분산되어야 한다"라고 하드구는 말했다. 또한 "교육, 의료 및 기타 분야와 같은 특정 사용 사례에 맞게 조정되어야 하며, 이러한 모델을 업무에 사용하는 전문가들에 의해 평가되어야 한다"고 덧붙였다.

하드구와 이전 아스펜 연구소(Aspen Institute)의 신흥 지능형 기술 이니셔티브를 이끌었던 크리스틴 글로리아(Kristine Gloria)는 모델 평가자들이 그들의 작업에 대해 보상을 받아야 한다고 주장했다. 글로리아는 AI 연구소들이 착취적 관행으로 악명 높은 데이터 라벨링 산업의 실수로부터 배워야 한다고 말했다. "일반적으로 크라우드소싱 벤치마킹 과정은 가치가 있으며 시민 과학 이니셔티브를 연상시킨다"라고 글로리아는 말했다. "이상적으로는 데이터의 평가와 미세 조정에 대한 심층적인 관점을 제공하기 위해 추가적인 시각을 가져오는 데 도움이 된다. 그러나 벤치마크는 결코 평가의 유일한 지표가 되어서는 안 된다. 업계와 혁신이 빠르게 진행됨에 따라 벤치마크는 빠르게 신뢰할 수 없게 될 수 있다."

크라우드소싱 레드 팀 캠페인을 운영하는 그레이 스완 AI(Gray Swan AI)의 CEO인 매트 프레드릭슨(Matt Fredrikson)은 자원봉사자들이 "새로운 기술을 배우고 연습하는" 등의 다양한 이유로 그레이 스완의 플랫폼에 끌린다고 말했다. 그러나 그는 공개 벤치마크가 "유료 비공개" 평가의 "대체재가 될 수 없다"는 점을 인정했다.

모델 마켓플레이스 오픈라우터(OpenRouter)의 CEO인 알렉스 아탈라(Alex Atallah)는 모델의 공개 테스트와 벤치마킹만으로는 "충분하지 않다"고 말했다. 이는 UC 버클리의 AI 박사과정 학생이자 챗봇 아레나를 유지하는 LM아레나(LMArena)의 창립자 중 한 명인 웨이린 치앙(Wei-Lin Chiang)도 동의하는 의견이다. "우리는 확실히 다른 테스트의 사용을 지지한다"라고 치앙은 말했다. "우리의 목표는 다양한 AI 모델에 대한 커뮤니티의 선호도를 측정하는 신뢰할 수 있는 공개 공간을 만드는 것이다."

치앙은 매버릭 벤치마크 불일치와 같은 사건이 챗봇 아레나의 설계 결함이 아니라 연구소들이 정책을 오해한 결과라고 말했다. LM아레나는 향후 불일치가 발생하는 것을 방지하기 위한 조치를 취했으며, 여기에는 "공정하고 재현 가능한 평가에 대한 우리의 약속을 강화하기 위한" 정책 업데이트가 포함된다. "우리 커뮤니티는 자원봉사자나 모델 테스터로 여기에 있는 것이 아니다"라고 치앙은 말했다. "사람들이 LM아레나를 사용하는 이유는 우리가 AI와 소통하고 집단적 피드백을 제공할 수 있는 개방적이고 투명한 공간을 제공하기 때문이다. 리더보드가 커뮤니티의 목소리를 충실히 반영하는 한, 우리는 그것이 공유되는 것을 환영한다."

크라우드소싱 AI 벤치마크의 결함이 지적되면서, 앞으로 AI 모델 평가 방식에 대한 더 신중한 접근과 다양한 평가 체계의 필요성이 강조되고 있다. 이는 인공지능 기술의 발전과 함께 더욱 중요한 과제로 부각될 전망이다.

기사의 원문은 링크에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

기사는 클로드와 챗gpt를 활용해 작성되었습니다.





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
2/1
머스크, 정치 논란 속 테슬라 실적 급락 인정…“5월부터 경영 집중” 선언 글로벌오토뉴스
창안자동차, 상하이 모터쇼서 '스마트한 세상 향한 동행' 비전 제시 글로벌오토뉴스
포르쉐, ‘911 스피릿 70’ 공개…1970년대 감성 담은 하이브리드 한정판 글로벌오토뉴스
KG 모빌리티, 토레스 하이브리드·무쏘 EV 전시 행사 개최 글로벌오토뉴스
BMW 모토라드, ‘뉴 R 12 S’ 스페셜 에디션 국내 단 11대 한정 판매 글로벌오토뉴스
렉서스코리아, 고객 전용 라이프스타일 프로그램 ‘로드 앤 메모리’ 봄 시즌 참가자 모집 글로벌오토뉴스
현대차·기아, 인도 IIT와 전기차 배터리 공동연구 추진 글로벌오토뉴스
현대차그룹, 서울 특성화고에 실습용 전기차 기증 글로벌오토뉴스
폭스바겐, ID. 콘셉트 3종 공개…중국 맞춤형 EV 전략 본격 시동 글로벌오토뉴스
BYD, 유럽 전략 수정…현지 인재 영입과 하이브리드 투입으로 반격 노려 글로벌오토뉴스
GM, 내연기관차 변속기 생산 확대…EV 라인 일부 전환 글로벌오토뉴스
샤오미, 전기 SUV 'YU7' 출시 연기설 부인 글로벌오토뉴스
LG그룹, 인도네시아 11조 원 규모 배터리 공급망 구축사업 철수 글로벌오토뉴스
오픈AI, 구글 ‘크롬’ 인수 의향 밝혀... “많은 기업들이 관심 가질 것” AI matters
마다솜, 덕신EPC 챔피언십 기권…"오전 훈련서 목 담 증세" 연합뉴스
AI 모델 평가 ‘크라우드소싱 벤치마크’에 전문가들 문제 제기… “과장된 결과 홍보 위해 악용돼” AI matters
엠게임 ‘귀혼M’, 신규 보스 ‘거대도깨비’ 등장 게임동아
던파 모바일, ‘각성:흑룡 네이저 레이드’ 업데이트 게임동아
라이엇, TFT 신규 콘텐츠 ‘부활: 리믹스 럼블’ 공개 게임동아
엘더스크롤4 오블리비언 리마스터 한국 패싱으로 재조명되고 있는 게임사들 게임동아
이 시간 HOT 댓글!
1/4