비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

삼성전자, AI 업무 생산성 측정 지표 '트루벤치' 공개… 실무 환경 적극 반영

2025.09.26. 10:51:34
조회 수
72

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

삼성전자가 기업 업무 환경에서 AI 모델의 실질적인 성능을 평가할 수 있는 자체 벤치마크 '트루벤치(TRUEBench)'를 개발해 공개했다고 25일(한국 시각) 발표했다. 트루벤치는 '신뢰할 수 있는 실제 사용 평가 벤치마크(Trustworthy Real-world Usage Evaluation Benchmark)'의 줄임말로, 삼성전자 DX부문의 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 토대로 개발했다.

기존 AI 벤치마크 대부분이 영어 중심이고 한 번 또는 제한된 횟수의 대화만을 평가해 실제 업무 생산성 성능을 정확히 측정하기 어렵다는 문제를 해결하기 위해 만들어졌다. 실제로 많은 기업이 업무 전반에 AI를 도입하고 있지만, 기존 평가 도구로는 실무에서의 AI 활용도를 제대로 파악하기 힘든 상황이었다.

트루벤치는 10개 카테고리와 46개 업무, 총 2,485개의 세분화된 평가 항목으로 구성됐다. 평가 항목에는 기업에서 자주 사용하는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 실제 오피스 업무에서 활용되는 체크리스트가 반영됐다.

특히 사용자의 짧은 요청부터 최대 2만 자의 긴 문서 요약까지 폭넓은 업무 상황을 다루며, 한 번에 최대 5개 모델을 선택해 비교할 수 있어 다양한 AI 모델의 성능을 한눈에 파악할 수 있다. 응답 결과에 대한 평균 길이 등도 공개해 성능과 효율성 지표를 동시에 비교 가능하다.

트루벤치는 영어, 한국어, 일본어, 중국어, 스페인어 등 총 12개 언어를 지원한다. 글로벌 비즈니스 환경을 고려해 영어와 한국어 등 여러 언어가 혼합된 교차 언어의 번역 기능 평가도 가능하다.

AI 모델 성능 평가의 객관성을 확보하기 위해 AI 교차 검증 시스템도 도입했다. 사람이 구축한 평가 기준을 AI가 검토해 오류나 모순, 불필요한 제약이 없는지 확인하며, 지속적인 교차 검증을 통해 정교한 평가 기준을 완성한다. 이를 통해 주관적 편향을 최소화하고 일관성 있는 결과를 제공한다.

삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 트루벤치의 데이터 샘플과 AI 모델들의 평가 결과가 표시된 리더보드를 공개했다.

해당 기사의 원문은 삼성전자 뉴스룸에서 확인 가능하다.

이미지 출처: 삼성전자




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
4/1
이제 나도 컬래버 맛집? 팰월드, 원스 휴먼과 컬래버 게임메카
헛되지 않은 지옥의 명성, 하데스 2 메타크리틱 95점 게임메카
[오늘의 스팀] 엔씨 ‘호연’ 글로벌 평가, 대체로 부정적 게임메카
AI 대부들의 진짜 속마음... 챗GPT 이후 기술 우선주의 vs 신중론 대립 AI matters
“AI는 도우미일 때만 환영"... 2011~2025년까지 AI에 대한 대중 인식 연구 AI matters
쥐의 ‘뇌’ 학습한 AI, 인간 행동까지 예측한다... 과연 인간의 뇌를 이해한 걸까? AI matters
AI가 만든 정치 성향별 가짜 뉴스, 기존 탐지 프로그램들 절반 수준으로 성능 저하시켜 AI matters
챗GPT 등 AI 모델, 53% 확률로 실험 의도 간파... 사회 실험 결과 신뢰도 ‘빨간불’ AI matters
네오위즈 '신 천상비', '新전광석화' 서버 열고 고속 성장 지원 게임동아
2025 LCK 파이널 27일-28일 진행, LCK 사상 첫 단일 챔피언이 결정된다 게임동아
위메이드, 신작 FPS '블랙 벌처스' 스팀 2차 테스트 돌입 게임동아
컴투스홀딩스, '스피릿 테일즈'에 신규 클래스 '거너' 추가 게임동아
넥슨 ‘메이플스토리M’ 군단장 4종 카오스 난이도, 싱글 모드로 즐길 수 있다 게임동아
L&K ‘붉은보석’, 역대 최장 연휴에 즐기기 좋은 한가위 이벤트 실시 게임동아
"월드 프리미어, 커세어 뱅가드 96 키보드 & 노바블레이드 프로 - 게이밍 콘트롤러", 커세어 게이밍 키보드 발표회 (2) 브레인박스
삼성전자, AI 업무 생산성 측정 지표 '트루벤치' 공개… 실무 환경 적극 반영 AI matters
카카오, 에이전틱 AI 시대 이끌 MCP 플랫폼과 차세대 모델 '카나나 2' 공개 AI matters
MIT 연구진 “정보 탐색하다가 챗봇과 연애하는 사례 늘고 있어” AI matters
“통화 내용 녹음하면 돈 드려요”… 네온, 애플 앱스토어 2위 급상승 AI matters
MS 365, 코파일럿에 클로드 탑재... 기업 업무용 AI 옵션 늘어나 AI matters
이 시간 HOT 댓글!
1/4