비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

통신사용 AI 평가하는 ‘오픈 텔코 LLM 벤치마크’ 공개

2025.03.11. 10:14:26
조회 수
200
5

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기
[IT동아 김예지 기자] 세계 통신사들이 만든 인공지능(AI) 모델을 평가하기 위한 벤치마크가 공개됐다. 지난 2월 25일 세계이동통신사업자연합회(GSMA)가 발표한 ‘GSMA 오픈 텔코 LLM 벤치마크(Open-Telco LLM Benchmarks)’다.

이는 지난 3월 3일부터 나흘간 스페인 바르셀로나에서 열린 세계 최대 모바일 전시회 ‘모바일 월드 콩그레스 2025(MWC 2025)’에 앞서 발표됐다. 이 벤치마크를 주도하는 기업에는 SKT, LG유플러스를 비롯해 도이치 텔레콤, 터키셀, 화웨이 등이 있다.


벤치마크는 하드웨어 및 소프트웨어, 시스템, 기기 등의 성능을 측정 및 비교하기 위한 평가 도구다 / 출처=셔터스톡
벤치마크는 하드웨어 및 소프트웨어, 시스템, 기기 등의 성능을 측정 및 비교하기 위한 평가 도구다 / 출처=셔터스톡


벤치마크는 하드웨어 및 소프트웨어, 시스템, 기기 등의 성능을 측정 및 비교하기 위한 평가 도구다. 이번에 공개된 벤치마크는 기존의 일반적인 AI 평가 도구와 차별된다. GSMA는 통신사의 독특한 요구 사항 및 사용 사례를 반영하도록 설계됐다고 설명한다.

GSMA 오픈 텔코 거대언어모델(LLM) 벤치마크는 기존의 LLM이 통신 관련 작업을 수행하는 데 어려움을 겪는다는 점에서 출발했다. 챗GPT, 라마, 미스트랄, 큐웬 등 AI 모델이 3GPP 사양, ITU 지침 등 표준과 정책, 네트워크 관련 기술 작업을 수행하지 못한다는 것. SKT의 텔벤치(TelBench) 연구에 따르면, 기존 LLM은 통신 고객 서비스와 기술 질의 분야에서 성과가 낮고, 업계별 용어를 다루는 데 어려움을 겪는 것으로 나타났다.


SKT는 텔코 LLM 성능 평가를 위한 텔벤치를 소개했다 / 출처=SKT
SKT는 텔코 LLM 성능 평가를 위한 텔벤치를 소개했다 / 출처=SKT


지난해 SK AI 서밋에서 이선우 SKT 데이터 구축/평가 팀장은 “LLM 상담사 등 상용화 사례를 통해 어떤 기능을 우선으로 학습시켜야 하는지 인사이트를 얻을 수 있다. SKT가 만든 텔벤치는 실제 사례를 기반으로 하는 벤치마크 데이터셋을 통해 포괄적인 성능에 대한 평가가 가능하도록 설계했다”며, “비즈니스 맥락을 이해할 수 있도록 설계한 평가 데이터 ‘텔테스크(TelTask)’와 도메인 기본 역량 및 추론 능력 평가 데이터 ‘텔인스트럭트(TelInstruct)’를 바탕으로 기존 LLM을 평가한 결과, 통신 서비스명, 비즈니스 맥락을 이해하지 못했다”고 말했다.

이러한 배경에서 공개된 오픈 텔코 LLM 벤치마크는 실제 통신 문서 및 규정 준수 시나리오를 기준으로 AI 모델을 평가한다. 프레임워크가 오픈소스로 제공되는 만큼, 통신 분야에서 생성 AI를 도입하는 사업자로부터 의견이 수용된다. 예컨대, 이동통신망 운영, 고객 서비스 자동화, 네트워크 관리 등 주요 업무에서 LLM이 효과적으로 작동하는지 평가한다. 특히 통신사 데이터의 처리와 보안에 대한 적합성, 언어 다양성, 실시간 응답 속도 등도 주요 평가 항목에 포함된다.

덕분에 이는 통신 산업 전반에 걸쳐 LLM의 효율성 및 품질을 측정하는 기준이 될 것으로 기대된다. GSMA는 “통신사가 AI 솔루션을 선택하거나 기존 시스템을 최적화하는 데 중요한 지침 역할을 할 전망”이라고 말했다.


오픈AI의 GPT-4 및 GPT-3.5 터보 모델이 각각 평균 점수 56.96, 51.44를 획득해 가장 높은 순위를 차지했다 / 출처=GSMA 오픈 텔코 LLM 벤치마크
오픈AI의 GPT-4 및 GPT-3.5 터보 모델이 각각 평균 점수 56.96, 51.44를 획득해 가장 높은 순위를 차지했다 / 출처=GSMA 오픈 텔코 LLM 벤치마크


오픈 텔코 LLM 벤치마크는 ▲TeleQnA(통신 도메인 지식 및 기술적 이해) ▲3GPPTdocs 분류(표준 이해 및 문서 구문 분석) ▲MATH500(수학적 추론 및 모델링) ▲FOLIO(논리 및 추론) 등 4가지 핵심 데이터셋을 사용해 AI 모델을 평가했다.

허깅 페이스에 공개된 결과에 따르면, 오픈AI의 GPT-4 및 GPT-3.5 터보 모델이 각각 평균 점수 56.96, 51.44를 획득해 가장 높은 순위를 차지했다. 그러나 통신 표준 이해에서는 어려움이 있었다. 또한 메타의 라마 3-8B-인스트럭트 모델은 평균 점수 40.38로 통신 도메인 점수는 높았지만, 역시 표준 이해 부문에서 점수가 낮았다. 이외에 미스트랄, 마이크로소프트 Phi-2 등 소형 모델은 20점대의 낮은 점수를 기록해 통신 AI에 적합하지 않다는 결과가 나왔다.

향후 오픈 텔코 LLM 벤치마크는 4가지 데이터셋을 넘어 ▲네트워크 문제 해결 ▲에너지 효율성 ▲안전 ▲사업자 중심 사용 사례 등 주요 산업 우선순위에 따라 AI 모델을 평가함으로써 실제 통신 과제를 해결한다. 이는 오픈소스로 제공돼 폐쇄적·독점적 AI 평가 도구와 달리 공정성을 확보, 지속 개선해 나간다는 계획이다.

한편, 여기에는 몇 가지 우려도 공존한다. 먼저 AI 모델을 평가하기 위한 고품질의 데이터가 충분하지 않아 효과적인 활용이 어려울 수 있다는 점이다. 또한 평가 결과에서 높은 점수를 받더라도 실제 사례에서 발휘되는 성능과 차이를 보일 수 있다. 결국 오픈 텔코 LLM 벤치마크의 출범은 통신 산업에서 AI 모델의 성능을 개선을 위한 중요한 걸음이지만, 현실적인 접근 방식을 통해 한쪽으로 치우치지 않도록 주의하면서 동시에 꾸준한 성능 향상이 필요해 보인다.

IT동아 김예지 기자 (yj@itdonga.com)

]]>

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
위쳐들의 아버지, 베스미어 성우 윌리엄 로버츠 별세 게임메카
휴대용 기기 공개하나? Xbox 쇼케이스 6월 9일 개최 게임메카
"성폭력 게임 철회하라!" 영국 여성 단체 스팀에 게임 삭제 요구 게임동아
비피엠지, 신규 서비스 및 일본 진출로 블록체인 토큰 생태계 확장 본격화 게임동아
크래프톤, '배틀그라운드' 신규 캐릭터 업그레이드 시스템 '컨텐더' 공개 게임동아
무선 게이밍 기어로 게임 즐기려면 ‘지연 시간’이 중요하다 IT동아
2028 LA 올림픽, 골프 혼성 단체전 포함한 22개 종목 추가(종합) 연합뉴스
'승리의 여신: 니케'에 신규 SSR 캐릭터 크러스트 등장! 게임동아
엔씨 리니지M, ‘말하는섬&윈다우드’ 첫 월드 공성전 진행! 게임동아
크래프톤 '썬더 티어 원' 무료 전환 및 환불 발표 게임동아
넷마블 '레이븐2' 길드 챔피언십' 4월 26일 국내 개최 게임동아
최고와 함께하라 슈퍼센트, 상금 30억 상당 '제4회 슈퍼센트 게임 챌린지' 개최 게임동아
트리플, AI 기반 홈 화면 전면 개편... 150만 리뷰 데이터로 초개인화 여행 제안 뉴스탭
임성재, KPGA 새 역사 쓰러 출격…우리금융 챔피언십 3연패 도전 연합뉴스
모바일 게임 다운로드 줄고 결제는 늘었다…중동·중남미가 새 기회 뉴스탭
옥천군, 향수CC 도시계획시설 결정…"농업보호구역 등 배제" 연합뉴스
MZ세대 중심의 ‘미닝아웃’ 확산… 지속가능한 패션 브랜드 각광 뉴스탭
박보영과 함께하는 제주삼다수, ‘믿음’과 ‘청정’의 가치를 노래하다 뉴스탭
최등규·최정훈 부자, 아시아 파워 골프인 3년 연속 선정 연합뉴스
'웰컴투어'에 9.99달러 책정한 닌텐도.. '설명서 보려면 돈 내세요' 게임동아
이 시간 HOT 댓글!
1/4