"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격 : 다나와 DPG는 내맘을 디피지

메릴랜드 대학교와 UMass Amherst 연구진이 26개 언어로 대형 언어 모델의 긴 맥락 처리 능력을 평가한 원룰러(OneRuler) 벤치마크를 공개했다. 해당 연구 논문에 따르면, 한국어는 26개 언어 중 22위로 하위권에 머물렀으며, 맥락 길이가 늘어날수록 성능 저하가 더욱 심각해지는 것으로 나타났다. 폴란드어가 1위를 차지한 가운데, 영어조차 6위에 그쳤다는 점에서 언어별 성능 격차가 예상을 뛰어넘는다.

한국어 성능 22위... 폴란드어는 1위

연구진이 6만 4천~12만 8천 토큰 길이의 긴 맥락 과제를 평가한 결과, 한국어는 26개 언어 중 22위를 기록했다. 원룰러 벤치마크의 니들 인 헤이스택(NIAH) 과제 평가에서 한국어는 중국어, 타밀어, 스와힐리어, 세소토어와 함께 하위권에 속했다. 흥미롭게도 폴란드어가 평균 정확도 88%로 1위를 차지했고, 영어는 83.9%로 6위에 머물렀다. 중국어는 62.1%로 하위 4위를 기록했다. 대부분의 AI 모델이 영어와 중국어 데이터로 주로 학습된다는 점을 고려하면 이는 매우 의외의 결과다. 상위 10개 언어는 대부분 슬라브어, 로망스어, 게르만어 계통으로 위키피디아 문서 수가 많고 라틴 문자를 사용하는 언어들이었다.

맥락 8K→128K로 늘면 언어 격차 3배 확대

맥락 길이가 8천 토큰일 때 상위 5개 언어와 하위 5개 언어 간 정확도 차이는 11%에 불과했다. 그러나 맥락이 12만 8천 토큰으로 늘어나자 이 격차는 34%로 세 배 이상 확대됐다. 한국어는 위키피디아 문서 수 기준으로 약 70만 개를 보유해 공식적으로는 저자원 언어로 분류되지 않지만, 실제 평가에서는 하위권에 머물렀다. 논문에서 저자원 언어로 정의한 힌디어, 세소토어, 스와힐리어, 타밀어는 모두 하위 6위 안에 포함됐으며, 짧은 맥락에서도 어려움을 겪었고 긴 맥락에서는 성능 저하가 더욱 두드러졌다. 연구진은 이러한 현상이 긴 맥락 확장 학습 데이터에서 비영어권 언어가 부족하기 때문으로 추정한다. 제미나이 1.5 플래시(Gemini 1.5 Flash)와 큐엔 2.5 72B(Qwen 2.5 72B)만이 12만 8천 토큰에서도 비교적 우수한 성능을 보였다.

한국어 지시문 사용하면 성능 20% 하락

연구진은 지시문과 맥락의 언어가 다른 교차 언어 시나리오를 영어, 폴란드어, 한국어 3개 언어로 테스트했다. 영어 맥락에 한국어 지시문을 사용하면 6만 4천 토큰 기준 평균 정확도가 91%에서 71%로 20% 하락했다. 반대로 한국어 맥락에 영어 지시문을 사용하면 12만 8천 토큰 기준 정확도가 61%에서 77%로 향상됐다. 폴란드어 지시문을 사용했을 때도 유사하게 향상됐다. 이는 지시 언어의 선택이 전체 성능에 최대 20%의 차이를 만들 수 있음을 보여준다. 현재로서는 한국어 지시문보다 영어 지시문을 사용하는 것이 더 나은 결과를 제공할 수 있다.

'답이 없다' 선택지만 추가해도 o3-미니 성능 32% 급락

연구진은 기존 니들 인 헤이스택(NIAH) 과제에 '답이 존재하지 않을 수 있음'이라는 선택지를 추가했다. 이 간단한 변경만으로 o3-미니-하이(o3-mini-high) 모델의 경우 영어 기준 12만 8천 토큰에서 정확도가 32% 하락했다. 모든 모델이 답이 실제로 존재함에도 불구하고 '없음'으로 잘못 응답하는 경우가 빈번했다. 특히 o3-미니-하이는 다른 모델들에 비해 '없음' 오답을 훨씬 더 많이 생성했다. 제미나이 1.5 플래시도 일부 고자원 언어에서 상당한 수의 '없음' 오류를 보였다. 중국어에 특화된 큐엔(Qwen) 모델도 중국어 단일 NIAH 과제에서 다수의 '없음' 오류를 생성했다.

단어 빈도 집계는 모든 모델이 실패

단어 빈도 추출(Common Word Extraction, CWE) 과제에서는 모든 모델이 고전했다. 가장 빈번한 단어 10개를 찾는 쉬운 버전에서 영어 평균 정확도는 31.5%에 불과했다. 빈도 차이를 줄인 어려운 버전에서는 모든 모델이 1% 미만의 정확도를 기록했다. 라마 3.3 70B(Llama 3.3 70B), 큐엔 2.5 72B, 제미나이 1.5 플래시 세 모델만이 8천 토큰에서 80% 이상의 성능을 달성했지만, 맥락 길이가 늘어나면서 급격히 하락했다. o3-미니-하이와 딥시크-R1(Deepseek-R1)은 이 과제에서 설정된 최대 출력 토큰 한도를 초과하는 경우가 빈번했으며, 틀린 답변을 생성할 때 정답보다 훨씬 더 많은 추론 토큰을 사용했다.

다국어 AI의 한계

이번 연구는 현재 대형 언어 모델들이 다국어, 특히 비영어권 언어의 긴 맥락 처리에서 상당한 한계를 가지고 있음을 보여준다. 한국어를 포함한 많은 언어가 짧은 맥락에서는 비교적 괜찮은 성능을 보이지만, 실제 업무에서 자주 필요한 긴 문서 처리에서는 크게 뒤처진다. 연구진은 원룰러 벤치마크 공개를 통해 다국어 및 교차 언어 긴 맥락 학습 파이프라인 개선 연구가 활성화되기를 기대한다고 밝혔다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 한국어가 이렇게 낮은 성능을 보이는 이유는 무엇인가요?

A. 연구진은 긴 맥락 확장 학습 데이터의 부족을 주요 원인으로 지목했습니다. 대부분의 AI 모델은 영어와 중국어를 중심으로 학습되며, 한국어는 위키피디아 문서 수가 약 70만 개로 중간 수준이지만 긴 맥락 학습에는 충분한 데이터가 제공되지 않은 것으로 보입니다. 긴 맥락 처리 능력이 언어 간에 쉽게 전이되지 않는다는 점도 영향을 미쳤습니다.

Q. 니들 인 헤이스택(NIAH) 과제는 무엇인가요?

A. 긴 문서 속에 특정 정보('바늘')를 숨기고 AI 모델이 이를 찾아낼 수 있는지 테스트하는 과제입니다. 실제 문서 요약이나 질의응답 과제를 평가하기 어렵고 비용이 많이 들기 때문에, 긴 맥락 처리 능력을 측정하는 대용 지표로 널리 사용됩니다. 한국어 계약서에서 특정 조항을 찾거나, 긴 회의록에서 결정 사항을 추출하는 실무 작업과 유사합니다.

Q. 왜 영어보다 폴란드어가 더 높은 성능을 보였나요?

A. 명확한 이유는 밝혀지지 않았지만, 위키피디아 문서 수가 많고 라틴 문자를 사용하는 슬라브어, 로망스어, 게르만어 계통 언어들이 상위권을 차지했습니다. 단순한 데이터양보다는 언어 계통, 사용 문자, 그리고 긴 맥락 학습 파이프라인에서의 언어별 처리 방식이 복합적으로 영향을 미친 것으로 추정됩니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: One ruler to measure them all: Benchmarking multilingual long-context language models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

명조 X 컴포즈커피 세미팝업 프리오픈 성료	게임동아
불안감 커지는 한미 간 통상 불확실성, 車 업계 특별법 조속 제정 촉구 (1)	오토헤럴드
독일인 75% "구매 의향 없다" 수치로 확인된 테슬라 브랜드 이미지 급락 (1)	오토헤럴드
지난해 韓시장 269% 폭풍 성장 후 폴스타가 꺼내든 다음 카드 '초고성능'	오토헤럴드
[LCK] DN 수퍼스와 DRX의 대반란 속 '혼돈 속 LCK 컵'	게임동아
엄마-아빠도 게이머였다…넷플릭스 다큐멘터리가 선사하는 추억 여행 화제[게임 인더스트리] (1)	게임동아
바이오하자드 레퀴엠, "그레이스로 도망친 적도, 레온으로 쓰러뜨릴 수 있다" (1)	게임동아
크래프톤, 3년간 1조 원 이상 주주환원 추진	게임동아
캐킷 ‘럽플레이스’, 설맞이 ‘만복 대축제’ 대규모 업데이트	게임동아
웹젠, '드래곤소드' 신규 캐릭터와 콘텐츠 확장에 천장까지 완화	게임동아
엔씨 ‘리니지 클래식’, 이틀 만에 누적 접속자 50만, 최대 동접 18만 돌파	게임동아
엔씨 '리니지 클래식', PC방 순위 4위 등극.. 자동 플레이 시스템 도입 검토	게임동아
그라비티, 신작 ‘라그나로크 오리진 클래식’ 홍콩 지역 CBT 참가자 모집	게임동아
크래프톤, 2025년 연간 매출 3조 3,266억, 영업이익 1조 544억	게임동아
‘조선협객전 클래식’, 온라인 쇼케이스 통해 상세 정보 공개	게임동아
타일 한 칸에서 시작된 작은 왕국. '드랍 더치' 개발한 슬리피 밀 스튜디오	게임동아
[롤짤] 1만 골드차 역전까지, LCK 친정팀 파괴 메타	게임메카
아이작의 번제 개발자 신작 ‘뮤제닉’ 메타크리틱 90점 (1)	게임메카
문화적 공로, 33 원정대 개발진 전원 기사 작위 받았다	게임메카
공포게임 아닙니다, '토마스와 친구들' 기반 신작 발표	게임메카
메모리 부족, 엔비디아 올해 GPU 신제품 출시 안 한다?	게임메카
레이싱게임 '레이시티' 스팀 페이지 오픈, 진위 여부 화제	게임메카
3편 직후 이야기, 발더스 게이트 TV 드라마 발표 (1)	게임메카
패러독스 CEO “DLC 폭격에 대한 부담감 잘 알고 있다”	게임메카
[오늘의 스팀] 확률 없는 턴제 전략 신작 ‘메너스’ 출시	게임메카
[이구동성] 짜잔~ 2 라는 건 없군요	게임메카
3인 협동 기계수 토벌, 호라이즌 헌터즈 개더링 공개	게임메카
인어 먹으면 불로불사? 파라노마사이트 시리즈 최신작 발표	게임메카
도쿄 떠나 새 도시로, 팔콤 '교토 재너두' 베일 벗었다	게임메카
업데이트 종료됐던 그랑블루 리링크, 확장팩으로 부활한다	게임메카
닌텐도 다이렉트, 스위치 1·2로 출시될 신작 다수 공개	게임메카
'삼국지 전략판’, 코에이 테크모 ‘삼국지’ 시리즈 40주년 기념 참여	게임동아
[오늘의 스팀] 돌아온 탱크, 헬다이버즈 2 업데이트 관심	게임메카
완성도 높은 사무라이·닌자 액션, 인왕 3 메타크리틱 86점	게임메카
와우 총괄 프로듀서 “워크래프트 IP 충분히 활용 못 했다”	게임메카
우리 우정 영원히, 살인사건 은폐하는 협동 게임 등장	게임메카
스텔란티스 전동화 '리셋'으로 38조원 절감, LG엔솔 협력 구조도 재편	오토헤럴드
토요타, 센추리 쿠페 양산 임박 '800마력 V12 하이브리드설' 부상	오토헤럴드
현대모비스, 협력사 미래 개척하는 ‘원팀’ 2026 파트너스 데이’ 개최	오토헤럴드
사자의 코털을 건드린 BYD '車 관세 불법' 美 정부 상대 소송 제기	오토헤럴드
마세라티, 정통 이탈리안 GT '그란투리스모' 올해의 럭셔리카 부문 석권	오토헤럴드
'8년 만에 나오나' 테슬라, 로드스터 신규 상표권 출원으로 기대감	오토헤럴드
[EV 트렌드] '급속 충전 3000회' CATL, 차세대 전기차 배터리 5C 공개	오토헤럴드
보스턴다이나믹스 아틀라스 '연속 공중제비, 한 치의 흔들림도 없는 착지'	오토헤럴드
미국 캘리포니아, 2억 달러 규모 독자 전기차 보조금 강행… 트럼프와 정면충돌	글로벌오토뉴스
중국 샤오펑, 레인지로버 감성의 플래그십 SUV GX 공개… AI 기술로 승부수	글로벌오토뉴스
팩토리얼-카르마, 미국 첫 고체 배터리 양산 프로그램 가동	글로벌오토뉴스
중국 자동차, 2025년 세계 시장 점유율 35.6% 기록 독주 체제	글로벌오토뉴스
창안자동차, 세계 최초 나트륨 이온 배터리 양산 세단 네보 A06 공개	글로벌오토뉴스
토요타 차기 사장 켄타 콘, 소통과 결단의 리더십으로 변혁 주도	글로벌오토뉴스
동펑자동차, 2026년 판매 목표 325만 대 발표… 화웨이 협업 이진 브랜드 출격	글로벌오토뉴스
빈패스트, 2025년 글로벌 판매 100% 증가	글로벌오토뉴스
폭스바겐·스텔란티스 CEO 공동 전선…유럽산 전기차 지원 촉구	글로벌오토뉴스
폭스콘, 중국 정저우에 전기차 연구센터 가동… 24개월 개발 속도전 선언	글로벌오토뉴스
2026년 1월 수입 상용차 신규등록 404대… 전월 대비 21.7% 증가	글로벌오토뉴스
만트럭버스코리아 창립 25주년 맞아 고객 혜택 및 서비스 대폭 강화	글로벌오토뉴스
볼보자동차코리아, XC40 블랙 에디션 50대 한정 출시	글로벌오토뉴스
마세라티 그란투리스모, 국내외 ‘2026 올해의 럭셔리카’ 수상	글로벌오토뉴스
아우디 코리아, 부산 남천 전시작 신규 오픈… 동남권 고객 접점 확대	글로벌오토뉴스
한국타이어 티스테이션, 설 맞이 온라인 28% 할인 쿠폰 증정 프로모션 진행	글로벌오토뉴스
현대모비스, 협력사와 ‘미래 모빌리티 원팀’ 선언… 2026 파트너스 데이 개최	글로벌오토뉴스
르노코리아, 설 연휴 안전 운전 돕는 전국 무상 점검 서비스 실시	글로벌오토뉴스
르노 4세대 트윙고의 디자인 보기	글로벌오토뉴스
KGM, ‘무쏘’ 출시 기념 문화 이벤트 ‘KGM 시네마 데이’ 개최	글로벌오토뉴스
테슬라, 2028년 목표 100GW 태양광 발전 계획 가속화	글로벌오토뉴스
397. 2025년 전기차 판매,유럽 30%/미국 1.2% 증가/중국 1,100만대가 캐즘이라고?	글로벌오토뉴스
자동차업계, 미국 관세 25% 인상 위기에 "대미투자특별법 조속 제정" 강력 촉구	글로벌오토뉴스
보스턴다이나믹스 아틀라스, 연속 공중제비 성공	글로벌오토뉴스
데브시스터즈 2025년 매출 2947억 원... “4분기 적자 속 IP 확장 전략 가속”	게임동아
코리아보드게임즈, ‘티켓 투 라이드 레거시: 서부 개척’ 2월 9일부터 선주문 진행	게임동아
e스포츠 월드컵 예선 프로그램 '로드 투 EWC' 출범	게임메카
테이크투 CEO "게임 가격, 물가 감안하면 오히려 싸다"	게임메카
스카이림, 15년 된 NPC 그래픽 오류 개선하는 모드 나왔다	게임메카
‘2’ 뗀 오버워치, 신규 영웅 10종과 새 스토리로 재무장	게임메카
부활 가능할까? 문명 7 단일 국가 플레이 기능 추가	게임메카
2026 LCK컵 플레이-인 6일 개막, 6개 팀 격돌한다	게임메카
[순위분석] 큰 거 오나? 오버워치 2 간만에 순위 상승	게임메카
아크 월드 투어 파이널 2026, 최종 예선 참가 신청	게임메카
[오늘의 스팀] 직접 주문 외치는 리썰류 신작 ‘얍얍’ 호평	게임메카
Xbox 차세대 콘솔 내년 출시되나? 리사 수 발언 화제	게임메카
에픽게임즈 스토어 “우리는 스팀을 넘어뜨릴 생각 없다”	게임메카
신규 증강·세트 추가, 롤 '증바람' 업데이트 적용 완료	게임메카
러스트, ‘커널 단위 보안’ 도입 발표에 유저 여론 양분	게임메카
"AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개	AI matters
NHN ‘한게임 섯다&맞고’, 2007년생 새내기 환영 이벤트 진행	게임동아
"챗GPT 5.2 제쳤다"… 앤트로픽, 클로드 Opus 4.6 신모델 공개	AI matters
"AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요"… 오픈AI, 기업용 AI 공개	AI matters
서린씨앤아이, 11번가 에브리십일절서 고성능 PC 부품 최대 혜택	뉴스탭
파워 커플로 싸운다…GTA 온라인 ‘데드라인 듀엣’ 등장, 보상은 3배	뉴스탭
“쇼핑하다 전기차 시승까지”... DT네트웍스, 스타필드서 BYD 주중 시승 행사	뉴스탭
삼양식품 ‘삼양1963’ 흥행 100일…코엑스서 백일잔치 연다	뉴스탭
“약 8만원 상당 키캡 증정”…스틸시리즈, 에이펙스 프로 Gen 3 한정 혜택	뉴스탭
가트너가 짚은 2026 사이버보안 키워드, ‘AI 무질서·양자컴퓨팅·규제 리스크’	뉴스탭
SATUR, 신예은 우먼라인 모델 발탁…젠지 여성 공략 본격화	뉴스탭
에이수스, 하이마트 잠실점에 ROG 체험존 구축…하이엔드 게이밍 직접 체험	뉴스탭
요거트는 재료, 라면은 실험…MZ세대가 만든 ‘모디슈머’ 열풍	뉴스탭
‘퍼스트 디센던트’ 냉기 속성 계승자 ‘다이아’ 업데이트	게임동아
‘에오스 레드’ 과금 제한 서버 ‘하틴’ 캐릭터명 선점 실시	게임동아
민트로켓, ‘데이브 더 다이버’ 중국 정식 출시	게임동아
"노는게 제일 좋아!!" 카러플, ‘뽀로로’ 컬래버 업데이트	게임동아

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격

공유하기

공감/비공감