"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격 : 다나와 DPG는 내맘을 디피지

메릴랜드 대학교와 UMass Amherst 연구진이 26개 언어로 대형 언어 모델의 긴 맥락 처리 능력을 평가한 원룰러(OneRuler) 벤치마크를 공개했다. 해당 연구 논문에 따르면, 한국어는 26개 언어 중 22위로 하위권에 머물렀으며, 맥락 길이가 늘어날수록 성능 저하가 더욱 심각해지는 것으로 나타났다. 폴란드어가 1위를 차지한 가운데, 영어조차 6위에 그쳤다는 점에서 언어별 성능 격차가 예상을 뛰어넘는다.

한국어 성능 22위... 폴란드어는 1위

연구진이 6만 4천~12만 8천 토큰 길이의 긴 맥락 과제를 평가한 결과, 한국어는 26개 언어 중 22위를 기록했다. 원룰러 벤치마크의 니들 인 헤이스택(NIAH) 과제 평가에서 한국어는 중국어, 타밀어, 스와힐리어, 세소토어와 함께 하위권에 속했다. 흥미롭게도 폴란드어가 평균 정확도 88%로 1위를 차지했고, 영어는 83.9%로 6위에 머물렀다. 중국어는 62.1%로 하위 4위를 기록했다. 대부분의 AI 모델이 영어와 중국어 데이터로 주로 학습된다는 점을 고려하면 이는 매우 의외의 결과다. 상위 10개 언어는 대부분 슬라브어, 로망스어, 게르만어 계통으로 위키피디아 문서 수가 많고 라틴 문자를 사용하는 언어들이었다.

맥락 8K→128K로 늘면 언어 격차 3배 확대

맥락 길이가 8천 토큰일 때 상위 5개 언어와 하위 5개 언어 간 정확도 차이는 11%에 불과했다. 그러나 맥락이 12만 8천 토큰으로 늘어나자 이 격차는 34%로 세 배 이상 확대됐다. 한국어는 위키피디아 문서 수 기준으로 약 70만 개를 보유해 공식적으로는 저자원 언어로 분류되지 않지만, 실제 평가에서는 하위권에 머물렀다. 논문에서 저자원 언어로 정의한 힌디어, 세소토어, 스와힐리어, 타밀어는 모두 하위 6위 안에 포함됐으며, 짧은 맥락에서도 어려움을 겪었고 긴 맥락에서는 성능 저하가 더욱 두드러졌다. 연구진은 이러한 현상이 긴 맥락 확장 학습 데이터에서 비영어권 언어가 부족하기 때문으로 추정한다. 제미나이 1.5 플래시(Gemini 1.5 Flash)와 큐엔 2.5 72B(Qwen 2.5 72B)만이 12만 8천 토큰에서도 비교적 우수한 성능을 보였다.

한국어 지시문 사용하면 성능 20% 하락

연구진은 지시문과 맥락의 언어가 다른 교차 언어 시나리오를 영어, 폴란드어, 한국어 3개 언어로 테스트했다. 영어 맥락에 한국어 지시문을 사용하면 6만 4천 토큰 기준 평균 정확도가 91%에서 71%로 20% 하락했다. 반대로 한국어 맥락에 영어 지시문을 사용하면 12만 8천 토큰 기준 정확도가 61%에서 77%로 향상됐다. 폴란드어 지시문을 사용했을 때도 유사하게 향상됐다. 이는 지시 언어의 선택이 전체 성능에 최대 20%의 차이를 만들 수 있음을 보여준다. 현재로서는 한국어 지시문보다 영어 지시문을 사용하는 것이 더 나은 결과를 제공할 수 있다.

'답이 없다' 선택지만 추가해도 o3-미니 성능 32% 급락

연구진은 기존 니들 인 헤이스택(NIAH) 과제에 '답이 존재하지 않을 수 있음'이라는 선택지를 추가했다. 이 간단한 변경만으로 o3-미니-하이(o3-mini-high) 모델의 경우 영어 기준 12만 8천 토큰에서 정확도가 32% 하락했다. 모든 모델이 답이 실제로 존재함에도 불구하고 '없음'으로 잘못 응답하는 경우가 빈번했다. 특히 o3-미니-하이는 다른 모델들에 비해 '없음' 오답을 훨씬 더 많이 생성했다. 제미나이 1.5 플래시도 일부 고자원 언어에서 상당한 수의 '없음' 오류를 보였다. 중국어에 특화된 큐엔(Qwen) 모델도 중국어 단일 NIAH 과제에서 다수의 '없음' 오류를 생성했다.

단어 빈도 집계는 모든 모델이 실패

단어 빈도 추출(Common Word Extraction, CWE) 과제에서는 모든 모델이 고전했다. 가장 빈번한 단어 10개를 찾는 쉬운 버전에서 영어 평균 정확도는 31.5%에 불과했다. 빈도 차이를 줄인 어려운 버전에서는 모든 모델이 1% 미만의 정확도를 기록했다. 라마 3.3 70B(Llama 3.3 70B), 큐엔 2.5 72B, 제미나이 1.5 플래시 세 모델만이 8천 토큰에서 80% 이상의 성능을 달성했지만, 맥락 길이가 늘어나면서 급격히 하락했다. o3-미니-하이와 딥시크-R1(Deepseek-R1)은 이 과제에서 설정된 최대 출력 토큰 한도를 초과하는 경우가 빈번했으며, 틀린 답변을 생성할 때 정답보다 훨씬 더 많은 추론 토큰을 사용했다.

다국어 AI의 한계

이번 연구는 현재 대형 언어 모델들이 다국어, 특히 비영어권 언어의 긴 맥락 처리에서 상당한 한계를 가지고 있음을 보여준다. 한국어를 포함한 많은 언어가 짧은 맥락에서는 비교적 괜찮은 성능을 보이지만, 실제 업무에서 자주 필요한 긴 문서 처리에서는 크게 뒤처진다. 연구진은 원룰러 벤치마크 공개를 통해 다국어 및 교차 언어 긴 맥락 학습 파이프라인 개선 연구가 활성화되기를 기대한다고 밝혔다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 한국어가 이렇게 낮은 성능을 보이는 이유는 무엇인가요?

A. 연구진은 긴 맥락 확장 학습 데이터의 부족을 주요 원인으로 지목했습니다. 대부분의 AI 모델은 영어와 중국어를 중심으로 학습되며, 한국어는 위키피디아 문서 수가 약 70만 개로 중간 수준이지만 긴 맥락 학습에는 충분한 데이터가 제공되지 않은 것으로 보입니다. 긴 맥락 처리 능력이 언어 간에 쉽게 전이되지 않는다는 점도 영향을 미쳤습니다.

Q. 니들 인 헤이스택(NIAH) 과제는 무엇인가요?

A. 긴 문서 속에 특정 정보('바늘')를 숨기고 AI 모델이 이를 찾아낼 수 있는지 테스트하는 과제입니다. 실제 문서 요약이나 질의응답 과제를 평가하기 어렵고 비용이 많이 들기 때문에, 긴 맥락 처리 능력을 측정하는 대용 지표로 널리 사용됩니다. 한국어 계약서에서 특정 조항을 찾거나, 긴 회의록에서 결정 사항을 추출하는 실무 작업과 유사합니다.

Q. 왜 영어보다 폴란드어가 더 높은 성능을 보였나요?

A. 명확한 이유는 밝혀지지 않았지만, 위키피디아 문서 수가 많고 라틴 문자를 사용하는 슬라브어, 로망스어, 게르만어 계통 언어들이 상위권을 차지했습니다. 단순한 데이터양보다는 언어 계통, 사용 문자, 그리고 긴 맥락 학습 파이프라인에서의 언어별 처리 방식이 복합적으로 영향을 미친 것으로 추정됩니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: One ruler to measure them all: Benchmarking multilingual long-context language models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

중국, 5G와 AI 융합 산업 본격화 — 글로벌 기술 표준 주도권 노린다	다나와
일본 NTT그룹, 자율주행 원격모니터링 영상 품질 평가 기술 국제표준으로 채택	다나와
AI가 드디어 '망각'을 배웠다... 효율적 메모리 관리로 성능 11% 향상	AI matters
AI, ‘덧셈’보다 ‘뺄셈’에서 훨씬 자주 틀린다?... “음수 앞에 ‘-‘부호 빼먹어”	AI matters
"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격	AI matters
[11월 6일 AI 뉴스 브리핑] 뤼튼, 전 국민 AI 역량 강화 프로젝트 착수 외	AI matters
알리바바, 첫 스마트글라스 ‘Quark AI Glasses’ 12월 출시한다 (2)	다나와
구글, 브랜드의 ‘DNA’ 학습해 캠페인 제안하는 광고 이미지 자동 생성 툴 ‘포멜리’ 공개 (1)	다나와
메타, ‘Superintelligence Labs’ 인력 600명 무급 대기 조치 — 초거대 AI 부문 구조조정 본격화 (1)	다나와
IAC, “구글 AI 요약 검색이 광고수익 감소 초래” — 생성형 검색 시대의 미디어 위기	다나와
아시아 증시, 기술·반도체주 일제 하락 — AI 붐 과열에 따른 ‘냉각 신호’	다나와
Stability AI, Getty Images 상대 저작권 소송서 부분 승소 — 생성형 AI의 저작권 논쟁 새 국면	다나와
AI 도입으로 직원 한 주치 업무량 절감 가능하지만, 대부분은 AI 교육 받지 못해	다나와
AI 도입이 최근 감원의 새로운 변수로 부상 — 자동화 효율화 속 인력 재편 가속	다나와
신경·기호 결합 AI, 차세대 기업형 인공지능 인프라로 부상 — 스타트업 2천만 달러 투자 유치	다나와
AI 기업 밸류에이션, “거품 논란 수준” — 일부 스타트업 수조 달러 평가에 시장 경계감 확산 (1)	다나와
SK그룹, ‘AI 서밋’ 통해 글로벌 협력 강화 선언 — 미·중 갈등 완화 흐름 속 AI 생태계 전략 부각	다나와
AI 관련 주식·ETF, 상승세 이어가지만 ‘고평가 리스크’ 경고음 공존	다나와
오픈AI가 투자한 스타트업, 가정용 휴머노이드 ‘NEO’ 공개	다나와
맥킨지 "3번째 벤처부터 대박 난다"... 반복 구축 기업, AI 활용해 투자 대비 수익 1.9배	AI matters
AI 모델끼리 '생각'을 직접 주고받는다… 텍스트 없이 소통하는 신기술 등장	AI matters
"50% 확률로 CCTV 회피"... AI 감시 시스템 무력화하는 '마법의 패턴' 화제	AI matters
AI뉴스 엔비디아 26만장, 오픈AI AGI 계획, 오픈소스 나노바나나, Emu3.5, 커서 2.0, 휴머노이드 X1, 구글 믹스보드, Pomelli, Minimax 신모델 등 동영상 있음	조코딩 JoCoding
AI, 상황 따라 법적 책임질 수도... 구글이 제시한 'AI 인격'의 미래	AI matters
"AI가 잘못 판단하면 누구 책임?"... 800년 전 마그나카르타가 제시한 해법	AI matters
AI, 스스로 '도와주세요' 말하는 법 배웠다... 스탠퍼드 연구진, 배포 후 사고 막는 새 기술 개발	AI matters
AI에게 "전기요금 아껴줘" 한마디면 끝... 라마 AI, 가정용 에너지 100% 최적화 성공	AI matters
챗GPT, 8명이 반대하자 99.9% 의견 바꿔... AI도 '눈치' 본다	AI matters
AI 자동화 공포, 과장됐다... 실제 업무 중 겨우 2.5%만 해내	AI matters
애플, 구글 제미나이 도입 추진 '오히려 좋아'	다나와
'AI가 스스로의 생각을 인식했다' 앤트로픽의 ‘클로드 실험’이 던진 충격	다나와
"제품은 없는데 지출만 늘었다고?” 메타, AI 투자 폭증에 월가 ‘불안’ (1)	다나와
챗GPT, 의료·법률 조언 전면 금지된다 (4)	다나와
치맥하고 간 젠슨 황, 엔비디아 국내 기업과 AI 협력 예고 / 25년 10월 5주차 [주간 AI 뉴스] (1) 동영상 있음	AI matters
"AI 때문에 실직?" 연구 결과는 정반대였다… AI 노출도 높을수록 고용 22% 증가 (1)	AI matters
AI, 입력된 글자와 '머릿속 생각' 구별한다… 앤트로픽 "LLM, 자기 내부 상태 일부 인식"	AI matters
"간호사는 안전, 개발자는 위험".. 글로벌 채용 플랫폼, ‘AI가 바꾸는 직업 지형도’ 공개 (1)	AI matters
고수익 기업은 다르다... AI 시대, 리더에게 필요한 역량 5가지	AI matters
"팔로워 급증, 수익 늘었다"... 크리에이터 76%, AI로 비즈니스 키웠다 (1)	AI matters
엔비디아 CEO 젠슨 황, 한국 방문 — 삼성·현대차·SK·네이버와 AI칩 공급 협력 추진 (1)	다나와
인텔, AI 칩 스타트업 ‘삼바노바 시스템즈’ 인수 검토 — AI GPU 시장 재도전 신호탄	다나와
생성형 AI, 정신건강 치료 접근성 개선에 기여 가능성 제시 (1)	다나와
Canva, AI 기반 ‘기초 디자인 생성 모델’ 전면 도입 — 레이어드 디자인 자동화 시대 연다	다나와
직원 4명 중 1명, 승인받지 않은 AI 도구 사용 — ‘섀도우 AI’ 확산 우려 (2)	다나와
Capgemini CEO, EU AI Act 일시 중단 주장	다나와
“한국 국민들 기쁘게 할 소식 전할 것” 젠슨황, 국내 기업과 반도체 계약 발표 예정 (4)	다나와
‘구글·메타 없이도 데이터 공유’... NIA가 제시하는 ‘한국형 데이터 스페이스’ 로드맵 (1)	AI matters
아마존·테슬라가 주목한 '피지컬 AI'... NIA가 분석한 글로벌 동향 및 한국 대응 전략 (1)	AI matters
우리 콘텐츠는 왜 노출이 안 될까? 시밀러웹이 공개한 ‘GEO’ 성공 전략 7가지	AI matters
AI뉴스 중국 스파이 논란, DeepSeekOCR, ChatGPT Atlas, 구글 Quantum Echoes, 유니트리 H2 등 동영상 있음	조코딩 JoCoding
"공원서 낚시했던 기억" AI가 대화로 만든다... 노년층을 위한 대화 보조 도구 등장 (3)	AI matters
"조금만 불공평해도 용납 못해"… AI, 도덕 판단에는 인간보다 더 감정적으로 판단한다	AI matters
수업 자료 만들 때 쓰기 좋은 AI 모델은 딥시크? 모델마다 품질 천차만별 (1)	AI matters
'AI작가가 기획하는 레슬매니아?' WWE, AI작가 영입했다 (1)	다나와
'강력한 만큼 위험해' 보안기업들, 오픈AI 브라우저 ‘Atlas’ 도입 자제 권고	다나와
오픈AI, 텍스트·오디오 기반 음악 생성 AI 개발 중 (2)	다나와
고급 AI 시스템, 종료 명령에 저항…통제 메커니즘 정교화 요구 커져 (7)	다나와
AI 인재에 씌워지는 황금수갑 현상 지속…칩 기업 중심으로 급여와 주식 보상 급등 (2)	다나와
인도, AI 생성물 라벨 의무화 초안 발표…혁신과 안전 사이 균형 시험대에 (1)	다나와
WTO 보고서, 상반기 세계 무역 반등…AI 관련 상품과 선제 수요가 견인	다나와
AI 보건 협력, 안전과 형평을 위한 국제 공조 본격화	다나와
사람대신 일하는 AI 브라우저 ‘챗GPT 아틀라스’ 공개’ / 25년 10월 4주차 [주간 AI 뉴스] 동영상 있음	AI matters
당신의 뇌가 위험하다... AI 의존이 부르는 '사고의 획일화' (2)	AI matters
오픈AI, 한국 경제 청사진 발표... 반도체·인프라 강점 살려 AI 리더십 확보해야	AI matters
K-water–OpenAI, AI로 물관리·기후재난 예측 혁신 손잡다 (1)	다나와
日 후지쿠라, AI 데이터센터 붐 타고 니케이 ‘스타 주역’으로 부상	다나와
거대 투자자, ‘닷컴 플레이북’ 꺼내 AI 과열 피한다	다나와
“당신이 왜 이 제품을 사야 하냐면요” 아마존, 새 AI 쇼핑 기능 ‘Help me decide’ 공개 (1)	다나와
비자, AI 쇼핑 급성장 속 새 보안 프로토콜 공개	다나와
세계 언론 연합 AI 뉴스 정확도 조사…'응답 중 45%는 중대한 오류'	다나와
이사·여행·쇼핑, AI 에이전트가 다 알아서... 5조 달러 '에이전틱 커머스' 시대 (2)	AI matters
"AI 학습에 수십억 쓰기 전, 결과 예측한다"... 메타, 강화 학습 결과 예측하는 공식 공개	AI matters
"혀 사진만 올려도 체질 분석"... 챗GPT 기반 중의학 상담 AI '벤차오' 등장	AI matters
'AI 앵커는 언론인인가?'- 英 '채널4' 실험이 제기한 저널리즘의 미래 (2)	다나와
AI의 농담, 인간은 '실수'로 오해한다… 뇌파 분석 결과 충격 (1)	AI matters
AI 중독된 10대들, 외로움 더 심해지고 사회성 퇴화... "AI 패닉" 확산 (1)	AI matters
'통계의 거짓말' 이제 AI가 잡는다... 잘못된 데이터 이미지 자동으로 탐지·수정	AI matters
AI마다 다른 역사? 챗GPT와 클로드가 1936년 살인사건을 다르게 기억하는 충격적 이유	AI matters
넷플릭스, 생성형 AI에 ‘올인’ 선언… “창작자 돕는 도구로 활용” (4)	다나와
똑같은 답만 하는 AI, “확률 말해봐” 질문 바꿨더니… 답변 2배 다양해져	AI matters
"시행착오가 곧 학습"... 메타, 스스로 경험하며 성장하는 AI 에이전트 공개	AI matters
AI가 연인 관계 고민 상담? 단순 위로 넘어 '관계 패턴' 바꿔준다	AI matters
대학생들은 과제할 때 구글보다 챗GPT를 더 많이 쓸까? 진짜 승자는 따로 있었다	AI matters
오픈AI, 챗GPT 내장한 브라우저 ‘ChatGPT Atlas’ 깜짝 공개	다나와
'사진의 개념이 바뀌고 있다' AI 카메라 경쟁 격화	다나와
'AI, 지도와 대화하다' 구글, 제미나이에 지도 데이터 결합	다나와
“오히려 사람과의 대화보다 편해요" 음성 AI가 여는 새로운 대화의 시대	다나와
[위클리AI] MS, 이미지 생성 모델 도전장…오라클 AI 슈퍼 컴퓨터 공개	IT동아
AI뉴스 앤트로픽 Skills, 4.5 하이쿠, 챗GPT 성인 콘텐츠, Veo 3.1, 일론머스크 AGI, World Labs RTFM, 면도 로봇 등 동영상 있음	조코딩 JoCoding
애플 Siri, 핵심 인력의 이탈과 미흡한 완성도로 끊이지 않는 논란...출시 연기될 가능성도 (2)	다나와
美월마트, 'AI 퍼스트(first) 쇼핑경험 도입' 위해 오픈AI와 전략적 제휴 체결	다나와
구글, 세포의 유전자 정보를 문장처럼 바꿔 해독하는 AI 모델 공개	다나와
구글·애플, 고해상도 지도 수출 놓고 ‘안보 vs 혁신’ 딜레마	다나와
'세계적 난제 풀었다고 자랑했는데....어?'오픈AI의 망신	다나와
댐은 로봇이 짓고, 바나나는 드론이 운반... 세계경제포럼이 공개한 AI 시대 일자리 변화	AI matters
차 1대를 6대로 뻥튀기... AI가 뉴스 사진을 '과장'하는 이유 (1)	AI matters
Microsoft, Windows 11에 AI 업그레이드 적용 (6)	다나와
샘 알트먼, 2025년생 아이는 AI보다 똑똑해지기 어려울 것 (8)	다나와
한국 영화계, 첫 AI 보조 영화 ‘Run to the West’ 개봉	다나와
TSMC 실적 호조 + AI 수요 기대감에 월가 상승 견인	다나와

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

"폴란드어 1위, 영어 6위, 한국어 22위"… AI 언어 이해력 테스트 결과 충격

공유하기

공감/비공감