LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상 수상 : 다나와 DPG는 내맘을 디피지

중국 알리바바의 Qwen 팀이 AI 언어모델의 오래된 문제를 해결하는 간단한 방법을 찾아냈다. 마치 문지기처럼 작동하는 '게이트'라는 장치를 AI 내부에 추가했더니, 성능이 크게 좋아지고 학습도 안정적으로 이뤄졌다. 특히 AI가 대화나 글의 첫 부분만 과도하게 집중하는 '어텐션 싱크'라는 고질적 문제가 완전히 사라졌다. 해당 논문에 따르면, 연구팀은 150억 개 파라미터 규모의 모델과 17억 개 규모의 모델에서 30가지 이상의 실험을 진행했고, 3조 5,000억 개의 단어 데이터로 검증했다.

문지기 역할 하는 '게이트' 추가했더니 AI 성능 껑충 뛰었다

연구팀은 AI가 정보를 처리하는 핵심 부분인 '어텐션 레이어' 5곳에 게이트를 설치하는 실험을 했다. 게이트는 일종의 필터나 문지기 역할을 한다. 중요한 정보는 통과시키고 불필요한 정보는 걸러내는 식이다. 실험 결과, '스케일드 닷 프로덕트 어텐션' 출력 직후에 게이트를 달았을 때 효과가 가장 좋았다.

150억 개 파라미터 모델에 게이트를 추가하자 AI가 다음에 올 단어를 더 정확하게 예측하게 됐고, 대학 수준의 지식을 묻는 시험에서도 더 많은 문제를 맞혔다. 예를 들어 100문제 중 59문제를 맞히던 AI가 게이트를 단 후에는 61문제를 맞히는 수준으로 개선된 것이다. 수학 문제 풀이나 일반 상식 질문 등 다양한 영역에서 일관되게 성능이 좋아졌다.

게이트를 어떻게 다느냐도 중요했다. AI는 하나의 정보를 여러 개의 '주의 헤드'로 동시에 처리하는데, 이는 마치 여러 사람이 같은 글을 각자 다른 관점에서 읽는 것과 비슷하다. 각 헤드마다 독립적인 게이트를 달아줬더니 효과가 좋았다. 추가된 부품의 양은 전체 모델 크기에 비하면 아주 적었지만, 성능 향상은 확실했다.

반대로 여러 헤드가 하나의 게이트를 함께 쓰게 하면 효과가 떨어졌다. 이는 각 헤드가 서로 다른 역할을 하기 때문에 각자의 문지기가 필요하다는 뜻이다. 또한 게이트가 정보를 곱하는 방식으로 조절할 때가 더하는 방식보다 나았고, 시그모이드라는 특정 계산 방법을 썼을 때 가장 좋은 결과가 나왔다.

AI 학습 중 발생하는 '멘붕' 현상 거의 사라져

게이트를 추가하자 AI의 성능만 좋아진 게 아니라 학습 과정 자체도 훨씬 안정적으로 바뀌었다. 17억 개 파라미터 모델을 3조 개의 단어로 학습시키는 실험에서 이 차이가 확연히 드러났다. 게이트가 있는 모델은 학습 중에 '손실 스파이크'라는 문제가 거의 발생하지 않았다. 손실 스파이크는 AI가 순조롭게 학습하다가 갑자기 성능이 확 떨어지는 현상이다. 마치 학생이 공부를 잘하다가 갑자기 멘붕에 빠져서 이전에 알던 것까지 까먹는 것과 비슷하다. 이런 돌발 상황이 줄어들자 연구자들은 AI를 더 빠르게 학습시킬 수 있는 공격적인 설정을 사용할 수 있게 됐다.

48개 층을 쌓은 17억 파라미터 모델에서 실험했을 때 그 차이는 더욱 분명했다. 기존 모델은 학습 속도를 높이면 중간에 완전히 망가져 버렸다. 반면 게이트를 단 모델은 똑같이 빠른 속도로 학습시켜도 끝까지 안정적으로 학습을 마쳤다.

연구팀은 비교를 위해 '샌드위치 정규화'라는 다른 안정화 방법도 시험해 봤다. 이 방법을 쓰면 기존 모델도 간신히 학습을 마칠 수는 있었다. 하지만 최종 성능 개선은 거의 없었다. 게이트를 쓴 모델만이 빠른 학습 속도와 좋은 성능을 동시에 달성했다.

게이트의 이런 효과는 한두 가지 조건에서만 나타난 게 아니었다. 층을 28개 쌓았을 때와 48개 쌓았을 때, 4,000억 개 단어로 학습시켰을 때와 3조 5,000억 개 단어로 학습시켰을 때, 다양한 학습 설정값을 사용했을 때 등 여러 상황에서 게이트는 일관되게 도움이 됐다. 이는 게이트가 특정 조건에서만 잘 작동하는 게 아니라 범용적으로 효과가 있다는 의미다.

게이트가 효과적인 두 가지 이유

연구팀은 왜 간단한 게이트 하나를 추가하는 것만으로 이렇게 큰 효과가 나타나는지 분석했다. 그 결과 두 가지 핵심 원리를 찾아냈다.

첫 번째는 정보 변환 과정에 '단계'를 추가했기 때문이다. AI 내부를 보면 밸류 변환과 출력 변환이라는 두 단계가 연속으로 일어난다. 문제는 이 두 단계가 모두 선형 변환이라서 수학적으로 하나로 합쳐질 수 있다는 점이다. 합쳐지면 AI의 표현 능력이 제한된다. 게이트를 두 단계 사이에 끼워 넣으면 비선형 요소가 추가되면서 두 단계가 완전히 분리된다. 이렇게 되면 AI가 더 복잡한 패턴을 학습할 수 있게 된다. 실제로 게이트 대신 '정규화'라는 다른 비선형 기법을 써봤을 때도 비슷한 효과가 나타났다. 이는 두 변환 단계 사이에 비선형 요소를 넣는 것 자체가 중요하다는 사실을 확인해준다.

두 번째는 '선택적 차단'을 했기 때문이다. 효과가 좋은 게이트들을 분석해 보니 대부분의 정보를 차단하고 정말 중요한 것만 통과시키는 특징이 있었다. 가장 성능이 좋았던 게이트는 평균적으로 11.6%의 정보만 통과시키고 나머지 88.4%는 차단했다. 반대로 여러 헤드가 하나의 게이트를 공유하게 만들었더니 개방도가 27.1%로 올라갔고, 성능도 떨어졌다. 즉, 더 많이 차단할수록 오히려 성능이 좋아진 것이다. 이는 불필요한 정보를 과감하게 걸러내는 게 중요하다는 뜻이다.

더 흥미로운 점은 이 차단이 고정된 게 아니라 '상황에 따라 달라진다'는 것이다. AI가 지금 처리하고 있는 질문에 따라 어떤 과거 정보를 통과시킬지 막을지를 매번 다르게 결정한다. 같은 정보라도 질문에 따라 필요할 수도, 불필요할 수도 있기 때문이다.

'첫 단어 집착증' 거의 사라지고 긴 컨텍스트 성능 크게 향상

게이트의 가장 주목할 만한 효과는 '어텐션 싱크'를 대폭 줄인 것이다. 어텐션 싱크는 AI가 글이나 대화의 첫 부분, 특히 맨 첫 단어에 과도하게 집중하는 현상이다. 기존 모델은 주의력의 절반 가까이를 첫 단어에 쏟았고, 심한 경우 주의력 대부분이 첫 단어에만 쏠렸다. 이는 학생이 책의 첫 페이지만 계속 읽고 나머지는 제대로 못 보는 것과 같다. 하지만 게이트를 단 모델은 첫 단어에 쏟는 주의력이 극소량으로 줄어들었다.

게이트는 또한 'AI 내부 값 폭증'이라는 문제도 해결했다. 이는 AI 내부에서 처리하는 숫자들이 비정상적으로 커지는 현상이다. 기존 모델은 초반 층에서 이런 큰 값들이 발생했고, 이 값들이 이후 과정 전체에 계속 영향을 미쳤다. 게이트를 단 모델은 이런 값 폭증 현상이 대폭 줄어들었다. 흥미롭게도 밸류 레이어에만 게이트를 달면 값 폭증은 줄지만 첫 단어 집착증은 여전했다. 이는 값 폭증이 반드시 첫 단어 집중을 일으키는 건 아님을 보여준다.

첫 단어 집착증이 줄어들자 긴 글 이해 능력도 크게 좋아졌다. 연구팀은 AI가 한 번에 처리할 수 있는 글 길이를 기존보다 네 배 늘리는 실험을 했다. 기존 학습 길이 범위에서는 게이트 모델이 기존 모델보다 약간 나은 수준이었다. 하지만 그 범위를 넘어 두 배, 네 배로 늘어나자 차이가 극명해졌다. 가장 긴 글 길이에서 게이트 모델은 기존 모델보다 거의 두 배 좋은 성능을 보였다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 게이트 어텐션이 뭔가요?

A. AI가 정보를 처리할 때 중간에 문지기 역할을 하는 장치를 추가한 기술입니다. 중요한 정보는 통과시키고 불필요한 정보는 차단해서 AI가 더 똑똑해지고 안정적으로 학습할 수 있게 만듭니다.

Q. 어텐션 싱크가 뭐길래 문제인가요?

A. AI가 글이나 대화의 첫 부분만 과도하게 집중하는 현상입니다. 마치 책의 첫 페이지만 계속 읽고 나머지는 제대로 못 보는 것과 같아서, 긴 글을 이해하는 능력이 떨어집니다. 게이트를 추가하면 이 문제가 사라집니다.

Q. 이 기술을 실제로 어떻게 쓰나요?

A. AI 내부의 정보 처리 단계 중간에 간단한 게이트만 추가하면 됩니다. 알리바바 팀이 코드를 공개할 예정이고, 추가 비용도 거의 들지 않아서 누구나 쉽게 적용할 수 있습니다.

해당 기사에 인용된 논문 원문은 오픈리뷰에서 확인 가능하다.

논문명: Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

AI Matters 뉴스레터 구독하기

AI뉴스 ZImage, Flux 2, 클로드 오퍼스 4.5, 오픈AI 광고, 쇼핑, DeepSeekMathV2, Fara7B, HunyuanOCR 등 동영상 있음	조코딩 JoCoding
"정확도 90%?" 도박 중독 막는다던 AI, 실제로는 제대로 작동하는지 아무도 몰라	AI matters
AI가 쓴 시가 시인이 쓴 시보다 높은 점수... 'AI 작품'이라 알려주니 평가 급락	AI matters
LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상 수상	AI matters
네이버웍스 ‘AI 스튜디오’ 출시…직장인 보고·검색·정리 업무도 AI로 자동화한다	다나와
'AI 콘텐츠는 걸러서 보여 드려요' 인터넷을 챗GPT 이전으로 되돌리는 '슬롭 이베이더'	다나와
국민 47%만 정부 AI 신뢰... 공공서비스 혁신엔 '경험 중심 설계' 필수 (2)	AI matters
AI 정신병으로 입원·사망까지… 사례 분석한 연구진들 "공통 패턴 찾았다" (1)	AI matters
"AI로 쇼핑하니 반품이 줄었다"… 어도비가 말하는 5가지 AI 트렌드 (1)	AI matters
'탈모도 AI로 해결한다' 탈모시장의 정보 비대칭을 해결하고픈 MyHair AI’ (2)	다나와
"눈으로 보고, 글로 계산"… AI 추론 능력 끌어올리는 해법 찾았다 (1)	AI matters
"여기 어디야?" 사진 한 장에 위치 맞추는 AI 등장… 간판, 건물 모양, 표지판 분석해 장소 찾는다 (2)	AI matters
건설 현장 사망사고 20%가 '추락'… AI가 안전모 미착용까지 잡아낸다 (2)	AI matters
'즐거운 쇼핑은 내가, 지루한 업무는 AI가'… 일본인들의 생성형 AU 사용 실태 조사 보니	다나와
퍼플렉시티, '이용자 중심'의 대화형 쇼핑 어시스턴트 기능 공개	다나와
AI에 "넌 가난한 학생이야" 역할 줬더니… 취향 물을 땐 역할 충실, 시험 보면 본색 드러내	AI matters
"역대 대통령 순서대로 나열해봐"... AI에게 시켜봤더니 생긴 일	AI matters
AI한테 마피아 게임 시켰더니… 최신 AI 12개 전부 거짓말쟁이 못 찾아	AI matters
AI가 '희망'이라는 감정을 이해할까? AI 희망 감지 대결서 구형 AI 모델이 압승	AI matters
AI가 준 조언, 심각한 문제에도 62%가 실천했지만... 2주 후 효과는 '제로'	AI matters
중소기업 직장인이 가장 위험하다… AI 시대, 한국 직무 교육 참여율 OECD 꼴찌	AI matters
[위클리AI] 퍼플렉시티, 코멧 안드로이드 버전 출시…챗GPT 쇼핑 기능 도입 (5)	IT동아
AI뉴스 구글 나노바나나 Pro, Gemini 3, 그록 4.1, GPT‑5.1CodexMax, Meta SAM 3D, AI TOP 100, Sunday Robotics 등 (2) 동영상 있음	조코딩 JoCoding
'굿바이, GPT-4o' OpenAI, GPT-4o API 접속 2026년 2월 종료 발표	다나와
MS AI 수장 “AI가 시시하다고? 그게 더 놀랍다”...윈도우·코파일럿 논란 속 반발에 공개 반박	다나와
이제 챗GPT가 고른 식당만 성공한다? 100곳 중 17곳만 추천받는 AI 시대 마케팅 전략 (1)	AI matters
AI는 답 모르면 무조건 "아니요"… 서울대 연구진, 챗GPT의 숨겨진 습관 발견	AI matters
챗GPT에 1,000번 물어봐도 비슷한 답변뿐... 베이징대 연구진이 해결책 찾았다	AI matters
한국 AI 스타트업, 개인정보보호법 규제로 혁신 난항… 데이터 활용 간극 여전	다나와
중국, ‘AI 플러스’ 전략으로 산업과 일상 전면 재편 추진	다나와
인간형 로봇 경쟁 본격화… 기술 진전 속 노동시장과 경제 구조 변화 우려 (2)	다나와
북한, AI 활용한 기상예측 시스템 구축… 자연재해 대응력 강화 노려	다나와
AWS, 문제 풀 때마다 학습하는 AI 개발... 경험 쌓을수록 저렴하고 정확해 (1)	AI matters
AI가 교수보다 더 깐깐해… AI한테 채점 맡겼더니, 학생 10명 중 4명 점수 떨어져 (5)	AI matters
"이전 답변 틀렸다" 한마디에 무너지는 AI... 같은 질문도 ‘대화 형식’으로 하면 답 달라져	AI matters
'불수능'이었다는 2026학년도 수능시험, 최신 AI들에게 풀게 한다면?	다나와
'최고의 아첨꾼AI' Grok, “엘론 머스크는 오타니를 제외하면 가장 뛰어나”	다나와
"AI가 버블이라고?ㅋㅋ" 엔비디아, 3분기 실적 '어닝 서프라이즈'...뉴욕증시 급등세로 마감 (2)	다나와
오픈AI, 장시간 코딩에 특화된 ‘GPT-5.1-Codex-Max’ 모델 공개 (2)	다나와
AI로 곰 출몰 위험 한눈에…日 조치대, 19개 지역 ‘곰 조우 예측 지도’ 공개	다나와
AI에 코딩 도구 주면 정답률 19%↑…풀이 과정은 41% 더 형편없어져	AI matters
챗GPT에게 "어느 나라가 더 나쁜가?" 물었더니... AI도 국가 차별한다 (6)	AI matters
긴 문서 속 숨은 해킹 명령어, 이제 AI가 스스로 찾아 차단한다	AI matters
디노티시아, SC25서 VDPU 기반 FPGA로 'AI 반도체' 성능 알린다	IT동아
AI 여러 개 쓰면 답 정확해진다더니... 토큰비용 5배에 정답률은 제자리	AI matters
챗GPT가 원전을 부른다… 데이터센터 전력 수요 폭증에 기업들 원전에 '올인'	AI matters
구글 CEO, “AI 맹신 금물”… 급격한 확산 속 과열 우려 제기	다나와
윈도우 11, AI 비서 기능 강화되지만… 새 악성코드 위협도 동반 (1)	다나와
폭스뉴스, 팔란티어와 손잡고 AI 기반 뉴스룸 구축… “미래 뉴스 절반은 AI가 만든다” 전망도 (1)	다나와
인도, AI 확산 영향으로 초보 개발자 일자리 최대 25퍼센트 감소	다나와
"AI가 CCTV 속 폭력 포착"... 제미나이가 ‘주먹 드는 순간’ 95% 정확도로 잡는다	AI matters
"챗GPT도 속았다"... AI에게 '답 없는 질문'하자 60% 이상 틀려	AI matters
'의학 드라마'로 AI 진단 실력 측정했더니... 희귀질환 진단 정확도 38% 그쳐	AI matters
AI 설득 실험, 챗GPT는 유연한 반면 제미나이는 상당한 고집불통	AI matters
구글 딥마인드 "AI도 사람처럼 소송 걸 수 있다"...중세 해양법 법에서 찾은 해법	AI matters
AI 과학자 '코스모스', 6개월 연구를 하루 만에 완료	AI matters
구글, AI 여행 도구 전면 확장…‘플라이트 딜스’ 글로벌 출시와 개인화 예약 기능 강화 (2)	다나와
마이크로소프트, 대기 예측용 AI ‘오로라’ 공개…극한 기상 대응 능력 높인다	다나와
AI 데이터센터 폭증 속 재생에너지 활용 가능성 주목… 지속가능성 논의 본격화 (1)	다나와
고어 버빈스키 감독, “생성형 AI가 영화 제작을 잠식 중”… 창작자 역할 약화 우려	다나와
미국서 성인·노년층 대상 AI 교육 프로그램 출범… 디지털 격차 완화 시도 본격화	다나와
중국, 2025 컴퓨팅 글로벌 컨퍼런스 개최… AI 생태계 중심 전략 부각	다나와
인도 기술 노동시장, AI 확산 속 구조 전환… 엔트리 직군 수요 20퍼센트 이상 감소	다나와
구글 딥마인드, 가상 3D 환경에서 협업·추론·학습하는 AI 에이전트 ‘SIMA 2’ 공개	다나와
유방암 치료와 연구에 AI 도입 가속… 디지털 헬스케어 혁신 본격화	다나와
챗GPT, 그룹 채팅 기능 시범 도입…함께 계획하고 결정하는 ‘공동 작업 공간’ 열린다	다나와
'쇼핑, 말로 합시다' 구글, AI 기반 ‘스마트 쇼핑’ 대규모 업그레이드 공개	다나와
한국, 국방 AI 고도화 필요성 제기… “더 빠르고 스마트한 시스템이 국가안보 핵심”	다나와
비자, AI 기반 커머스 확산 속 안전장치 필요성 강조… 아태 지역 중심으로 가드레일 구축 나서	다나와
Qualigen Therapeutics, AI와 Web3 중심의 AIxCrypto Holdings로 사명 변경… 사업 방향 대전환 선언	다나와
오라클 채권 매도 압력 확대… AI 투자 확대가 재무 리스크 우려로 번져	다나와
생성형 AI 사용자는 늘지만 클릭은 정체... 제로 클릭 시대 본격화	AI matters
"영업사원 절반이 사라진다"... AI가 바꾸는 세일즈의 미래 (6)	AI matters
"AI가 해킹 작업 80~90% 수행"… 앤트로픽, '최초 AI 자율 사이버 공격' 적발	AI matters
생성형 AI에 대한 사회적 인식 확대… 언론 신뢰와 윤리 논의도 가속	다나와
아마존, 운영 혁신 위한 에이전트형 AI와 로봇 기술 공개… 내부 프로세스 자동화 본격화	다나와
기업의 AI 스케일 확산, 여전히 느린 속도… 실제 적용은 4분의 1 수준	다나와
Moonshot AI, Kimi K2 Thinking 공개… GPT5 능가 주장으로 경쟁 구도 흔들다	다나와
Baidu, ERNIE 5.0 공개… GPT5와 Gemini 2.5 Pro 능가 주장	다나와
데이터 사일로가 AI 도입의 최대 걸림돌로 부상	다나와
인간 들어있냐는 평가 받던 로봇 샤오펑 아이언, 내부 기계 몸체 공개/ 25년 11월 2주차 / [주간 AI 뉴스] (1) 동영상 있음	AI matters
“SEO는 죽지 않았다” 시밀러웹이 말하는 구글 AI 모드 최적화 전략 10가지	AI matters
AI 도구 쓰는 마케터 82% "생산성 올랐다"… 2026 소셜 미디어 마케팅 지형도 (1)	AI matters
AI가 실험 없이 만든 가짜 논문, AI 심사위원에게 보여주자 최대 82% 통과 (4)	AI matters
작곡가도, 가수도 AI인 컨트리곡, 빌보드 컨트리 차트 정상 등극 (7)	다나와
LLM 탑재 로봇의 사회적 위험성 연구해 보니 “상상 이상으로 위험할 수도" (7)	다나와
오픈AI, 8가지 성격으로 한층 개인화된 버전 ‘ChatGPT 5.1’ 공개	다나와
'관상은 과학이야!' 펜실베니아대 연구팀, 얼굴로 성격과 성공 가능성 예측 (1)	다나와
'클랭커(Clanker)? 태스크매스킹(Taskmasking)?' 콜린스가 선정한 올해의 단어와 후보들	다나와
오픈AI, 미군 복무 전환자와 참전용사에게 ‘ChatGPT Plus’ 1년 무료 지원	다나와
하버드 의사 출신이 만든 ‘공감형 AI 동반자' 로빈(Robyn) 출시	다나와
공무원 10명 몫 하는 AI 비서 시대 온다... 공공기관이 지금 당장 해야 할 6가지 (1)	AI matters
맥킨지 "AI로 실질적 재무 성과 본 기업, 전체의 6%뿐"... 성공 기업의 비밀은?	AI matters
“AI가 아닌, 소비자가 주인공이어야 해”… 2026년 리테일 트렌드 5가지	AI matters
"챗GPT는 왜 배운 걸 금방 잊을까?" 구글이 밝힌 AI의 '기억상실' 비밀	AI matters
AI가 언어 습관까지 배운다? 치매 환자 소통 돕는 '맞춤형 대화 기술' 등장	AI matters
"URL만으로 충분하다"… AI, 정치 뉴스 판별 정확도 92% 돌파	AI matters
[11월 11일 AI 뉴스 브리핑] 스마일샤크, AI로 엠블록컴퍼니 뉴스레터 제작 시간 81% 단축 외	AI matters
AI뉴스 중국 AI 전세계 1등 달성, 생각 읽는 AI, GPT 5.1, 애플 제미나이 탑재, Grok 업데이트, 나노바나나2 유출 등 (9) 동영상 있음	조코딩 JoCoding
AI가 알츠하이머 조기 발견한다... 정확도 77% 진단 시스템 나왔다 (1)	AI matters

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상 수상

비교하고 잘 사는, 다나와 : 가격비교 사이트

RanKING 100 도움말 보기

GNB 메뉴

GNB 메뉴

LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상 수상

공유하기

공감/비공감