비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

"이제 AI가 스스로 공부한다" MIT, 인간 없이 스스로 학습하는 AI 언어 모델 개발

2025.06.29. 00:26:37
조회 수
305
10

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Self-Adapting Language Models


MIT 연구진이 발표한 논문에 따르면, 대형 언어모델(LLM)은 강력한 성능을 보이지만 한 가지 치명적인 약점이 있다. 새로운 작업이나 지식, 예시에 대응하여 가중치를 적응시킬 수 있는 메커니즘이 부족하다는 점이다. MIT 연구진이 개발한 자기적응 언어모델 프레임워크 SEAL(Self-Adapting LLMs)은 이러한 한계를 획기적으로 극복했다.

'셀프 에디트'로 성능 33.5%→47.0% 향상... GPT-4.1도 뛰어넘다

SEAL은 언어모델이 스스로 파인튜닝 데이터와 업데이트 지시사항을 생성하여 자체적으로 적응할 수 있도록 한다. 이 프레임워크의 핵심은 '셀프 에디트(self-edit)' 개념이다. 새로운 입력이 주어지면 모델은 정보를 다양한 방식으로 재구성하거나 최적화 하이퍼파라미터를 지정하고, 데이터 증강 및 그래디언트 기반 업데이트를 위한 도구를 호출하는 생성물을 만들어낸다. 지도학습 파인튜닝을 통해 이러한 셀프 에디트는 지속적인 가중치 업데이트를 가능하게 하여 장기적인 적응을 실현한다.

학생이 노트 정리하듯... AI도 '나만의 학습법'을 만들어낸다

SEAL의 개발 배경에는 인간의 학습 방식에 대한 깊은 통찰이 있다. 기계학습 수업의 기말시험을 준비하는 학생을 생각해보자. 많은 학생들이 강의 내용이나 교과서, 인터넷 정보를 그대로 외우는 대신 자신만의 노트를 작성한다. 이러한 정보의 재해석과 증강 과정은 단순히 시험 준비에만 국한되지 않고 인간 학습 전반에 걸쳐 보편적으로 나타나는 현상이다.

현재 대형 언어모델들은 새로운 작업이 주어졌을 때 작업 데이터를 '있는 그대로' 파인튜닝이나 맥락 내 학습을 통해 소비하고 학습한다. 하지만 이러한 데이터가 항상 학습에 최적화된 형태나 분량으로 제공되는 것은 아니며, 현재 접근법들은 모델이 훈련 데이터를 최적으로 변환하고 학습하기 위한 맞춤형 전략을 개발할 수 있도록 하지 못한다.


강화학습 훈련으로 자체 합성 데이터가 GPT-4.1 능가

SEAL의 훈련 과정은 정교한 강화학습 알고리즘을 기반으로 한다. 모델은 자연어 지시사항 형태의 '셀프 에디트'를 생성하는데, 이는 데이터와 선택적으로 모델 가중치 업데이트를 위한 최적화 하이퍼파라미터를 명시한다. 강화학습 훈련에서 업데이트된 모델의 다운스트림 성능을 보상 신호로 사용하여 효과적인 셀프 에디트 생성 정책을 학습한다.

연구진은 지식 통합 실험에서 SEAL의 성능을 검증했다. 패시지 텍스트에 직접 파인튜닝하는 대신 SEAL 모델이 생성한 합성 데이터로 파인튜닝한 결과, SQuAD의 노패시지 맥락 변형에서 질문 답변 성능이 33.5%에서 47.0%로 향상되었다. 특히 주목할 점은 SEAL에서 자체 생성한 데이터가 GPT-4.1에서 생성한 합성 데이터보다 우수한 성능을 보였다는 사실이다.


성공률 72.5% 달성... 기존 방식 대비 3배 이상 향상

SEAL의 범용성은 ARC-AGI 벤치마크의 단순화된 하위 집합에서도 입증되었다. 이 실험에서 모델은 도구 세트를 활용하여 합성 데이터 증강과 최적화 하이퍼파라미터(학습률, 훈련 에포크, 토큰 유형별 선택적 손실 계산 등)를 자율적으로 선택했다. SEAL을 사용한 도구의 자동 선택 및 구성은 표준 맥락 내 학습과 RL 훈련 없이 도구를 효과적으로 사용하지 못하는 셀프 에디팅 모두를 능가하는 성능을 보여주었다.

실험 결과 SEAL은 72.5%의 성공률을 기록했으며, 이는 RL 훈련 없는 TTT + 셀프 에디트의 20%와 적응 없는 ICL의 0%를 크게 상회하는 수치다. 비록 오라클 TTT의 100%에는 미치지 못했지만, 추가 개선의 여지를 보여주는 의미 있는 결과였다.


FAQ

Q: SEAL이 기존 언어모델과 가장 큰 차이점은 무엇인가요?

A: 기존 언어모델은 새로운 데이터를 그대로 학습하지만, SEAL은 스스로 최적의 학습 데이터를 생성하고 학습 방법까지 결정할 수 있습니다. 마치 학생이 교과서를 그대로 외우는 대신 자신만의 노트를 만들어 더 효과적으로 학습하는 것과 같습니다.

Q: SEAL의 '셀프 에디트' 기능은 어떻게 작동하나요?

A: 셀프 에디트는 모델이 새로운 정보를 받았을 때 그 정보를 재구성하고, 학습에 필요한 하이퍼파라미터를 설정하며, 데이터 증강 도구를 선택하는 자연어 지시사항입니다. 강화학습을 통해 더 나은 성능을 내는 셀프 에디트를 생성하도록 훈련됩니다.

Q: SEAL 기술이 실제로 어떤 분야에 활용될 수 있나요?

A: SEAL은 새로운 지식을 지속적으로 학습해야 하는 AI 에이전트, 개인화된 학습이 필요한 교육 AI, 그리고 빠르게 변화하는 정보에 적응해야 하는 실시간 AI 시스템에 활용될 수 있습니다. 특히 데이터가 제한된 환경에서도 자체적으로 학습 데이터를 생성할 수 있어 효과적입니다.

해당 기사에 인용된 논문은 arxiv에서 확인 가능하다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
[오늘의 스팀] 한 주 동안 판매 1위, '바하 레퀴엠' 출시 코앞 게임메카
2026 VCT 첫 국제전, 마스터스 산티아고 3월 1일 열린다 게임메카
처치 곤란했던 폐가전, 스티커 없이 무료 배출하는 방법 IT동아
BMW 모토라드, 15대 한정판 ‘BMW R 12 S’ 국내 출시 글로벌오토뉴스
BMW 코리아 미래재단, 대학생 사회공헌 공모전 ‘영 이노베이터 드림 프로젝트’ 개최 글로벌오토뉴스
틸 셰어 폭스바겐그룹코리아 사장, 한국수입자동차협회(KAIDA) 회장 3연임 글로벌오토뉴스
[영상] 영국 두 아이콘의 만남, MINI 폴 스미스 에디션을 만나다 글로벌오토뉴스
소파가 전시 오브제로…알로소, ‘서울리빙디자인페어’서 체험형 공간 선보여 뉴스탭
“집이 곧 필드”…텔몬파크골프, 가정용 시뮬레이터로 시장 판 바꿨다 뉴스탭
“아이마다 다른 공부 리듬”…일룸, 체험형 팝업으로 학생방 새 기준 제시 뉴스탭
바나나·파인애플·용과의 변신…야외 미식 트렌드 ‘밖슐랭’ 확산 뉴스탭
이채민과 함께한 K2 2026 SS 화보 공개…기능성과 스타일 모두 잡았다 뉴스탭
이동휘의 ‘스피드 무드’ 통했다…버커루 2026 S/S 캠페인 공개 뉴스탭
36년 만의 블러드문 뜬다…식품·유통업계, 정월대보름 마케팅 ‘후끈’ 뉴스탭
뷔의 담백한 무드로 완성한 ‘일상 아웃도어’…스노우피크 26 스프링 컬렉션 공개 뉴스탭
“노래 들으며 타자 연습”… 코르티스 신곡 가사 ‘타자 게임’으로 최초 공개 뉴스탭
3천원대 마요부터 단백질 강화 메뉴까지…도시락 시장, 초개인화 경쟁 본격화 (1) 뉴스탭
코지마 감성 입은 ROG, ‘루덴스’ 철학 담은 한정판 Z13 전격 공개 뉴스탭
한예슬 효과 통했다…세르본 ‘튜닝엑스’, 면세점·백화점 온라인몰 전격 입점 뉴스탭
“상금 2억2000만원” 구글 딥마인드, 서울서 ‘제미나이 3’ 해커톤 연다 뉴스탭
이 시간 HOT 댓글!
1/4