
메타(Meta)가 새로운 라마 4(Llama 4) 시리즈를 발표했다. 5일(현지 시간) 메타 공식 블로그에 올라온 내용에 따르면, 이번에 공개된 '라마 4 스카우트(Llama 4 Scout)'와 '라마 4 매버릭(Llama 4 Maverick)'은 네이티브 멀티모달 기능을 갖춘 최초의 오픈웨이트 모델이다.
메타가 공개한 라마 4 시리즈는 크게 세 가지 모델로 구성됐다. 첫 번째 모델인 라마 4 스카우트는 170억 개의 활성 매개변수와 16개의 전문가 모듈을 갖춘 모델로, 단일 NVIDIA H100 GPU에 맞출 수 있는 크기다. 이 모델은 1천만 토큰의 업계 최고 수준 컨텍스트 윈도우를 제공하며, 젬마 3(Gemma 3), 제미니 2.0 플래시-라이트(Gemini 2.0 Flash-Lite), 미스트랄 3.1(Mistral 3.1)보다 우수한 성능을 보인다.
두 번째 모델인 라마 4 매버릭은 170억 개의 활성 매개변수와 128개의 전문가 모듈을 갖춘 형태로, GPT-4o와 제미니 2.0 플래시(Gemini 2.0 Flash)를 능가하는 성능을 보인다. 이 모델은 실험적 채팅 버전에서 LMArena 테스트에서 1417 ELO 점수를 기록했다.
마지막으로 '라마 4 비히모스(Llama 4 Behemoth)'는 약 2880억 개의 활성 매개변수와 16개의 전문가 모듈을 가진 메타의 가장 강력한 모델이다. 이 모델은 GPT-4.5, 클로드 소넷 3.7(Claude Sonnet 3.7), 제미니 2.0 프로(Gemini 2.0 Pro)를 여러 STEM 벤치마크에서 능가하는 성능을 보인다. 현재 이 모델은 계속 학습 중이며, 추후 더 자세한 정보가 공개될 예정이다.

메타의 최신 모델들은 전문가 혼합(Mixture of Experts, MoE) 아키텍처를 사용하는 첫 번째 라마 모델이다. 이 아키텍처에서는 단일 토큰이 전체 매개변수의 일부만 활성화한다. 예를 들어, 라마 4 매버릭은 170억 개의 활성 매개변수와 4000억 개의 총 매개변수를 가지고 있다. 이러한 구조는 학습과 추론 과정에서 계산 효율성을 높이고, 고정된 학습 예산 내에서 밀집 모델보다 더 높은 품질을 제공한다.
또한 라마 4 모델은 네이티브 멀티모달리티를 갖추었으며, 초기 융합(early fusion)을 통해 텍스트와 비전 토큰을 통합 모델 백본에 원활하게 통합했다. 모델은 최대 48개의 이미지에 대해 사전 학습되었으며, 최대 8개의 이미지에 대한 처리도 테스트 결과 우수한 성능을 보였다.
라마 4 스카우트 모델은 라마 3의 128K에서 압도적으로 증가한 1천만 토큰의 컨텍스트 길이를 지원한다. 이는 다중 문서 요약, 방대한 코드베이스에 대한 추론 등 다양한 가능성을 열어준다. 이러한 긴 컨텍스트 길이 지원은 중첩된 어텐션 계층과 위치 임베딩 없이 주의 매커니즘을 구현하는 iRoPE 아키텍처를 통해 구현되었다.
메타는 라마 4 시리즈 개발 과정에서 AI 보호에 관한 모범 사례를 적용했다. 특히 사전 및 사후 학습 시 데이터 필터링을 적용하고, 시스템 수준에서 라마 가드(Llama Guard), 프롬프트 가드(Prompt Guard), 사이버시큐리티이벌(CyberSecEval) 등의 안전장치를 오픈소스로 공개했다. 또한 모델의 정치적, 사회적 편향을 해결하기 위한 노력도 이어가고 있다. 라마 4는 라마 3.3에 비해 논쟁적 주제에 대한 응답 거부율을 7%에서 2% 미만으로 줄였으며, 불균형한 응답 거부 비율은 1% 미만으로 감소했다.
메타는 라마 4 스카우트와 라마 4 매버릭 모델을 llama.com과 허깅 페이스(Hugging Face)를 통해 다운로드할 수 있도록 공개했다. 또한 왓츠앱(WhatsApp), 메신저(Messenger), 인스타그램 다이렉트(Instagram Direct), 메타 AI 웹사이트에서 라마 4를 기반으로 한 메타 AI를 체험할 수 있다. 메타는 아마존 웹 서비스(Amazon Web Services), AMD, 구글 클라우드(Google Cloud), 마이크로소프트 애저(Microsoft Azure), NVIDIA 등 다양한 파트너들과 협력하여 AI 커뮤니티 전반에 걸친 지원을 제공하고 있다.
이번 라마 4 시리즈 발표는 메타가 강력한 멀티모달 AI 모델을 통해 개인화된 경험을 구축할 수 있는 새로운 시대를 열었음을 시사한다. 특히 오픈소스 방식으로 모델을 공개함으로써 혁신을 촉진하고, 개발자와 기업이 다양한 용도로 활용할 수 있는 기반을 마련했다는 점에서 의미가 크다.
해당 발표에 대한 자세한 사항은 링크에서 확인할 수 있다.
이미지 출처: 메타
기사는 클로드와 챗gpt를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기