X가 자사의 생성형 AI '그록(Grok)'에 이미지 생성 기능을 추가했다. 새롭게 선보인 '오로라(Aurora)'라는 코드명의 이미지 생성 모델은 수십억 개의 인터넷 데이터를 학습해 사실적인 이미지부터 예술적 창작물까지 다양한 결과물을 만들어낼 수 있다.
9일(현지시간) xAI 블로그에 발표된 내용에 따르면, 오로라는 텍스트와 이미지 데이터를 혼합해 다음 토큰을 예측하는 자기회귀 전문가 혼합 네트워크(autoregressive mixture-of-experts network)를 기반으로 한다.
오로라는 다른 이미지 생성 모델이 어려워하는 여러 영역에서 뛰어난 성능을 보여준다. 실제 공개된 예시를 보면 록히드 SR-71 블랙버드(Lockheed SR-71 Blackbird) 전투기의 추상화, 크리스마스 의상을 입은 옵티머스(Optimus), 반 고흐 스타일의 고양이 그림, 도널드 트럼프의 헤어스타일을 한 성룡(Jackie Chan), 차를 마시는 강아지, 지브리 캐릭터 스타일의 일론 머스크(Elon Musk), 클라우드 성, 검을 든 여성 전사의 클로즈업 등 다양한 작품을 선보였다.
그록은 실제 개체의 시각적 세부 사항, 텍스트, 로고를 정확하게 구현할 수 있으며 사실적인 인물 초상화도 만들어낼 수 있다. 주요 도메인으로는 엔티티 생성, 예술적 텍스트, 밈 생성, 사실적 초상화, 유명인 이미지 등이 있다.
새로운 모델은 기존 이미지를 입력값으로 받아 편집할 수 있는 기능도 갖추고 있다. 사용자는 기존 이미지를 원하는 스타일로 변경하거나 수정할 수 있다. x사는 이 기능을 곧 플랫폼 사용자들에게 공개할 예정이라고 밝혔다.
그록은 이마젠3(Imagen 3), 플럭스.1 프로(Flux.1 Pro), 아이디오그램 2.0(Ideogram 2.0), 달리-3(Dall-E 3) 등 주요 이미지 생성 AI 모델들과 경쟁하고 있다. 그록의 새로운 이미지 생성 기능은 현재 일부 국가의 x 플랫폼에서만 이용할 수 있으며, 일주일 내에 전체 사용자에게 확대 제공될 예정이다. 한편, X의 AI 연구 자회사인 xAI는 멀티모달 이해와 생성 분야에서 기술의 경계를 넓히고 있으며, 이러한 목표에 공감하는 인재를 적극적으로 채용하고 있다고 밝혔다.
오로라에 대한 자세한 사항은 xAI 블로그에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기