[출처: ledge.ai]
지난 22일(현지 시간) 나고야대학교 연구팀이 일본어 최초의 전이중(全二重) 음성 대화 시스템 ‘J-Moshi’를 공식 발표했다.
이 시스템은 영어권에서 개발이 진행된 ‘Moshi’를 기반으로 일본어 환경에 최적화한 것으로, 사람처럼 ‘말하면서 듣는’ 동시 발화가 가능한 대화형 인공지능(AI)이다. 학습된 모델과 코드, 데모 페이지는 GitHub 및 Hugging Face에 공개되어 있으며, 비상업적 연구 목적에 한해 자유롭게 이용할 수 있다.
기존 음성 대화형 AI는 사용자의 발화가 끝날 때까지 기다린 후 응답하는 ‘반이중(Half-Duplex)’ 방식이 주류였다. 반면, ‘전이중(Full-Duplex)’은 실제 인간 간 대화처럼 말이 겹치거나(카브리), 중간에 맞장구를 치는(아이즈치) 등 자연스러운 상호작용을 실시간으로 구현하는 기술로 자연스러운 인터랙션이 필요한 서비스 현장에서의 활용이 기대된다.
[J-moshi 시연 영상, 출처 : 주니치 신문 디지털 편집부 유튜브]
영어권에서는 Kyutai Labs의 ‘Moshi’가 대표적인 사례로 앞서 개발됐지만, 일본어 특유의 맞장구 문화나 발화 타이밍 차이를 반영한 모델은 그간 존재하지 않았다. ‘J-Moshi’는 이러한 언어적·문화적 차이를 고려해 설계된 첫 시도이며, 연구팀은 “일본어 대화 특유의 겹치는 말도 자연스럽게 처리할 수 있다”고 밝혔다.
‘J-Moshi’는 다음과 같은 3단계 학습 과정을 거쳐 개발됐다:
[Moshi의 모델 아키텍처, 출처 : Towards a Japanese Full-duplex Spoken Dialogue System]
① 사전 학습 (69,000시간)
YouTube, 팟캐스트 등에서 수집한 ‘J-CHAT’ 코퍼스를 활용해 일본어 대화의 기초 능력을 학습했다. 말하는 사람 구분과 텍스트 정제를 거쳐, 총 3억 토큰 이상의 데이터를 기반으로 학습이 이뤄졌으며 이 학습은 최대 128개의 GPU를 활용해 진행되었으며, 사전 학습은 36시간, 미세 조정은 2시간 만에 완료됐다.
② 미세 조정 (344시간)
전화 상담, 여행사, 일상 대화, 고민 상담 등 다양한 상황의 일본어 스테레오 대화 데이터를 통해, 말 겹침과 자연스러운 대화 순서를 재현했다.
③ 합성 데이터 확장 (602시간)
기존 텍스트 기반 대화를 대형언어모델(LLM)을 통해 구어체로 변환하고, 이를 다중 스트림 TTS(Text-to-Speech)로 음성화해 스테레오 학습 데이터를 생성했다. 이를 기반으로 확장 모델인 ‘J-Moshi-ext’도 함께 공개되었다.
J-Moshi가 고도화된다면 향후 고객센터 및 콜센터 자동 응대, 음성 기반 AI 비서 및 가정용 로봇. 메타버스 및 가상공간 내 대화형 접객 서비스 등의 실시간 대화 환경에서의 활용을 기대해 볼 수 있다. 연구팀은 앞으로 응답 품질 향상과 멀티모달 대응 등 상업적 활용을 고려한 고도화 작업을 지속해나갈 계획이라고 밝혔다.
글 / 홍정민 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com