LG전자가 음성인식 서비스의 이름을 ‘Q보이스’로 바꾸고 글로벌 시장을 겨냥한 킬러 앱으로 육성한다는 방침을 밝혔다. 퀵보이스를 공개한지 한 달도 되지 않아, 새로운 글로벌 서비스명이 공개된 것은 내부적으로 음성인식 서비스에 대한 피드백이 활발하게 이루어지고 있다는 뜻으로 해석된다. 그만큼 LG전자가 'Q보이스'에 비중을 두고 있다는 것이다.
애플의 ‘시리’나 삼성전자의 ‘S보이스’에 비해 비교적 조명 받지 못하던 음성인식 분야에서 LG전자가 이런 준비를 해왔다는 것은 일종의 ‘역습’이다. 그렇다면 어떤 질문(Question)이든 빠르게(Quick) 제대로(Quality) 처리한다는 이름의 ‘Q보이스’는 살아남을 수 있을까?
어째서 음성인식인가?
사실, 음성인식 서비스는 어제 오늘 나타난 기술은 아니다. 기술적인 정교함에 차이가 있을 뿐이지 오랫동안 시간을 두고 구체화된 영역이다. 그러나 음성인식은 늘 소비자들의 기대치를 배신해왔다. 정확도와 인식률의 문제에 부딪혀 번번히 단발적인 화제성에 그치는 일이 대부분이었다.

그럼에도 불구하고 국내·외 스마트폰 제조사들은 음성인식 기술에 꾸준한 투자를 해왔다. ‘인식만 잘 된다면’ 기존의 터치 방식을 넘어서는 편의성을 제공하리라는 전제에서다. 스마트폰이 정말 제대로 말귀를 알아듣게 된다면, 물리적 조작의 한계를 넘어 또 다른 가능성을 가지게 되는 셈이다.
LG전자 역시 고객 대상으로 조사를 한 결과, 음성인식 서비스가 제대로 작동한다면 굉장히 편리할 것이라는 응답이 지배적이었다고 밝혔다. 말만 하면 다 들어주는 음성인식 서비스는 기술적으로나 마케팅 측면에서나 단말기의 경쟁력을 레벨업할 수 있는 획기적인 기회다.
그렇다면, 새롭게 출사표를 던진 Q보이스가 먼저 자리 잡은 시리의 아성을 넘볼 만큼 쓸모 있는 녀석일까?
시리보다 S보이스 보다 Q보이스가 똑똑하다?
▲ 먼저공개된 퀵보이스와 S보이스
LG전자 측은 ‘Q보이스’를 알리는 기자간담회에서 6분짜리 시연 영상을 공개했다. 세 개의 단말기를 나란히 배치하고, 시리, Q보이스, S보이스의 성능을 동시에 비교하는 영상이었다. 영상을 통해 공개된 내용에서 몇 가지 예를 살펴보자.
“내일 아침 여섯 시 반에 깨워줘” 라고 말하니 세 개의 단말기가 비슷한 속도로 오전 6시 30분에 알람을 맞춘다. 이 상태에서 다시 한번 “아침 여섯 시 반에 깨워줘”라고 말하니, 시리와 S보이스는 동일한 알람을 중복해서 저장한다. Q보이스는 “이미 같은 알람이 있다”며 저장된 내용을 보여준다.
“지금 뉴욕은 몇 시지?”라고 물으니, 이번에도 세 개의 단말기가 모두 뉴욕의 시간을 보여준다. 바로 연이어 “그럼 파리는?” 이라고 물으니 시리는 주가 현황을 보여줬고, S보이스는 이해하지 못했다는 메시지를 띄웠다. Q보이스는 파리의 시간을 보여줬다.
“위키피디아에서 소녀시대 찾아줘”라는 질문에 시리와 Q보이스는 위키피디아 검색을 통한 소녀시대 프로필을 보여주었다. S보이스는 기본 검색 엔진에 ‘위키피디아에서 소녀시대’라고 검색을 시도한다.
물론, 이것은 상당히 LG전자 제품에 중심을 맞춘 시연 영상이다. 경쟁사의 서비스의 장점보다는 Q보이스의 장점을 보여주는데 치중하고 있어 객관적인 자료로 활용하긴 어렵다. 그러나 자연어 처리에 능숙하고 일상 대화를 문제 없이 받아내는 모습은 확실히 인상적이다. ‘위키피디아에서 소녀시대를 찾아줘’라고 말했을 때, 형태소를 분리해서 ‘소녀시대’만 검색할 수 있는 것은 독자 기술인 ‘베르니케’ 덕분이다.
LG전자 관계자는 “20~30대는 명사위주로 명령어를 말하는 반면, 40~50대 분들은 서비스의 인텔리젼스에 대한 기대치가 매우 높아서 ‘우리 딸에게 전화 걸어줄래?’라는 식으로 문장 전체를 다 말한다”며 “이런 부분을 모두 지원하도록 한국적 UX를 강화했기 때문에 일상 언어도 문제 없이 인식한다”고 설명했다.
자연어 처리 기술 ‘베르니케’로 승부수 띄운다
결국, LG전자 Q보이스의 가장 큰 경쟁력은 자연어 처리를 위한 독자 기술인 ‘베르니케’다. 이 단어의 사전적 의미는 뇌에서 말을 이해하는 영역을 일컫는 것으로, 뇌의 언어 처리 체계를 본따왔다. 구글이나 블링고의 자연어 인식과 같은 맥락의 기술이다.
▲ Q보이스의 사용 예시
예를 들어 음성인식 서비스를 사용할 때 “장동건에게 전화해줘”라고 할 때 ‘장동건’과 ‘조사’가 맞물려 어떤 의미인지 인식하지 못하는 경우가 있다. 이때 자연어 인식 능력이 필요한 것이다. 이것은 텍스트 기반의 기술로, 어떤 식으로 문맥을 이해하는지에 관한 내용이다.
음성인식 결과로 텍스트가 입력되면, 베르니케는 해당 텍스트의 맥락과 일치하는 사항을 자체 구축한 데이터 베이스에서 검색한다. 그러나 사람의 언어는 개인차가 많아 데이터 베이스와 일치하지 않는 경우가 대부분이다. 결국 추론 확률모델을 통해 가장 적합한 답을 찾아낸다는 원리다. 이 과정이 체계화 돼있을수록 “광화문 지도 검색”이라는 딱딱한 명령어 대신 “광화문 가는 길 알려줘”라는 일상 언어를 쉽게 알아듣는다. 또, 연속된 질문에서도 맥락을 파악하고 대답할 수 있게 된다.
현재는 시연 영상으로 공개된 단편적인 내용이 전부이지만, 베르니케 기술이 제 몫을 다한다면 충분히 영향력 있는 서비스가 될 것으로 전망된다. 경쟁작인 시리를 일부 의식한 듯 보이지만, “농구를 잘하냐”고 물으니 “팔이 짧아 드리블을 못한다”고 대답하는 등 유머러스한 요소까지 갖추고 있다.
음성 인식 서비스 도중 타이핑 모드 전환이 가능하며, 앱 실행이나 설정 부분까지 음성으로 제어가 가능한 점을 볼 때, 활용 영역을 넓혔다는 점에서도 높이 평가된다. 시리에 비해 인식 속도가 조금 느리다는 지적도 나왔지만, 실제 서비스를 통해 확인해 볼 문제다.
LG전자는 향후 출시될 전략 스마트폰에는 Q보이스를 기본 탑재한다는 방침이다. 내년에는 글로벌 시장을 겨냥한 영어 버전 출시를 앞두고 있어, ‘Q보이스’가 좀처럼 ‘한 방’을 찾지 못하고 있는 LG전자 스마트폰에 새로운 국면을 제시할지 귀추가 주목된다.
하경화 기자 ha@it.co.kr