옛 공상과학물을 접하면 어김없이 등장하는 기술들이 있다. 시간 여행을 한다거나, 우주를 광속 이상으로 돌파한다거나 총에서 레이저가 나가고 마치 앞에 진짜 사람이 있는 것 같은 영상(홀로그램)도 나온다. 이 중에는 어느 정도 가능한 기술도 있고 실현이 어려운 것들도 있다. 실제로 과거 공상과학물에 구현된 기술 일부는 실제 현실에서도 조금이나마 구현되어 우리의 삶을 편하고 풍족하고 만들어 준다.
▲ '도와줘!'하면 달려오는 키트. 내 든든한 방패죠~ 따봉!
음성인식도 그 중 하나가 아닐까? 우리들에게 전격 Z작전으로 유명한 나이트 라이더(Knight Rider)에서는 주인공인 마이클 나이트가 손목에 찬 시계로 ‘도와줘! 키트!’를 외치면 어디선가 차량이 굉음을 내며 달려와 위기에서 벗어나도록 도와준다. 부르는 것 외에도 키트는 차량 내에 인공지능까지 내장되어 대화도 나눌 수 있었다. 놀랍지 않은가?
다양한 기술들이 현실화되고 있지만, 최근에는 인공지능과 함께 음성인식 기술의 성장이 무섭게 진행되고 있다. 특히 우리가 손으로 쥐어 쓰는 스마트 디바이스 내에서 그 기세를 넓히는 중이다. 파죽지세로 발전 중인 스마트 디바이스 음성인식. 어디까지 왔고, 우리는 무엇을 쓸 수 있을까?
음성인식, 어디까지 왔니?
음성인식이 처음 등장한 것은 1950년대로 평가한다. 그리고 본격적인 음성인식은 1960년대가 되어야 가능하게 된다. IBM이 개발했는데, 간단한 계산 기능과 함께 16단어 인식이 가능했다. PC에서는 1980년대가 되어서야 음성인식 기술이 도입됐다. 용받아쓰기(DragonDictate)...라고 하면 될까? 도스용 소프트웨어로 낱말단위의 인식과 표현이 가능한 수준이 되었다.
모바일은 2000년대 초반에 음성인식 기술이 점차 적용되면서 고개를 들기 시작했다. 하지만 저장공간이나 기술의 한계로 기능의 제한은 존재했다. 그럼에도 통화나 관련 기능을 활용하는데 무리 없는 수준이었다. 예로 음성으로 번호를 입력하거나 이름을 불러오는 정도가 가능했었다.
이후 공간이나 성능에 대한 제약이 점차 희미해지면서 다양한 기술이 접목됐다. 여기에 무선통신 속도의 향상도 음성인식 영향력 확대에 큰 도움을 줬다.
그 때문인지 스마트폰 제조사와 운영체제 개발사는 각각 특징을 살린 음성인식 기능을 탑재하기 시작했다. 삼성 S 보이스, LG Q보이스, 애플의 시리와 구글의 구글 보이스(및 어시스턴트), 마이크로소프트의 코타나 외에도 최근 서비스를 준비 중인 삼성 빅스비에 이르기까지 다양하다.
▲ 삼성 S 보이스와 LG Q 보이스는 간단한 음성 명령 또는 대화가 가능한 구조다.
먼저 삼성 S 보이스와 LG Q 보이스는 단순한 명령을 내리는 것을 목적으로 개발했다. 음성으로 전화 연결을 한다거나 문자 메시지를 보낼 수 있다. 스마트폰 내 필요한 기능을 불러오는 것도 가능하다. 애플리케이션을 실행하거나 특정 SNS에 글을 등록하고, 인터넷 검색도 지원한다. 하지만 대부분 사용자가 기기에 일방적인 메시지를 전달하는 방식이다.
초기에는 부족해 보였지만 차차 업그레이드 되면서 질문에 답을 해주거나 회피하는 방법으로 진화하기 시작했다. 그러나 이것도 대부분 자연스러움과는 약간의 거리감이 있었다. 단답형으로 끝난다거나 다양한 대화를 하려고 하면 이해하지 못한다는 메시지와 함께 종료되는 일이 잦았다. 마이크로소프트의 코타나는 한국어를 아직 지원하지 않아 제대로 쓸 수 없다.
▲ 시리야 내 외로움을 달래줄래? '...'
애플의 시리나 MS 코타나도 비슷하지만, 초창기 음성인식에 비해 진화한 입력 기능을 제공하고 있다. 어떻게 보면 시리는 스마트폰 인공지능의 시발점이라 할 수도 있겠다. 사람의 음성을 인식하고 해당 명령을 수행하지만 말하는 사람의 의도를 어느 정도 파악하고 그에 맞는 대응이 가능하다. 아직 복잡한 언어에 대한 수행 능력은 낮지만 앞으로의 가능성은 충분하다.
▲ 갤럭시 S8 시리즈에도 음성기반 인공지능 비서 빅스비가 탑재된다. 호오...
최근 등장한 삼성전자의 스마트폰 갤럭시 S8 시리즈에도 음성기반 인공지능 비서 빅스비(Bixby)를 탑재한다. 이 기능은 스마트폰 내 설치된 기본 애플리케이션을 인공지능(AI)으로 제어할 수 있는 것을 목표로 설계됐다. 개방형 인공지능 플랫폼을 만들어 타 개발사들이 삼성 플랫폼으로 집중하게끔 할 계획도 세웠다. 삼성은 빅스비를 활용해 가전제품과 연동, 스마트홈 시장 개척도 꿈꾸고 있다.
빅스비는 인공지능을 활용한 것으로 알려져 있다. 대부분 음성 인식 서비스는 특정 앱을 실행하거나 일부 기능에만 대응하고 있는데, 빅스비는 거의 대부분의 기능을 음성으로만 실행 가능하다는 것을 강점으로 내세운다.
우리의 상상 속 인공지능의 모습은?
이제야 인공지능과 음성인식이 고개를 들고 있지만 사실 이런 상상은 지금까지 쭉 이어져 왔다. 그럴듯한 상상력 속에는 늘 두 아이템이 존재해왔다. 당시 기술이 상상력을 추월하지 못했을 뿐이다. 우리가 즐겨봤던 만화영화 속에서 이들은 때론 친근하면서도 때론 공포의 대상이 되곤 했다. 곰곰이 생각해 보면 후자가 더 많았던 것 같다.
▲ 인공지능의 끝판대장은 스카이넷이 아닐까? 그 위로는 울트론이 있고... 응? <영화 터미네이터 : 제니시스 중>
대표적으로 몇 가지 살펴보고 가자. 가장 유명한 것은 바로 터미네이터의 스카이넷이 아닐까 한다. 최신작인 터미네이터 : 제니시스에서는 사이버다인이 개발한 운영체제, 제니시스가 스카이넷으로 변하면서 지구를 파멸로 몰아가는 존재로 그려진다. 인류의 편의를 위해 개발한 인공지능 운영체제가 반대로 인류 문명을 송두리째 앗아가는 존재가 되었다.
▲ 나 삐졌어! 인류를 멸망시킬거야! 흥칫뿡!!! <영화 레지던트 이블 중>
그 다음은 레지던트 이블에 등장하는 레드퀸이다. 엄브렐러의 인공지능 슈퍼컴퓨터인 레드퀸은 인류를 말살하기 위해 모든 시스템을 장악하고 생물학 실험을 통해 다양한 생체병기를 개발하고 있었다지만 마지막에 기가 막힌 반전이 있다. 아무튼 레지던트 이블 시리즈에서 레드퀸은 엄브렐러의 자산을 보호하고 상부의 지시에 따르는 전형적인 시스템의 일부지만 상대에게는 무지막지한 인공지능으로 그려지는 모습이다.
예로 꼽은 두 영화는 시스템 어딘가에 있는 인공지능의 이야기. 한편 인공지능을 구체적으로 묘사하는 영화들도 많다. 주로 인간형 로봇(안드로이드)을 전면에 내세우는 경우가 대표적이다. 어떻게 보면 지금 우리가 접할 최종적인 인공지능 디바이스의 형태일지도 모른다.
▲ 이렇게 아름다운 인공지능 로봇 하나 들이실라우? "허허... 나야 고맙죠." <영화 엑스 마키나 중>
스티븐 스필버그 감독의 A.I는 대표적인 작품으로 꼽을 수 있겠다. 이후 엑스 마키나에서는 매력적인 여성형 안드로이드인 에이바와 인간(칼렙) 사이의 복잡미묘한 감정선을 그려낸다. 이 외에도 인간의 정신이 인공지능화 되는 형태의 공상과학영화도 다수 존재한다.
주목받고 있는 음성인식 제품들은?
음성인식은 인공지능의 인기와 함께 융합되어 발전 중이며, 현재는 제품화도 이뤄지면서 영향력을 확대해 나가는 중이다. 대표적으로 구글의 구글홈, 아마존 에코(Echo), SKT의 누구(NUGU), KT의 기가지니(GIGA GENIE), 샤오미 네트워크 스피커 등이다.
▲ 누구야 넌 누구니? 응??
SKT 누구는 계속 학습하면서 성장하고 발전하는 인공지능 디바이스라는 점을 강조한다. 이를 위해 누구나 주식회사라는 프로젝트를 실행하며 적극적인 행보를 보이기도 했다.
지난해 출시 당시에는 멜론 음악 재생을 시작으로 스마트홈, 일정과 날씨 안내, 알람 정도의 단순한 기능만을 제공했지만 11월부터 데일리브리핑, 팟캐스트, 주문배달(도미노피자, BBQ), 무드등의 역할이 더해지더니 1개월이 지난 12월에는 라디오와 위키검색, 티맵 길안내, 멜론 어린이(동요, 태교음악 등) 서비스를 추가하며 활용도가 대폭 커졌다. 3월에는 11번가 추천상품 및 구매, 국내 프로야구 결과 안내 서비스, 오늘의 운세를 제공하고 음성 알림을 설정하는 등 꾸준히 발전하는 모습을 보여주고 있다.
누구는 14만 9000원이라는 가격을 책정해 비교적 접근 장벽이 낮다. 초기 출시가격은 24만 9,000원이었지만 시장 확대를 위한 공격적 정책을 펼친 결과다. 인공지능이라는 것이 많은 사람들이 사용하면서 데이터베이스 구축이 되어야 효과를 극대화할 수 있다는 점도 가격 인하에 영향을 준 것으로 보인다.
조작은 스마트폰 애플리케이션을 활용하거나 기기에 있는 음성인식 버튼 등을 쓰면 된다. 버튼을 눌러 말을 하면 기기가 이를 인지해 그에 맞는 대응을 해준다. 주문을 한다거나 명령을 내려 필요한 기능을 실행할 수도 있다.
▲ KT의 서비스들을 잘 버무린 기가지니.
KT의 기가지니도 마찬가지다. 하지만 아직 제품 자체로만 본다면 음성명령을 중심으로 다양한 기능을 수행하는 기기 정도로 비춰진다. KT도 인공지능을 주력으로 내세우기보다 UHD 올레TV 셋톱박스 기능과 스피커 성능 등 기기 자체를 강조하고 있다. ‘인공지능 TV 그 이상, 미래를 담은 스페이스십’을 슬로건으로 내세운 것과 비교하면 다소 밋밋해 보인다.
일단 기능적으로 보면 KT 기가지니의 활용성도 다양하다. 기본적으로 UHD 올레TV 셋톱박스 기능이 있어 음성 명령으로 주요 기능을 수행한다. 예로 “기가지니, 티비 켜’라고 말하면 올레TV가 활성화되는 방식이다. 물론, 올레TV를 보려면 서비스 가입을 해야 된다.
영상통화, 지니 음악 감상, 음식 주문, 날씨 확인, 대화, 라디오, 알람, 일정 관리, 뉴스 검색 등 주요 기능은 SKT의 누구와 동일하다. 돋보이는 점은 택시 부르기와 버스 도착 시간 정도다. 조작도 누구와 마찬가지로 스마트폰 애플리케이션을 쓰거나 기기에 대고 ‘기가지니, ㅇㅇㅇ해줘’라고 말하면 된다.
KT는 기가지니를 3년 임대 기준 월 6,600원에 책정했다. 총 23만 7600원에 해당되는데, 누구와 비교하면 가격이 높다는 점 참고하자.
▲ 아마존도 에코 라인업을 통해 음성인식 서비스를 하고 있다.
이 외에 사물인터넷(IoT)과 결합한 음성인식 제품들도 존재한다. 대표적으로 구글 홈이나 아마존 에코, 샤오미 네트워크 스피커 등을 꼽을 수 있겠다. 이들은 사람의 음성을 인식해 다양한 기능을 수행하는 디지털 음성 보조 기기(Digital Voice Assistant Device)로 분류되고 있다. 사실, 누구나 기가지니도 이런 디지털 음성 보조 기기라 할 수 있겠다.
아마존 에코도 와이파이를 활용해 검색이나 알람, 일정 확인, 음악 재생 등 여러 기능을 음성으로 수행한다. 초기에는 기능이 제한적이었으나 여러 기업이 동참하면서 쇼핑부터 음식 주문, 스마트 홈 기능까지 제공된다. 여기에서 스마트 홈은 조명을 제어하거나 TV를 켜고 끄는 등의 행동을 말한다.
음성 인식에는 알렉사가 쓰인다. 예로 ‘알렉사, 음악 들려줘~”라고 말하면 음악을 재생해 준다는 말이다. 이는 다른 음성인식 기기와 동일하다.
▲ 구글도 머신러닝을 활용하는 어시스턴트로 다양한 제품을 선보이고 있다.
구글은 머신러닝 기능을 활용한 구글 어시스턴트를 활용한다. 여러 사람의 음성을 배우며 저장해 놓은 방대한 데이터를 활용해 자연스러운 명령 수행이 가능하다는 점을 강조한다. 특히 자연어 처리 능력에서 좋은 실력을 보여준다고. 아마존 에코에 탑재된 알렉사는 단문 위주이고, 매번 알렉사라는 명령어를 말해야 되지만 구글홈은 명령어가 되는 ‘오케이 구글~’을 계속 말하지 않아도 된다. 기동을 위해서는 한 번 정도는 불러야 되지만 활성화된 상태라면 자연스럽게 대화하듯 명령하는 구조다.
구글은 실내는 물론 이미 전 세계에서 쓰이는 안드로이드 스마트폰과 웨어러블 장치를 활용할 수도 있다. 외부에서 가정에 있는 구글홈과 연결해 기능을 수행하는 것도 가능하다. 이 기기도 다른 서비스와 마찬가지로 검색과 일정, 음악재생 등 다양한 일을 처리한다. 아마존 에코는 에코닷이 49.99달러, 에코가 179.99달러, 탭이 129.99달러 정도에 구매 가능하다. 구글 홈은 베스트바이 등 쇼핑몰에서 129달러에 판매 중이다.
음성인식·인공지능의 가능성과 미래는...
아직 걸음마 단계라 하더라도 인공지능과 음성인식에 대한 기술 개발은 꾸준히 이뤄지고 있다. 무엇보다 두 기술은 앞으로의 산업 발전에 큰 영향을 줄 정도로 중요도가 높다. 당장 인공지능만 하더라도 자율주행차 시장과 조립 및 서비스 산업에 도입이 이뤄지고 있다. 음성인식도 마찬가지다. 간단한 명령을 처리하던 것은 시간이 흐르며 사람의 목소리를 인지한 보안이나 인공지능과 연계한 복잡한 작업에 쓰이고자 연구 개발 중이다.
이들 기술의 발달로 우리의 삶이 어떻게 변할지는 장담이 어렵다. 더 풍요롭고 고부가가치 산업으로 전환될 것이라 보는 전문가도 있지만, 무차별적인 인공지능의 개발은 우리가 공상과학영화에서 봤던 파멸의 길로 이끌 것이라 보는 전문가 또한 존재한다. 기술을 어떻게 이로운 방향으로 이끌 것인지 여부는 사회와 대중이 합의해 나가야 할 부분이다.
갑자기 마지막이 무거워질 기세인데, 가볍게 보자면 음성인식과 인공지능 기술의 가능성과 미래는 무궁무진하다. 이들이 어떤 방향으로 발전하고 동시에 우리는 그 기술들을 어떻게 누릴 수 있을지 기대해 보는 것도 즐거운 일이 아닐까 생각해 본다.
기획, 편집 / 다나와 홍석표 (hongdev@danawa.com)
글, 사진 / 테크니컬라이터 강형석 (news@danawa.com)
(c)가격비교를 넘어 가치쇼핑으로, 다나와 (www.danawa.com)








