출처 : 챗GPT 생성 이미지
음성으로 명령하고, 대화하며, 일상을 관리하는 시대가 현실로 다가오고 있다. 트윌리오와 줌, 마이크로소프트(MS), 구글 등 글로벌 IT 기업들이 앞다퉈 ‘음성 중심’ 인공지능(AI) 기술을 상용화하며 인간-컴퓨터 소통 방식을 새롭게 바꾸고 있다.
이 같은 변화의 중심에는 ‘음성(voice)’이 새로운 입력 수단으로 자리잡는 흐름이 있다. MS는 윈도우 11을 전면 개편해 “헤이, 코파일럿(Hey, Copilot)”이라는 호출만으로 컴퓨터를 제어할 수 있도록 했다. 사용자는 문서를 편집하거나 파일을 정리하는 일을 AI에 말로 맡길 수 있으며, AI가 직접 PC 내 애플리케이션을 자동으로 조작하기도 한다. MS는 이를 “운영체제 전체의 AI화”로 정의하며, 고급 하드웨어 없이도 모든 윈도우 11 PC에서 작동하게 설계했다.
출처 : Microsoft 뉴스룸
트윌리오 CEO 코제마 시프찬들러는 최근 “사람들은 오히려 사람보다 음성 AI와의 대화를 더 편하게 느낀다”며 “AI는 지식의 불균형이나 어색한 침묵이 없기 때문”이라고 말했다. 실제로 최근 음성 AI는 지연 시간과 인식 오류가 눈에 띄게 줄며 상용화 속도가 빨라지고 있다. 줌 역시 다국어를 지원하고 자연스러운 발음을 구현하는 AI 에이전트 개발에 투자하며, “대화 중 어색한 정지를 완전히 없애겠다”는 목표를 세웠다.
구글은 미국 사용자들을 대상으로 음성 기반 ‘헬프 미 에디트(Help me edit)’ 기능을 구현했다. “그림자 제거해줘”나 “배경을 바꿔줘”처럼 단순한 명령만으로도 AI가 즉시 작업을 수행한다.
편집을 위해 어떤 도구를 사용할지 일일이 지정할 필요가 없고 일반적인 수정이나 구체적인 수정을 모두 가능하며 한 번에 여러 수정을 요청할 수도 있다. 복잡한 편집 기술을 모르는 사용자라도 말 한마디로 전문적인 결과물을 얻을 수 있는 것이다.
출처 : propakistani
전문가들은 이러한 음성 AI의 확산이 인간의 소통 방식과 기술 사용 습관을 근본적으로 바꿀 것으로 본다. 음성은 타이핑보다 직관적이고 접근성이 높아, 의료 상담부터 음식 주문, 사무 업무까지 광범위하게 적용될 가능성이 크다.
다만 ‘보이스 스푸핑’과 같은 보안 위협은 여전히 풀어야 할 과제며 실사용 환경에서는 여전히 개선이 필요하다. 최근 타코벨과 맥도날드가 드라이브-스루 주문에 도입했던 음성 AI 시스템을 중단한 이유도, AI가 음성 명령을 제대로 인식하지 못했기 때문이다. 제이 골드 어소시에이츠의 수석 애널리스트 잭 골드는 “음성 인공지능은 텍스트 기반 AI보다 훨씬 구현이 어렵다”고 말했다. 골드는 “같은 언어라도 지역별 억양과 발음, 의미 차이가 크기 때문에, 예를 들어 미국 남부 억양과 뉴잉글랜드식 발음 간에는 AI가 인식해야 할 변수가 너무 많다”고 지적했다.
음성 인공지능은 아직 완벽하지 않지만, 이미 사람처럼 말하고 반응하기 시작했다. 기술의 진화가 이어질수록 우리는 곧 컴퓨터와 대화하듯, 일상의 대부분을 목소리로 처리하는 시대를 맞이하게 될 것이다.
글 / 김지훈 news@cowave.kr
(c) 비교하고 잘 사는, 다나와 www.danawa.com