비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

SF 영화처럼 음성만으로 PC를 제어할 수 있을까?

다나와
2026.03.18. 14:43:05
조회 수
899
27
댓글 수
14

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

▲ 2001 : 스페이스 오디세이의 한 장면

<이미지 출처 : 2001 : A Space Odyssey 공식 페이스북 페이지>


SF 영화 ‘2001 스페이스 오디세이’에서는 HAL 9000이라는 인공지능에게 오직 음성만으로 명령을 내린다. 마우스나 키보드 같은 입력 장치는 등장하지 않는다. 우주선의 해치를 열거나 포드를 발진시키는 위험한 작업조차 단 한 번의 음성 명령으로 수행된다. 1968년에 개봉한 작품이라는 점을 감안하면, 당시에는 인간이 목성까지 오가는 먼 미래에서나 가능한 이야기처럼 보였을 것이다. 시간이 흘러 2000년대를 풍미한 마블의 아이언맨 시리즈에서도 유사한 장면이 이어진다. 토니 스타크는 AI 비서 자비스에게 말을 걸어 설계 작업을 진행하고, 각종 장비를 제어한다. 심지어 해킹이나 시스템 분석 같은 복잡한 작업까지도 음성 명령만으로 처리한다. 이후 자비스는 인피니티 스톤을 통해 ‘비전’으로 다시 태어나며 또 다른 존재로 확장된다.



이러한 장면들을 보다 보면 한 가지 궁금증이 떠오른다. 과연 이런 일이 현실에서도 가능할까? 물론 AI가 히어로로 재탄생하는 설정은 영화적 상상력에 가깝다. 그러나 적어도 컴퓨터를 음성만으로 제어하는 환경 정도는, 이제 현실에서도 구현할 수 있는 단계에 가까워 보인다. 특히 최근 급격히 발전한 생성형 AI를 보면 더욱 그렇다. 그렇다면 ChatGPT나 구글 제미나이 같은 AI 서비스는 단순한 음성 인식을 넘어, 대화까지 가능한 수준일까? 이미 스마트폰에서는 음성 명령으로 다양한 기능을 수행할 수 있다. 그렇다면 PC에서도 비슷한 방식의 인터페이스가 충분히 가능하지 않을까?


▲ AI generated image @Google Gemini 3


답은 NOT YET! 현재 서비스 중인 AI는 사용자의 음성을 인식하고, 그 의미를 해석하는 LLM(대규모 언어 모델)을 기반으로 동작한다. 하지만 프로그램 실행이나 마우스 클릭, 키보드 입력처럼 실제 PC를 직접 제어하는 단계까지는 이르지 못했다. 권한 관리와 보안, 윤리적 문제 등 여러 이유로 인해 AI는 어디까지나 명령을 이해하고 분석하는 역할에 머무르고 있다.


물론 HAL 9000이나 자비스 수준에는 미치지 못하더라도, PC의 일부 기능을 음성만으로 제어하는 방법은 분명 존재한다. 여러 프로그램을 함께 활용해야 하는 번거로움은 있지만, 오히려 이를 통해 ‘미래의 AI PC’를 미리 체험해볼 수 있는 흥미로운 과정이기도 하다. 지금부터 단계별로 따라 하며 그 재미를 직접 느껴보자.


Windows 11 기본 음성 제어 사용해 보기



많은 사람들이 잘 모르는 사실이지만 Windows 11에는 이미 음성 제어 기능이 포함되어 있다. 바로 Voice Access라는 기능이다. Voice Access를 활성화하면 마우스를 사용하지 않고도 PC를 조작할 수 있다. 프로그램 실행이나 스크롤, 버튼 클릭, 텍스트 입력 같은 기본적인 작업이 가능하다. Windows 11 설치 후 기본 설정에서는 비활성화되어 있지만, [Win+Ctrl+S]를 누르거나 [설정]→[접근성]→[상호작용]→[성]으로 들어가 음성 액세스 부분을 켬으로 설정하면 활성화된다. 



한글 Windows 11이라면 Voice access를 처음 시작했을 때 언어팩을 내려받으라는 안내창이 팝업된다. 물론 중국어와 일본어는 지원하지만, 한국어는 항목에 존재하지 않는다. 일단 미국식 영어(?) 언어팩을 내려받고 설치하면 Voice access가 시작된다. 




Voice access는 별도의 큰 창이 팝업되는 것이 아니라 화면 상단에 얇은 바 형태로 나타난다. 이 바가 나타난 상태에서 “Open Chrome”, “Scroll Down”, “Click Start” 같은 명령을 말하면 해당 작업이 실행된다. 다만 한 가지 문제가 있다. 현재 Voice Access는 한국어를 지원하지 않다는 점이다. 한글이 아니라 '한국어'다. Windows 10의 경우 이 기능이 더 제한적이어서 활용도 역시 낮은 편이다. 그래서 많은 사용자들이 외부 프로그램을 이용해 음성 제어 기능을 확장한다.



한국어로 명령 내리는 첫 걸음 : 'Voiceattack'


한국어로 PC를 컨트롤하려면 크게 세 단계로 이루어지는 알고리즘을 먼저 이해해야 한다. 사용자가 음성으로 명령을 내리면 PC가 그 음성을 인식하는 단계가 첫 번째다. 그 다음은 인식한 음성 명령을 실행하는 스크립트가 필요하다. 이 과정에서 음성을 인식하는 것은 Voice Attack이라는 프로그램이 담당하고 그 명령을 실제 수행하는 스크립트는 AutoHotKey가 담당한다. 



제일 처음 설치할 프로그램은 귀 역할을 하는 Voiceattack이다. 원래 플라이트 시뮬레이션 게임이나 FPS 게임에서 긴급하게 명령을 수행하기 위해 자주 사용되는 프로그램으로 정식 버전은 약 10달러 정도다. 무료 버전도 제공하지만 사용할 수 있는 음성 명령이 20개로 제한되고 프로필은 1개만 사용할 수 있다.



Voiceattack의 설치 과정에서의 중요한 포인트는 스피치 엔진이다. 이 스피치 엔진이 영어를 비롯해 다양한 언어들을 인식할 수 있는 가장 핵심적인 기능을 담당한다. Voiceattack 설치 막바지, 스피치 엔진 경 메세지가 뜨면 파란색으로 표시되는 링크를 클릭하면 되는데, [Download and Install Runtime]를 누른 후 KOREAN 항목을 모두 설치하면 된다. 



설치가 끝난 후 메인 화면에서 설정으로 들어가 [Recognition] 탭에서 스피치 엔진을 [Microsoft Server Speech Recognition Language - TLEL(ko-KR)]로 바꿔주고 설치된 마이크를 잘 선택하면 사전 준비는 모두 끝나게 된다. 



이제 한국어 명령(command)을 추가하는 단계다. 앞서 언급한 대로 무료 버전은 명령어를 20개까지만 설정할 수 있고 이중 10개는 사전에 입력된 상태다. 물론 사전 입력된 명령어는 모두 영어로 되어 있으며 가령 calculator라고 말하면 계산기가 실행되는 등 Windows의 기본적인 구동과 관련된 것들이 대부분이다. 



우측 상단의 [New Command]를 누르고 크롬 웹브라우저를 실행하는 명령을 만들어보자. 우선 [When I Say] 항목에서 한글로 [크롬 열어]를 입력한다. 한글 스피치 엔진이라 여기에 입력된 단어를 그대로 인식하기 때문에 너무 길거나 발음이 어려운 것은 피하는 게 좋다. 



솔직히 Voiceattack에서도 간단한 Windows 구동 명령은 가능하다. 가령 '크롬 열어'라고 말했을 때 구글 웹브라우저인 크롬이 실행되게끔 설정하려면 [Other]-[Windows]-[Run an Application]을 선택한 후 크롬이 설치된 파일의 경로를 입력해주면 끝난다. 하지만, 그야말로 1차원적인 기초 명령어일 뿐 여러 단계를 거치는 복잡한 명령어를 입력하기엔 부족함이 있다. 그래서 AutoHotKey 프로그램을 함께 구동시키는 게 좋다. 



실제 명령을 수행 하는 건 'AutoHotKey'



AutoHotKey는 원래 반복 작업을 쉽게 할 수 있도록 매크로를 짜주는 프로그램으로 사용료는 없는 무료 애플리케이션이다. 설치도 꽤 간편해 누구나 쉽게 활용이 가능하다. 



AutoHotKey는 명령 스크립트를 ahk 확장자를 가진 파일 형태로 저장한다. 따라서 Windows 탐색기를 열어 스크립트를 저장할 폴더를 만들어주고 빈공간에서 마우스 우클릭→[AuotoHotKey Script]를 선택한다. 



그럼 위와 같은 창이 팝업되는데, 파일 이름으로도 사용되는 매크로 이름을 제일 윗 칸에 기입한 후 Empty 옵션을 선택, Create 버튼을 눌러 스크립트 파일을 하나 생성한다. 



그 후 생성된 스크립트 파일을 메모장에서 열어 크롬을 실행시키는 명령어를 기입 후 저장한다. 예시를 들어서 단순한 실행 명령어를 기입했을 뿐 더 복잡한 명령도 가능하다. 그것이 Voiceattack을 단독으로 사용하는 게 아니라 AutoHotKey를 연동시키는 가장 큰 이유다. 하지만, 코딩에 대한 지식이 약간 필요한 단계이므로 AI의 도움을 받는 게 좋다. 



[크롬을 실행]시켜 ['재즈 음악'을 검색한 후] 나오는 검색 [결과물의 처음 영상을 재생]하는 스크립트를 챗GPT로 생성해보았다. 검색까지는 URL 쿼리로 간단하게 해결할 수 있는데, 자동으로 영상을 재생하는 명령은 특정 위치에 마우스 포인터를 이동시킨 후 클릭하는 스크립트를 사용했다. 사용자 모니터의 해상도에 따라 이 좌표가 달라지기 때문에 일정 조절이 필요한 작업이다. 이 스크립트를 파일로 저장한다. 



이제 Voiceattack으로 돌아와 새로운 명령어 입력 창을 띄운 후 "유튜브 재생", "음악 틀어" 등 적절한 한국어 명령을 기입. [Other]-[Windows]-[Run an Application]을 누른 후 AutoHotKey가 설치된 폴더를 찾아간 후 AutoHotKey64.exe 파일을 선택한다. With these parameters 항목은 방금 만들었던 스크립트 파일을 따옴표 안에 넣어 기입한다. 이 점이 AutoHotKey를 사용하는 가장 중요한 이유다. 




모든 설정을 잘 마무리했다면 위 시연 영상같이 PC를 음성으로 구동할 수 있다. 촬영 거리가 멀어서 명령어를 크게 소리친 것만 제외하면 제법 그럴싸한 신기함이 느껴진다. 물론 스마트폰의 빅스비, 시리같이 빠릿빠릿한 느낌은 없지만, 하나하나 명령어를 설정해 가며, 스크립트를 작성해가며 재미를 느끼기엔 부족함이 없다. 참고로 음악을 자동 재생하는 스크립트는 브라우저의 로딩 시간을 감안해 중간 대기 타임을 부여한 것으로 짧게 설정하면 훨씬 빨리 재생된다. 



AI가 명령어를 분석해준다면???

▲ 챗GPT가 1분도 안되어 생성해준 명령어 스크립트 파일들. Voiceattack 매칭은 수동이다. 


지금까지 설정한 음성 명령 PC는 명령어 하나하나를 Voiceattack에 입력 후 스크립트 파일까지 생성하는 단계를 거쳤다. 꿈꿔왔던 HAL 9000이나 자비스에 비하기엔 너무나 조악하고 설정이 원시적이다. 이쯤에서 AI 생각을 할 수 밖에 없다. 처음 생각은 수많은 스크립트 파일들을 챗GPT를 통해 자동  . Voiceattack        다. 


하지만, 이보다 더 나아가 아예 AI의 LLM 엔진을 음성 명령 분석과 실제 명령어 도출에 활용하면 PC는 더욱 HAL 9000과 자비스에 가까워진다. 예를 들어 “크롬 열어”라는 명령은 “인터넷 좀 켜줘”, “브라우저 띄워”와 의미가 일맥상통한다. 모두 인터넷 브라우저를 여는 명령어로 귀결되기 때문이다. 더 나아가 “유튜브에서 재즈 틀어줘”, “조용한 음악 틀어줘”처럼 모호한 요청도 맥락을 이해해 실행할 수 있다. 이는 단순히 명령어를 하나씩 늘리는 방식으로는 구현할 수 없는 무한의 영역이다. 



▲ 챗GPT와 AutoHotKey를 연동시키는 영상


Whisper와 OpenAI의 API를 연동시켜 Voiceattack에서 인식된 자연어를 챗GPT로 분석, 정리해 도출된 명령어를 AutoHotKey나 Microsoft Power Automate Desktop같은 프로그램으로 실행하는 구성이 가능하다. 이번 기사에서 살펴본 VoiceAttack과 AutoHotKey의 구성이 이미 정해진 명령만 수행하는 도구라면, 여기에 AI가 더해진 순간부터는 ‘사용자의 의도를 이해하는 비서’로 성격이 바뀌게 되는 것이다. 


하지만, 이 연동 과정에서  설정하기에 어려운 파이썬 코딩의 지식이 필요하고(AI에게 맡겨도 되지만) API 사용료가 따로 발생하는 등 넘어야할 산이 많다. 또한, 권한이 높아질 수록 Format이나 Delete같은 PC 시스템을 파괴할 수 있는 명령어를 오용할 수 있는 가능성이 있으므로 명령과 동시에 '제한'의 작업도 필수로 따라오게 된다. 


물론 AI 서비스가 발전에 발전을 거듭하면 언젠간 손쉽게 HAL 9000과 자비스로 진화하겠지만, 현재 상황에서 한국어 음성으로 PC를 제어하는 것은 많이 번거롭고 누군가에게는 상당히 어려운 작업이다. 하지만, 음성 명령을 입력하고 처음 성공한 순간 그 짜릿함은 오랜만에 느끼는 희열이었다. 여기에 스크립트 파일 하나하나 정성스럽게 매칭하며 음성 명령만으로 PC를 제어해보겠다는 집념까지 생겨 즐거운 시간을 보낼 수 있었다. 언젠가 기회가 된다면 열심히 공부해 챗GPT로 자연어 명령을 내릴 수 있는 PC를 셋팅해보고 싶다. 



기획, 편집, 글 / 다나와 정도일 doil@cowave.kr

(c) 비교하고 잘 사는, 다나와 www.danawa.com

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
저작권 안내
크리에이트 커먼즈 저작자 표시 필수 상업성 이용 불가 컨텐츠 변경 불가
저작권 안내
저작권 표시 필수
상업성 이용 불가
컨텐츠 변경 불가
* 본 내용은 위의 조건을 충족할 시, 별도의 허가 없이 사용이 가능합니다.

관련 상품

1/1

관련 카테고리

1/1

관련 브랜드로그

1/1
최신 기획뉴스 전체 둘러보기
2/1
SF 영화처럼 음성만으로 PC를 제어할 수 있을까? (14) 다나와
[넥스트 모빌리티] '수소를 일상으로' 토요타 '미하루 하우스' 프로젝트 오토헤럴드
[포토] 압도적 기계룡의 위엄, 붉은사막 컬렉터스 에디션 (1) 게임메카
이번 봄에 주목해야 할 호텔 ‘코트야드 메리어트 서울 명동’ 트래비
남국의 비경 일본 미야자키 ③대자연이 빚은 작품들  트래비
남국의 비경 일본 미야자키 ②니치난 해안에서 마주한 것들 트래비
[르포] 예테보리에서 탄생하는 프리미엄 전기차 디자인…‘지커 글로벌 디자인 센터’ IT동아
엔비디아, 베라 루빈·그록 3로 학습 넘어 추론까지··· 국내 AI 반도체 '생존 해법'은? IT동아
AI 시대 스타트업 성장 전략 제시, AWS 유니콘데이 IT동아
폴드·카메라·가격까지 전부 흔들린다… 이번 주 IT 루머 핵심 정리 (6) 다나와
'이게 다 전기차 덕분이었네' 자동차 평균 연비 사상 최고치 기록 오토헤럴드
[위대한 발명 ③ 디스크 브레이크] 자동차 기술 진화의 핵심은 '정지' (1) 오토헤럴드
[모빌리티 인사이트] 'AI·로봇이 공장을 바꾼다' 세 번째 산업 혁명 시작 (2) 오토헤럴드
[정석희의 기후 에너지 인사이트] 6. 왜곡된 기후 데이터의 함정과 과학적 실체 IT동아
가파른 성장세 'AGI'...차별화된 기술력과 서비스로 국내 시장 공략 (1) 미디어픽
[숨신소] '압긍'받은 기괴한 마인크래프트 '루시드 블록' 게임메카
얼굴 하나로 감정, 음주, 졸음까지 읽는다, AI 단일 네트워크의 등장 AI matters
AI가 AWS 클라우드 해킹을 탐지, RAG 기술이 보안 정확도를 70% 끌어올렸다 (1) AI matters
챗GPT가 스스로를 복사하기 시작했다, 인터넷 오염이 부른 AI 자기수렴 현상 AI matters
X3D 못 잃어. 16GB VRAM 못 잃어. 그렇다면 7500X3D+9070 (1) 기글하드웨어
이 시간 HOT 댓글!
1/4