비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI 비서, 정말 쓸모 있을까?… AI 에이전트 활용 방해하는 5가지 장벽

2025.09.24. 16:56:50
조회 수
47
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

미국 카네기 멜런 대학교 연구진이 102개 상용 AI 에이전트의 마케팅 사례를 체계적으로 분석하고, 31명을 대상으로 한 사용성 평가를 실시했다. 연구 결과 사용자들은 AI 에이전트에 전반적으로 만족했지만, 효과적인 활용을 방해하는 5가지 핵심 사용성 장벽이 확인되었다.

상용 AI 에이전트의 3가지 핵심 기능 분류체계 도출

연구진은 AI 에이전트 디렉토리(AI Agents Directory), 프로덕트 헌트(Product Hunt), 구글 클라우드의 '601개 실제 AI 활용 사례' 등을 통해 102개의 상용 AI 에이전트를 수집하고 분석했다. 그 결과 세 가지 주요 범주로 분류할 수 있음을 발견했다.

오케스트레이션(Orchestration) 에이전트는 사용자를 대신해 다른 소프트웨어 인터페이스를 조작하는 GUI 자동화 기능을 제공한다. 세일즈포스 에이전트포스(Salesforce Agentforce), 라이브엑스 AI 에이전트(LiveX AI Agent), 익스피디아 여행 매칭 AI 에이전트(Expedia Trip Matching AI Agent) 등이 대표적인 예시다.

창작(Creation) 에이전트는 시각적이고 정보 전달을 위한 구조화된 문서 작성을 돕는다. 러버블(Lovable), 감마(Gamma) 등이 이 범주에 속한다.

인사이트(Insight) 에이전트는 구조화되지 않은 정보 쿼리를 소화 가능한 통찰로 변환하여 사용자와 파트너십을 형성한다. 퍼플렉시티 딥 리서치(Perplexity Deep Research), 딜로이트 케어 파인더 에이전트(Deloitte Care Finder Agent), 스포티파이 AI DJ(Spotify AI DJ) 등이 포함된다.

오퍼레이터와 마누스를 활용한 31명 대상 사용성 평가 실시

연구진은 오픈AI의 오퍼레이터(Operator)와 마누스(Manus) 두 개의 상용 AI 에이전트를 선정해 사용성 평가를 진행했다. 31명의 참가자는 각각 3가지 대표 작업 중 2개를 무작위로 할당받아 수행했다. 오케스트레이션 작업은 3일간의 휴가 계획 수립, 창작 작업은 10분짜리 발표용 슬라이드 제작, 인사이트 작업은 2,000달러 개인 및 전문성 개발 예산 계획이었다.

참가자들은 시스템 사용성 척도(System Usability Scale)에서 평균적으로 '좋음(70-80점)'에서 '우수함(80-90점)' 사이의 점수를 부여했다. 특히 마누스를 이용한 슬라이드 제작 작업은 90.6점으로 '최고 수준'으로 평가받았다. 참가자 P23은 "모든 면에서 가치 있다"고 평가했으며, P26은 "매우 포괄적이고 철저하다"고 언급했다.


사용자가 직면한 5가지 핵심 사용성 장벽 발견

연구에서 확인된 첫 번째 장벽은 에이전트 능력과 사용자 멘탈 모델의 불일치였다. 사용자들은 프롬프트 입력을 "프롬프트 도박"이라고 표현할 정도로 결과를 예측하기 어려워했다. P22는 "너무 오래 걸리니까 질문하기가 두렵다"고 말했다. 일부 사용자는 작업을 개별 단계로 나누어 에이전트가 각 단계를 하나씩 수행하도록 했지만, 에이전트는 첫 번째 단계를 전체 작업으로 해석해 사용자가 갇힌 느낌을 받았다.

두 번째는 신뢰성과 보안을 입증하지 않고 신뢰를 전제하는 문제였다. P30은 "구글 계정 정보를 주고 싶지 않다"고 했으며, P26은 "먼저 수동으로 계획을 세운 다음 비교하겠다. 아직 완전히 신뢰하지 않는다"고 말했다. P22는 에이전트가 사용자 선호 사항을 묻지 않은 점을 지적하며 "침대 1개를 원하는지 2개를 원하는지, 수영장이 보이는 방을 원하는지 광장이 보이는 방을 원하는지 묻지 않았다"고 언급했다.

세 번째는 다양한 협업 스타일 수용 실패였다. 사용자들은 에이전트의 행동을 제어하는 효과적인 방법이 부족하다고 느꼈다. P26은 "궤도를 벗어날 때 일시 정지 버튼이 있었으면 좋겠다"고 했으며, P23은 "정지 버튼"을 원한다고 표현했다. 또한 사용자들은 에이전트가 원하는 능동성 수준에서 큰 차이를 보였다. P16은 "기본적인 것들은 직접 하고 싶다. AI를 확인용으로 더 활용하고 싶다"고 말한 반면, 다른 사용자들은 최소한의 개입을 선호했다.

네 번째는 과도한 커뮤니케이션 오버헤드 생성이었다. P18은 에이전트의 출력을 "끝없는 분출"이라고 표현했으며, P16은 "받아들이기에는 너무 많다. 너무 많은 정보를 던져줬다"고 말했다. 반면 P21은 "AI의 사고 과정을 보는 것을 항상 좋아한다"고 했으며, P23은 "실제로 마음이 작동하는 것을 보는 것을 좋아한다"고 긍정적으로 평가했다.

다섯 번째는 생산적인 협업을 가능하게 하는 메타인지 능력 부족이었다. 에이전트들은 자신이 무엇을 모르고 무엇을 할 수 없는지 알지 못했다. P16은 "특정한 것들에 접근할 수 없어서 할 수 없었다. 그냥 계속 빙빙 돌고 있었다"고 관찰했다.

AI 에이전트 시장의 미래, 사용자 중심 설계의 중요성

연구진이 제시한 6가지 설계 권고사항은 현재 AI 에이전트들이 직면한 사용성 문제 해결의 방향성을 제시한다. 사용자 개인화, 메타인지 능력 강화, 적응적 인터페이스, 계획-실행 단계별 사용자 제어권 보장, 다양한 입력 방식 지원, 정밀한 반복 수정 기능 등이 핵심이다.

특히 주목할 점은 연구 참가자들이 AI 에이전트의 능력 자체에는 깊은 인상을 받았다는 것이다. 시스템 사용성 척도에서 평균 70-90점대의 높은 점수를 기록한 것은 기술적 기반은 이미 마련되었음을 의미한다. 문제는 이 기술을 일반 사용자가 직관적으로 활용할 수 있도록 하는 인터페이스와 상호작용 설계다.

연구에서 드러난 "프롬프트 도박" 현상은 현재 AI 에이전트 업계가 해결해야 할 핵심 과제를 보여준다. 사용자가 명령어 입력을 도박에 비유할 정도라면, 이는 기술의 문제가 아니라 사용성의 문제다. 향후 AI 에이전트 시장에서 성공하는 업체들은 복잡한 AI 기술을 단순하고 예측 가능한 사용자 경험으로 번역해내는 능력을 갖춘 곳이 될 것으로 예상된다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: AI 에이전트 사용 시 가장 중요한 초기 설정은 무엇인가요?

A: 연구에 따르면 첫 번째 프롬프트가 전체 결과에 큰 영향을 미칩니다. 너무 간단하거나 지나치게 상세하지 않은 적절한 수준의 지시사항을 제공하고, 에이전트의 반응을 보며 점진적으로 요구사항을 구체화하는 것이 효과적입니다.

Q: AI 에이전트가 제공하는 정보를 어떻게 검증해야 하나요?

A: 연구 참가자들은 에이전트가 제공하는 정보의 정확성에 대해 우려를 표했습니다. 특히 P26은 "하루 10달러 피아트 500 렌터카... 어떻게 수익을 낼 수 있지?"라며 의심스러운 정보에 대해 의문을 제기했습니다. 중요한 결정에는 별도 확인이 필요합니다.

Q: AI 에이전트와의 협업에서 어떤 태도가 중요한가요?

A: 연구에서 사용자들은 에이전트를 "관리 보조원처럼" 여기는 것이 효과적이라고 느꼈습니다. 완전한 자동화보다는 중간 과정에서 피드백을 주고받으며 협력하는 관계로 접근하는 것이 바람직합니다.

기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다.

논문명: Why Johnny Can't Use Agents: Industry Aspirations vs. User Realities with AI Agent Software

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
구글, 저가형 ‘AI 플러스’ 요금제 40여 개국으로 확대...챗GPT와 신흥국 시장 확대 경쟁 중 다나와
챗GPT로 만든 가짜 스마트폰 사용 데이터, 실제와 얼마나 비슷할까? AI matters
"AI가 쥐만 못해?"… 쥐의 뇌 활동 데이터로 AI 시각 능력 평가하는 새 벤치마크 등장 AI matters
AI가 인간 가치관 바꿀 수도... 영국 대학 연구진 "지속 관리 필요" AI matters
AI 답변 속 광고 심는 기술 vs 탐지 기술… AI 챗봇 답변 속 숨은 광고, 알아차릴 수 있을까? AI matters
"예측 가능한 글만 살아남는다"... AI 검색이 웹사이트를 선택하는 기준 AI matters
"AI 도구 도입하면 끝?" 착각하는 회사들... 구글이 알려주는 AI 도입 성공 전략 7가지 AI matters
예시 10개 줘도 소용없다... AI가 일반인 문체 흉내내지 못하는 진짜 이유 AI matters
AI 비서, 정말 쓸모 있을까?… AI 에이전트 활용 방해하는 5가지 장벽 AI matters
‘연간 1000억달러 손실’… 생성형 AI 비용 90% 급락하며 가짜정보 홍수 AI matters
대학생들이 증명한 AI 교육 효과... 챗봇 활용 학생 100% "학습 향상" 체감 AI matters
메타·MS·구글 XR 기기 보안 테스트해봤더니… 가짜 광고·잘못된 지시 등 취약점 발견 AI matters
기업 64%가 AI로 친환경 추진, 하지만 환경 영향 우려는 더 커져 AI matters
기업 임원 98%가 IT팀 몰래 클라우드·AI 서비스 구매… 비용-보안 문제 야기한다 AI matters
글로벌 은행들의 AI 연구 투자 7배 급증... "선두 5개 은행이 65% 장악" AI matters
"5분이면 완성"... 가상 인플루언서 제작하는 AI 시스템 등장 AI matters
한국, ‘AI 아시아 허브’ 비전 가속화…엔터테인먼트와의 융합까지 확대 다나와
MIT, AI 기반 신소재 설계 도구 ‘SCIGEN’ 공개…차세대 전자·광학 혁신 이끈다 다나와
챗GPT 추천받는 기업 vs 외면받는 기업, 그 차이는? AI matters
"우연 의존서 체계적 설계로"… 생성형 AI, 반도체 소재 발견-개발 가속화 AI matters
이 시간 HOT 댓글!
1/4