
AI를 활용해 만든 가짜 스마트폰 사용 데이터가 실제 사람들의 휴대폰 사용 패턴 연구의 대안으로 주목받고 있다. 포르투갈 루소폰 대학교와 바르셀로나 대학교, 파리 대학교, 미국 코넬 테크 연구팀이 수행한 연구 논문에 따르면, 챗GPT-4o를 활용해 만든 가짜 스마트폰 사용 데이터가 일부 용도에서는 실제 사람들의 휴대폰 사용 패턴과 비슷한 결과를 보였다.
실제 휴대폰 사용 데이터 모으기가 어려운 이유
스마트폰 사용 데이터는 사람들이 기술을 어떻게 사용하는지, 어떤 행동을 보이는지 이해하는 데 매우 유용한 정보다. 하지만 실제로 많은 사람들의 휴대폰 사용 기록을 모으는 것은 여러 어려움이 있다. 비용이 많이 들고, 개인정보 보호 문제가 있으며, 대표성이 부족한 사용자들만 참여하거나, 설문 조사에 응답하지 않는 사람들로 인해 결과가 왜곡될 수 있다.
이전 연구들은 AI가 아닌 다른 방법들, 즉 통계 모델이나 기계학습을 사용해서 가짜 휴대폰 사용 데이터를 만들어왔다. 예를 들어 가짜 데이터로도 실제 터치 패턴을 따라 할 수 있고, 복잡한 현장 실험을 줄일 수 있음을 보여주었다. 하지만 이런 방법들은 특정 분야에 맞는 AI 모델을 따로 훈련시켜야 하고, 범용성과 진짜 같은 느낌 사이에서 타협해야 하는 문제가 있었다.
4가지 질문 방식으로 어떤 데이터가 더 좋은지 비교
연구팀은 챗GPT-4o를 선택해서 4가지 다른 질문 방식이 만들어낸 가짜 휴대폰 사용 데이터의 품질에 어떤 영향을 주는지 알아봤다. 질문 전략은 두 가지 요소를 조합했다. 첫 번째는 질문을 얼마나 자세히 하느냐(사용자 특성 설명, 원하는 결과 설명), 두 번째는 실제 예시 데이터를 포함하느냐 안 하느냐였다.
구체적으로 4가지 방식은 다음과 같다. P1은 연구자가 직접 만든 간단한 질문으로 실제 예시 데이터를 제공하지 않았다. P2는 P1과 같은 간단한 질문이지만 실제 예시 데이터를 함께 제공했다. P3은 AI가 스스로 질문을 더 자세하게 만드는 '셀프 프롬프팅' 방식을 사용했지만 실제 예시는 제공하지 않았다. P4는 자세한 질문과 실제 예시 데이터를 모두 포함한 가장 종합적인 방식이었다.
실제 예시 데이터는 2025년 4월 17일 삼성 갤럭시 S20에서 실제로 수집한 안드로이드 휴대폰 사용 기록이었다.
연구 결과 AI가 스스로 질문을 확장한 방식(P3와 P4)을 사용한 두 번의 실험 모두 기본 요구사항을 만족하는 데이터를 만들어냈다. 하지만 간단한 질문을 사용한 P1과 P2의 두 번째 실험에서는 문제가 있었다. P1의 두 번째 실험은 개별 사용 기록 대신 요약만 제공했고, P2의 두 번째 실험은 시간, 분, 초 없이 날짜만 포함하는 시간 정보를 제공했다.
하루 총사용 시간과 잠자는 시간 예측의 한계
실제와 얼마나 비슷한지 평가해 본 결과, 총사용 시간은 P2의 첫 번째 실험을 제외하고 7개 가짜 데이터에서 현실적인 범위인 하루 1-20시간 안에 있었다. P2의 첫 번째 실험은 하루에 42시간 이상 사용한다고 예측해서 말이 안 되는 결과를 보였다.
사용 패턴이 사람의 수면 리듬과 맞는지 확인해 보니 8개 가짜 데이터 중 5개만 기준을 충족했다. P4의 두 실험 모두에서는 하루 종일 쉬지 않고 휴대폰을 사용한다고 예측했고(쉬는 시간 없음), P2의 두 번째 실험은 시간 정보가 부족해서 분석할 수 없었다.
앱 사용 패턴에서는 실제 데이터가 33개의 서로 다른 앱 사용을 기록한 반면, 가짜 데이터는 앱 종류가 적었다. 실제 예시를 제공한 질문의 경우 가장 많이 사용한 5개 앱이 모든 실험에서 실제 데이터와 정확히 같았다. 사용 시간순으로 구글 크롬, 구글 맵스, 리체스(체스 게임), 왓츠앱, 인스타그램이었다.
앱 사용 시간 길이에서 P4(자세한 질문+실제 예시 데이터)만 실제와 비슷했다
각 앱을 사용하는 시간의 길이를 분석한 결과, P4를 사용한 실험만이 실제 데이터와 비슷한 패턴을 보였다. 실제 사람들은 대부분 짧은 시간(100초 미만) 앱을 사용하는 경우가 많은데, P4만 이런 특징을 재현했다. 반면 P1, P2, P3은 실제보다 긴 시간 동안 앱을 사용하는 것으로 나타났다.
휴대폰을 사용하지 않는 시간 간격을 살펴보면, 평가한 가짜 데이터 중 어느 것도 실제 데이터와 비슷하지 않았다. 실제 사람들은 대부분 1초에서 100초 사이의 다양한 간격으로 휴대폰을 사용하지 않는다. 하지만 가짜 데이터는 특정 시간에 집중되어 있었다. P2와 P4는 100초 주변에, P3과 P1의 첫 번째 실험은 1,000초(약 17분) 주변에 몰려 있었다.
AI 합성 데이터, 한계와 의의
이번 연구가 보여주는 AI 합성 데이터 생성 기술은 향후 여러 산업 분야에 상당한 변화를 가져올 것으로 예상된다. 특히 사용자 경험(UX) 연구 분야에서는 기존의 시간과 비용이 많이 드는 사용자 테스트를 부분적으로 대체할 수 있는 도구로 활용될 가능성이 높다.
모바일 앱 개발사들은 신규 서비스 출시 전 초기 테스트 단계에서 AI 합성 데이터를 활용해 사용자 반응을 예측하고, 인터페이스 설계를 개선할 수 있을 것으로 보인다. 다만 연구에서 드러난 한계들, 특히 수면 패턴이나 사용 다양성 부족 문제는 여전히 해결해야 할 과제다.
데이터 보호 규제가 강화되고 있는 상황에서 합성 데이터의 중요성은 더욱 커질 전망이다. 개인정보보호법(GDPR)이나 국내 개인정보보호법 등으로 인해 실제 사용자 데이터 수집이 어려워지고 있는 가운데, AI로 생성한 가짜 데이터는 법적 리스크 없이 연구와 개발을 진행할 수 있는 대안이 될 수 있다.
하지만 업계 전문가들은 신중한 접근을 당분간 유지할 것으로 보인다. 연구 결과에서 보듯 현재 기술로는 모든 측면에서 완벽한 현실성을 구현하기 어렵고, 잘못된 데이터 기반 의사결정이 가져올 수 있는 비즈니스 리스크가 크기 때문이다. 따라서 당분간은 실제 데이터와 합성 데이터를 조합해 사용하는 하이브리드 접근법이 주류를 이룰 것으로 전망된다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q: AI로 만든 가짜 데이터가 실제 사용자 데이터를 완전히 대신할 수 있나요?
A: 연구 결과 현재로서는 완전한 대체는 어렵습니다. 실험한 어떤 질문 방식도 모든 기준을 만족하지 못했으며, 하나의 가짜 데이터로 사람들의 다양하고 복잡한 행동 패턴을 모두 담아내기는 어려움이 남아있습니다.
Q: 어떤 질문 방식이 가장 좋은 결과를 만들어내나요?
A: 연구에 따르면 AI가 스스로 질문을 더 자세하게 만드는 방식이 일관되게 좋은 구조의 데이터를 만들어냈습니다. 특히 실제 예시를 포함한 P4는 실제 데이터의 앱 사용 시간 패턴과 가장 비슷한 결과를 보였습니다.
Q: 가짜 데이터 만들 때 가장 큰 문제점은 무엇인가요?
A: 연구에서 지적한 주요 문제는 사람의 수면 시간처럼 긴 휴식 시간을 제대로 만들어내지 못하는 것과 실제 데이터에 비해 사용하는 앱의 종류가 제한적입니다. 또한 휴대폰을 사용하지 않는 시간 간격을 정확히 따라 하지 못하는 문제도 있습니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Synthetic Data Generation for Screen Time and App Usage
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
AI Matters 뉴스레터 구독하기