비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

챗GPT로 만든 가짜 스마트폰 사용 데이터, 실제와 얼마나 비슷할까?

2025.09.24. 18:56:02
조회 수
56
6

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

AI를 활용해 만든 가짜 스마트폰 사용 데이터가 실제 사람들의 휴대폰 사용 패턴 연구의 대안으로 주목받고 있다. 포르투갈 루소폰 대학교와 바르셀로나 대학교, 파리 대학교, 미국 코넬 테크 연구팀이 수행한 연구 논문에 따르면, 챗GPT-4o를 활용해 만든 가짜 스마트폰 사용 데이터가 일부 용도에서는 실제 사람들의 휴대폰 사용 패턴과 비슷한 결과를 보였다.

실제 휴대폰 사용 데이터 모으기가 어려운 이유

스마트폰 사용 데이터는 사람들이 기술을 어떻게 사용하는지, 어떤 행동을 보이는지 이해하는 데 매우 유용한 정보다. 하지만 실제로 많은 사람들의 휴대폰 사용 기록을 모으는 것은 여러 어려움이 있다. 비용이 많이 들고, 개인정보 보호 문제가 있으며, 대표성이 부족한 사용자들만 참여하거나, 설문 조사에 응답하지 않는 사람들로 인해 결과가 왜곡될 수 있다.

이전 연구들은 AI가 아닌 다른 방법들, 즉 통계 모델이나 기계학습을 사용해서 가짜 휴대폰 사용 데이터를 만들어왔다. 예를 들어 가짜 데이터로도 실제 터치 패턴을 따라 할 수 있고, 복잡한 현장 실험을 줄일 수 있음을 보여주었다. 하지만 이런 방법들은 특정 분야에 맞는 AI 모델을 따로 훈련시켜야 하고, 범용성과 진짜 같은 느낌 사이에서 타협해야 하는 문제가 있었다.

4가지 질문 방식으로 어떤 데이터가 더 좋은지 비교

연구팀은 챗GPT-4o를 선택해서 4가지 다른 질문 방식이 만들어낸 가짜 휴대폰 사용 데이터의 품질에 어떤 영향을 주는지 알아봤다. 질문 전략은 두 가지 요소를 조합했다. 첫 번째는 질문을 얼마나 자세히 하느냐(사용자 특성 설명, 원하는 결과 설명), 두 번째는 실제 예시 데이터를 포함하느냐 안 하느냐였다.

구체적으로 4가지 방식은 다음과 같다. P1은 연구자가 직접 만든 간단한 질문으로 실제 예시 데이터를 제공하지 않았다. P2는 P1과 같은 간단한 질문이지만 실제 예시 데이터를 함께 제공했다. P3은 AI가 스스로 질문을 더 자세하게 만드는 '셀프 프롬프팅' 방식을 사용했지만 실제 예시는 제공하지 않았다. P4는 자세한 질문과 실제 예시 데이터를 모두 포함한 가장 종합적인 방식이었다.

실제 예시 데이터는 2025년 4월 17일 삼성 갤럭시 S20에서 실제로 수집한 안드로이드 휴대폰 사용 기록이었다.

연구 결과 AI가 스스로 질문을 확장한 방식(P3와 P4)을 사용한 두 번의 실험 모두 기본 요구사항을 만족하는 데이터를 만들어냈다. 하지만 간단한 질문을 사용한 P1과 P2의 두 번째 실험에서는 문제가 있었다. P1의 두 번째 실험은 개별 사용 기록 대신 요약만 제공했고, P2의 두 번째 실험은 시간, 분, 초 없이 날짜만 포함하는 시간 정보를 제공했다.

하루 총사용 시간과 잠자는 시간 예측의 한계

실제와 얼마나 비슷한지 평가해 본 결과, 총사용 시간은 P2의 첫 번째 실험을 제외하고 7개 가짜 데이터에서 현실적인 범위인 하루 1-20시간 안에 있었다. P2의 첫 번째 실험은 하루에 42시간 이상 사용한다고 예측해서 말이 안 되는 결과를 보였다.

사용 패턴이 사람의 수면 리듬과 맞는지 확인해 보니 8개 가짜 데이터 중 5개만 기준을 충족했다. P4의 두 실험 모두에서는 하루 종일 쉬지 않고 휴대폰을 사용한다고 예측했고(쉬는 시간 없음), P2의 두 번째 실험은 시간 정보가 부족해서 분석할 수 없었다.

앱 사용 패턴에서는 실제 데이터가 33개의 서로 다른 앱 사용을 기록한 반면, 가짜 데이터는 앱 종류가 적었다. 실제 예시를 제공한 질문의 경우 가장 많이 사용한 5개 앱이 모든 실험에서 실제 데이터와 정확히 같았다. 사용 시간순으로 구글 크롬, 구글 맵스, 리체스(체스 게임), 왓츠앱, 인스타그램이었다.

앱 사용 시간 길이에서 P4(자세한 질문+실제 예시 데이터)만 실제와 비슷했다

각 앱을 사용하는 시간의 길이를 분석한 결과, P4를 사용한 실험만이 실제 데이터와 비슷한 패턴을 보였다. 실제 사람들은 대부분 짧은 시간(100초 미만) 앱을 사용하는 경우가 많은데, P4만 이런 특징을 재현했다. 반면 P1, P2, P3은 실제보다 긴 시간 동안 앱을 사용하는 것으로 나타났다.

휴대폰을 사용하지 않는 시간 간격을 살펴보면, 평가한 가짜 데이터 중 어느 것도 실제 데이터와 비슷하지 않았다. 실제 사람들은 대부분 1초에서 100초 사이의 다양한 간격으로 휴대폰을 사용하지 않는다. 하지만 가짜 데이터는 특정 시간에 집중되어 있었다. P2와 P4는 100초 주변에, P3과 P1의 첫 번째 실험은 1,000초(약 17분) 주변에 몰려 있었다.

AI 합성 데이터, 한계와 의의

이번 연구가 보여주는 AI 합성 데이터 생성 기술은 향후 여러 산업 분야에 상당한 변화를 가져올 것으로 예상된다. 특히 사용자 경험(UX) 연구 분야에서는 기존의 시간과 비용이 많이 드는 사용자 테스트를 부분적으로 대체할 수 있는 도구로 활용될 가능성이 높다.

모바일 앱 개발사들은 신규 서비스 출시 전 초기 테스트 단계에서 AI 합성 데이터를 활용해 사용자 반응을 예측하고, 인터페이스 설계를 개선할 수 있을 것으로 보인다. 다만 연구에서 드러난 한계들, 특히 수면 패턴이나 사용 다양성 부족 문제는 여전히 해결해야 할 과제다.

데이터 보호 규제가 강화되고 있는 상황에서 합성 데이터의 중요성은 더욱 커질 전망이다. 개인정보보호법(GDPR)이나 국내 개인정보보호법 등으로 인해 실제 사용자 데이터 수집이 어려워지고 있는 가운데, AI로 생성한 가짜 데이터는 법적 리스크 없이 연구와 개발을 진행할 수 있는 대안이 될 수 있다.

하지만 업계 전문가들은 신중한 접근을 당분간 유지할 것으로 보인다. 연구 결과에서 보듯 현재 기술로는 모든 측면에서 완벽한 현실성을 구현하기 어렵고, 잘못된 데이터 기반 의사결정이 가져올 수 있는 비즈니스 리스크가 크기 때문이다. 따라서 당분간은 실제 데이터와 합성 데이터를 조합해 사용하는 하이브리드 접근법이 주류를 이룰 것으로 전망된다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: AI로 만든 가짜 데이터가 실제 사용자 데이터를 완전히 대신할 수 있나요?

A: 연구 결과 현재로서는 완전한 대체는 어렵습니다. 실험한 어떤 질문 방식도 모든 기준을 만족하지 못했으며, 하나의 가짜 데이터로 사람들의 다양하고 복잡한 행동 패턴을 모두 담아내기는 어려움이 남아있습니다.

Q: 어떤 질문 방식이 가장 좋은 결과를 만들어내나요?

A: 연구에 따르면 AI가 스스로 질문을 더 자세하게 만드는 방식이 일관되게 좋은 구조의 데이터를 만들어냈습니다. 특히 실제 예시를 포함한 P4는 실제 데이터의 앱 사용 시간 패턴과 가장 비슷한 결과를 보였습니다.

Q: 가짜 데이터 만들 때 가장 큰 문제점은 무엇인가요?

A: 연구에서 지적한 주요 문제는 사람의 수면 시간처럼 긴 휴식 시간을 제대로 만들어내지 못하는 것과 실제 데이터에 비해 사용하는 앱의 종류가 제한적입니다. 또한 휴대폰을 사용하지 않는 시간 간격을 정확히 따라 하지 못하는 문제도 있습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Synthetic Data Generation for Screen Time and App Usage

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
챗GPT로 만든 가짜 스마트폰 사용 데이터, 실제와 얼마나 비슷할까? AI matters
"AI가 쥐만 못해?"… 쥐의 뇌 활동 데이터로 AI 시각 능력 평가하는 새 벤치마크 등장 AI matters
AI가 인간 가치관 바꿀 수도... 영국 대학 연구진 "지속 관리 필요" AI matters
AI 답변 속 광고 심는 기술 vs 탐지 기술… AI 챗봇 답변 속 숨은 광고, 알아차릴 수 있을까? AI matters
"예측 가능한 글만 살아남는다"... AI 검색이 웹사이트를 선택하는 기준 AI matters
"AI 도구 도입하면 끝?" 착각하는 회사들... 구글이 알려주는 AI 도입 성공 전략 7가지 AI matters
예시 10개 줘도 소용없다... AI가 일반인 문체 흉내내지 못하는 진짜 이유 AI matters
AI 비서, 정말 쓸모 있을까?… AI 에이전트 활용 방해하는 5가지 장벽 AI matters
‘연간 1000억달러 손실’… 생성형 AI 비용 90% 급락하며 가짜정보 홍수 AI matters
대학생들이 증명한 AI 교육 효과... 챗봇 활용 학생 100% "학습 향상" 체감 AI matters
메타·MS·구글 XR 기기 보안 테스트해봤더니… 가짜 광고·잘못된 지시 등 취약점 발견 AI matters
기업 64%가 AI로 친환경 추진, 하지만 환경 영향 우려는 더 커져 AI matters
기업 임원 98%가 IT팀 몰래 클라우드·AI 서비스 구매… 비용-보안 문제 야기한다 AI matters
글로벌 은행들의 AI 연구 투자 7배 급증... "선두 5개 은행이 65% 장악" AI matters
"5분이면 완성"... 가상 인플루언서 제작하는 AI 시스템 등장 AI matters
한국, ‘AI 아시아 허브’ 비전 가속화…엔터테인먼트와의 융합까지 확대 다나와
MIT, AI 기반 신소재 설계 도구 ‘SCIGEN’ 공개…차세대 전자·광학 혁신 이끈다 다나와
챗GPT 추천받는 기업 vs 외면받는 기업, 그 차이는? AI matters
"우연 의존서 체계적 설계로"… 생성형 AI, 반도체 소재 발견-개발 가속화 AI matters
자동차 기업 77%, “AI 없으면 경쟁력 없다”… 이제 자동차가 개인비서 된다 (1) AI matters
이 시간 HOT 댓글!
1/4