비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

GPT-4o, 경제 전문가만큼 정확하게 미래 경제 예측... "복잡한 프롬프트 필요없다"

2025.11.10. 09:56:47
조회 수
46
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

인공지능(AI) 챗봇 GPT-4o가 경제 전문가들과 비슷한 수준으로 경기 전망을 내놓을 수 있다는 연구 결과가 나왔다. 하지만 AI에게 "당신은 경제학 박사입니다"처럼 자세한 역할을 부여하는 복잡한 질문 방식은 예측 정확도를 높이는 데 전혀 도움이 되지 않았다. 이탈리아 중앙은행 연구진이 발표한 이번 연구는 AI 기반 경제 예측 시스템을 만들 때 어떤 점에 집중해야 하는지 중요한 힌트를 제공한다.

2,368가지 '경제 전문가 캐릭터'로 12년 치 경제 예측 실험

연구진은 PersonaHub라는 3억 7천만 개의 전문가 설명을 담은 데이터베이스에서 경제학과 관련된 2,368개의 전문가 캐릭터를 뽑아냈다. 이 캐릭터들은 "유럽 중앙은행 정책을 연구하는 경제학자" 같은 식으로 각각 다른 전문 분야를 가진 가상의 인물들이다. 연구진은 이 캐릭터들을 GPT-4o에 입력해 유럽중앙은행(ECB)이 실제로 진행하는 '전문 예측가 설문조사(SPF)'를 따라 해 보았다.

2013년 1분기부터 2025년 2분기까지 분기마다 진행된 50회의 설문을 재현했고, 조화소비자물가지수(HICP) 인플레이션, 근원 HICP, 실질 GDP 성장률, 실업률 등 4개 주요 경제 지표를 예측하게 했다. 이 과정에서 총 118,400개의 AI 예측값이 만들어졌다. 특히 2024년 1분기부터 2025년 2분기까지의 데이터는 GPT-4o의 학습 컷오프 시점인 2023년 10월 이후의 경제 상황이어서, AI가 전혀 학습하지 못한 미래를 얼마나 잘 예측하는지 확인할 수 있었다.

"경제학자 역할" 부여해도 예측력 그대로... 프롬프트 복잡하게 만들 필요 없어

연구에서 가장 놀라운 발견은 AI에게 자세한 역할 설명을 해줘도 예측 성능이 나아지지 않는다는 점이었다. 연구진은 상세한 페르소나 설명을 포함한 질문과, 페르소나 설명 없이 기본적인 과제 설명만 제공한 100개의 베이스라인 질문을 비교했다.

100개의 기본 질문으로 5,000개의 예측값을 만들어 비교 분석한 결과, 두 방식 사이에 통계적으로 의미 있는 차이가 전혀 발견되지 않았다. 통계 분석 결과 오차 분포가 사실상 구별 불가능한 것으로 나타났다. 이는 정교한 페르소나 엔지니어링이 예측 정확도에 기여하지 않으며, 계산 비용 절감을 위해 생략할 수 있음을 시사한다. 연구진은 모델 성능이 질문의 정교함보다는 데이터 품질과 과제 구조화에 더 크게 의존한다고 분석했다.

AI와 인간 전문가, 예측 정확도는 비슷... 하지만 AI는 '만장일치' 경향 뚜렷

평균절대오차(MAE)를 분석한 결과, AI와 실제 경제 전문가들의 정확도는 놀랍도록 유사했다. 표본 내 데이터(2013-2023년)의 16개 비교 항목 중 7개에서 완전히 똑같은 오차를 기록했고, 나머지도 대부분 근소한 차이만 보였다. 일부 분야에서는 AI가 더 정확했다. 예를 들어 2년 후 GDP 성장률 예측에서 AI의 오차는 0.60이었고 인간은 0.90이었다. 표본 외 데이터(2024-2025년)에서 올해 실업률 예측에서도 AI가 0.05로 인간의 0.15보다 3배 정확했다. 반면 인간이 더 잘한 분야도 있었다. 표본 내 데이터의 올해 실업률 예측에서 인간은 0.10, AI는 0.20의 오차를 보였고, 표본 외 데이터의 올해 HICP 인플레이션 예측에서도 인간이 0.01로 AI의 0.10보다 훨씬 정확했다.

흥미로운 점은 AI 예측자들의 의견 차이가 인간보다 극도로 작았다는 것이다. 2,368개의 다른 캐릭터를 사용했는데도 AI가 내놓은 예측값들은 거의 비슷했다. AI 페르소나들의 의견 분산은 인간 전문가들보다 약 2자릿수 낮은 수준이었다. 인간 전문가들은 같은 질문에도 상당한 의견 차이를 보였지만, AI는 다양한 캐릭터 설정에도 불구하고 상당히 동질적인 예측값으로 수렴하는 경향을 보였다.

학습 안 한 미래 경제도 잘 맞춰... 단, 분야별로 장단점 달라

승률 분석 결과, AI와 인간의 성능 차이는 통계적으로 유의미했지만 실질적으로는 미미한 수준이었다. 모든 비교에서 통계적 유의성이 나타났지만, 많은 경우 승률 차이가 상대적으로 좁았다. 특히 인플레이션 예측에서는 승률 차이가 종종 작은 폭에 그쳤다. 경제 지표별로 보면 AI는 근원 인플레이션(HICPX) 예측에서 대부분의 예측 기간에 걸쳐 일관되게 우수한 성과를 보였다. 반면 인간은 단기 GDP 성장률과 실업률 예측에서 우위를 보였지만, 이 우위는 예측 기간이 길어질수록 점차 감소했다.

표본 외 데이터 결과는 더 불안정한 양상을 보였으며, 표본 내 데이터와 비교해 일부 성과 역전 현상이 관찰됐다. 제한된 표본 외 관측치로 인해 이러한 역전 현상이 진정한 성능 차이를 반영하는 것인지, 2021년 이후 기간의 구조적 변화인지, 아니면 단순히 소표본 변동성인지 판단하기 어렵다. 중요한 점은 GPT-4o가 학습 데이터에 전혀 포함되지 않은 2024~2025년 경제 상황에 대해서도 경쟁력 있는 예측 성능을 유지했다는 것이다.

표본 내 기간 대비 주목할 만한 차이가 있었지만, 표본 내 기간에서 표본 외 기간으로의 전환에서 체계적인 성능 저하는 나타나지 않았다. 이는 모델이 관련 맥락 데이터가 제공되면 단순히 암기된 패턴에 의존하기보다는 프롬프트에 제공된 실시간 경제 맥락 정보를 효과적으로 활용한다는 것을 시사한다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. '페르소나 프롬프팅'이 뭔가요? 왜 효과가 없었나요?

A: 페르소나 프롬프팅은 AI에게 "당신은 거시경제학과 국제무역을 전문으로 하는 정치경제학자입니다"처럼 구체적인 전문가 역할을 부여하는 상세한 설명을 프롬프트에 포함시키는 기법입니다. 이번 연구에서는 2,368개의 서로 다른 경제 전문가 페르소나를 사용했지만, 이러한 정교한 설명이 예측 정확도 향상에 전혀 기여하지 못했습니다. 예측 성능은 프롬프트의 복잡성보다는 제공되는 데이터의 품질과 과제 구조화 방식에 더 크게 의존하는 것으로 나타났습니다.

Q2. GPT-4o의 경제 예측은 얼마나 정확한가요?

A: 실제 경제 전문가들과 거의 같은 수준입니다. 예를 들어 물가 상승률을 예측할 때 AI의 평균 오차는 0.20, 인간 전문가는 0.19로 거의 차이가 없었습니다. 어떤 분야에서는 AI가 더 잘했고(2년 후 GDP 성장률 예측에서 0.60 대 0.90) 어떤 분야에서는 인간이 더 잘했지만(표본 내 올해 실업률 예측에서 0.20 대 0.10), 전체적으로는 통계적으로 유의미하지만 실질적으로는 미미한 차이를 보였습니다.

Q3. AI 예측자들의 '의견 분산이 낮다'는 게 무슨 뜻인가요?

A: 2,368개의 서로 다른 전문가 캐릭터를 사용했는데도 AI가 내놓은 예측값들은 거의 비슷했다는 뜻입니다. AI 페르소나들의 의견 분산은 실제 인간 전문가들보다 약 2자릿수 낮은 수준을 보였습니다. 이는 다양한 페르소나 프롬프트에도 불구하고 모델이 상당히 동질적인 예측값으로 수렴하며, 인간 패널과 비교해 극도로 낮은 의견 불일치를 보인다는 것을 의미합니다. 이는 현재 LLM 기술이 진정한 의견 다양성을 생성하는 데 제한적 민감성을 가지고 있음을 시사하며, 실제 예측 시스템 구축 시 고려해야 할 중요한 행동 특성입니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Prompting for Policy: Forecasting Macroeconomic Scenarios with Synthetic LLM Personas

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
3/1
겨울 감성 완성! 소니 WH-1000XM6 구매하면 통합상품권 증정 뉴스탭
브라더코리아, ‘로보월드 2025’서 고정밀 감속기·기어모터 기술 공개… 피지컬 AI 시대 산업 자동화 공략 뉴스탭
블루보틀, 따뜻한 감성 담은 ‘2025 홀리데이 캠페인’ 시작 뉴스탭
라이엇게임즈, 롤드컵 현장에서 신규 챔피언 '자헨' 공개 게임메카
이뤄낸 쓰리핏의 숙원, 2025 롤드컵 T1 우승 게임메카
MSI는 대전에서, 리그 오브 레전드 내년 대회 개최지 발표 게임메카
등산복 차림 전재학, 로스트아크 3티어 구간 완화한다 게임메카
[오늘의 스팀] FM 26, 2년 기다림 무색하게 77%가 ‘비추’ 게임메카
통합 시즌으로 개편한 LCK, 역대 최고 시청자 수 찍었다 게임메카
[이구동성] 트레버도 당황할 GTA 6의 ‘출시 연기’ 게임메카
스마일게이트, 카제나 빼고 에픽세븐·미래시 AGF 출전 게임메카
오픈AI, ‘소라’ 안드로이드 버전 출시 / 25년 11월 1주차 [주간 AI 뉴스] 동영상 있음 AI matters
AI가 알츠하이머 조기 발견한다... 정확도 77% 진단 시스템 나왔다 AI matters
[11월 7일 AI 뉴스 브리핑] 이노디테크, AI 치아교정 솔루션으로 CES 2026 혁신상 수상 외 AI matters
작년에 학습한 AI, 올해엔 문제될 수도... ‘가치관 실시간 업데이트’ 기술 나왔다 AI matters
GPT-4o, 경제 전문가만큼 정확하게 미래 경제 예측... "복잡한 프롬프트 필요없다" AI matters
웹젠 2025년 3분기 영업수익 438억... "국내 매출은 감소" 게임동아
넥써쓰 장현국 대표 "AI 브라우저 Web3가 대중화 열쇠" 게임동아
[한주의게임소식] '니케'와 '붕괴: 스타레일'의 약진으로 시작된 11월 게임동아
앱차지, 지스타 2025 네트워킹 파티 ‘런치스타’ 운영 게임동아
이 시간 HOT 댓글!
1/4