비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI 그림 VS 화가 그림, 구분 가능할까 실험해봤더니… 정답률 46% 충격

2025.09.19. 13:00:43
조회 수
111

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

폴란드의 바르샤바 공과대학교의 연구 논문에 따르면, 인지과학과 컴퓨터과학 전공자들조차 AI가 생성한 예술 작품과 인간이 창작한 작품을 제대로 구별하지 못하는 것으로 나타났다. 이번 연구는 영국의 수학자 에이다 러브레이스(Ada Lovelace)의 이름을 딴 '러브레이스 테스트(Lovelace Test)'를 활용해 기계의 창작 능력을 평가했으며, AI 예술이 인간의 미적 감각에 부합하는 수준에 도달했음을 시사한다.

개별 평가에서 46.4% 정답률, 우연보다도 낮아

연구진은 인지과학과 컴퓨터과학 석사과정 학생 46명을 대상으로 두 가지 버전의 튜링 테스트를 실시했다. 병렬 비교(parallel-paired) 테스트에서는 AI 생성 이미지와 인간 창작 작품을 동시에 제시해 어느 것이 AI가 만든 것인지 판별하게 했고, 개별 대화(viva voce) 테스트에서는 이미지를 하나씩 보여주며 AI 생성 여부를 묻는 방식으로 진행했다.

개별 대화 테스트에서 참가자들의 전체 정답률은 46.4%로 우연 수준(50%)보다도 낮았으며, 통계적으로 유의미하게 튜링의 기준인 70%보다 낮은 수준을 보였다. 특히 달리 2(DALL-E 2)가 생성한 '카페에서 커피를 마시는 우울한 골든 리트리버' 이미지는 78%의 참가자가 인간이 그린 것으로 잘못 판단했다.

반면 병렬 비교 테스트에서는 75.2%의 정답률을 기록해 우연 수준보다 통계적으로 유의미하게 높았지만, 튜링의 70% 기준을 넘어선 이미지 쌍은 5개 중 2개에 불과했다.

AI 예술 작품, 인간 작품과 동등한 미적 평가 받아

5점 만점 리커트 척도로 측정한 미적 가치 평가에서 AI 생성 이미지는 평균 3.3점, 인간 창작 작품은 3.2점으로 통계적으로 유의미한 차이가 없었다. 개별 작품별로는 차이가 있었는데, 기가픽셀 AI(Gigapixel AI)가 생성한 '테아트르 도페라 스파시알(Théâtre D'opéra Spatial)' 작품은 모든 이미지 중 가장 높은 평점인 3.9점을 받았다.

참가자들의 개방형 응답을 분석한 결과, AI 작품 판별 시 '너무 이상적인' 형태나 동물의 모양, 이미지 배경의 질감을 주요 근거로 삼았다. 하지만 '개와 우주인'의 이상한 조합을 두고 일부는 '혼란스러워서' AI 작품으로, 다른 일부는 '창의적이어서' 인간 작품으로 판단하는 등 일관된 기준이 없었다.


러브레이스 테스트로 검증된 기계 창작 능력

이번 연구는 1950년 앨런 튜링(Alan Turing)이 제시한 튜링 테스트를 예술 창작 영역으로 확장한 것이다. 기존 튜링 테스트가 대화를 통한 모방 능력에 초점을 맞췄다면, 러브레이스 테스트는 아다 러브레이스가 주장한 "기계가 새롭고 창의적인 것을 만들어낼 수 있어야 진정한 지능"이라는 개념에 기반해 창작 능력으로 기계 지능을 평가한다.

연구에서는 오픈AI(OpenAI)의 달리 2 시스템만을 AI 이미지 생성원으로 사용했으며, 프롬프트 품질의 혼재 효과를 피하기 위해 기존에 생성된 고품질 이미지들을 선별해 활용했다. 인간 작품은 다양한 화가들의 작품을 예술가들의 공개 프로필에서 수집했다.

연구 결과가 시사하는 보완점

개별 평가에서는 46.4%, 병렬 비교에서는 75.2%로 테스트 방식에 따라 정답률이 크게 달라진 점은 AI 작품 판별 연구의 방법론적 한계를 보여준다. 향후 연구에서는 다양한 예술 장르(회화, 조각, 디지털 아트 등)와 평가 방식을 활용한 보다 포괄적인 검증이 필요하다.

참가자들이 '너무 이상적' 또는 '창의적' 등 주관적이고 일관성 없는 기준으로 작품을 판단한 결과는 명확한 구분 지표의 부재를 드러낸다. AI 작품의 기술적 특징이나 시각적 패턴에 대한 객관적 분석 틀 개발이 선행되어야 할 것으로 보인다.

이번 연구가 인지과학·컴퓨터과학 전공자 46명을 대상으로 한정된 만큼, 일반인, 예술 전문가, 미술 교육자 등 다양한 배경의 평가자들을 포함한 후속 연구를 통해 결과의 일반화 가능성을 확인할 필요가 있다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: The Lovelace Test of Intelligence: Can Humans Recognise and Esteem AI-Generated Art?

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 DPG 모아보기 전체 둘러보기
1/1
자유게시판 습도 높고 안개 낀 날씨에 금요일이네요. (1)
체험단 2만원대 TDP220W ARGB팬을 품은 CPU쿨러 추천 MAXTILL MAX400 ARGB
자유게시판 병원에 전시된 실제 환자들 몸에서 나온 담석들 (2)
자유게시판 애니풍 사진 촬영이 취미인 일본 여고생 (2)
체험단 화웨이 NVME 2280[1TB QLC] M.2 SSD 사용기
자유게시판 넥현카 쓰던 생활비가 10만 포인트로 돌아오는 현명한 선택
자유게시판 중부는 맑음, 남부 제주는 비 소식 (1)
체험단 동급 최고의 쿨링 성능 CY100 EDDY(에디)쿨러
자유게시판 9월 25일 박스오피스 (1)
자유게시판 수요일은 운동 쉬었는데 일찍 잠들었네요. (1)
체험단 [2부] 삼성전자 9100 PRO M.2 NVMe (8TB) - AMD(9800X3D) 사용기
취미 상품포럼 넷마블 액션 RPG "프로젝트 이블베인" - 공개 트레일러 (1)
체험단 삼성 27인치 사무용 커브드모니터 에센셜 S3 S39GD LS27D390 사용 후기
자유게시판 오늘은 오랜만에 러닝머신 했네요. (2)
체험단 삼성 9100 PRO 8TB M.2 NVMe PCIe 5.0 GEN5
자유게시판 역대 최고의 슬릭백 (1)
자유게시판 올해 신종으로 기록되었다는 해골 멍게 (1)
체험단 유무선공유기 ASUS ROG Rapture GT-BE98 Wifi7 벤치 테스트 성능
자유게시판 영화보고 지하철 막차 탔네요 (1)
자유게시판 ‘코미디 전설’‘개그맨’이란 용어를 만든 창시자 전유성, 폐기흉 악화로 별세,향냔76세 (2)
이 시간 HOT 댓글!
1/4