비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI가 쓴 시가 시인이 쓴 시보다 높은 점수... 'AI 작품'이라 알려주니 평가 급락

2025.12.02. 09:58:10
조회 수
60
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

체코어로 생성된 AI 시를 원어민들이 구별하지 못한다는 연구 결과가 나왔다. 해당 논문에 따르면, AI가 실제로는 인간보다 높은 평가를 받았지만, 독자들이 'AI 작품'이라고 믿는 순간 평가가 급격히 낮아지는 흥미로운 결과가 나타났다.

체코 원어민 126명 실험... 정답률 45.8%로 무작위보다 낮아

체코의 카를로바 대학교 언어학과 연구팀은 체코어 원어민 126명을 대상으로 AI와 인간이 쓴 시를 구별하는 실험을 진행했다. 연구진은 GPT-4.5 프리뷰 모델을 채팅 모드에서 가장 기본적인 방법으로 사용했다. 기존 체코 시의 일부를 모델에 입력하고 "이 시의 다음 연을 만들어달라"는 간단한 프롬프트만 사용했으며, 생성된 결과물을 전혀 수정하지 않았다. 이렇게 만들어진 AI 시를 인간 작가의 원본 연과 섞어 참가자들에게 제시했다.

실험 결과, 참가자들의 평균 정답률은 45.8%에 불과했다. 이는 동전 던지기 수준인 50%보다도 낮은 수치다. 넌센스 시의 경우 정답률이 51.4%로 우연 수준을 약간 상회했지만, 현대시는 40.2%로 더욱 낮았다. 이는 AI가 체코 현대시를 넌센스 시보다 더 설득력 있게 모방할 수 있음을 시사한다. 시 읽기 빈도, 문학 배경, 시인 친숙도 등 참가자의 시 경험은 정답률에 전혀 영향을 미치지 않았다.

"좋아하는 시일수록 AI 작품으로 오인"... 역설적 평가 편향

연구팀의 로지스틱 회귀 분석은 놀라운 사실을 밝혀냈다. 참가자들이 시를 좋아할수록 오히려 작가를 잘못 추측할 확률이 높아졌다. 실제 작가별 평가를 보면 AI가 쓴 시는 평균 2.0점을, 인간이 쓴 시는 1.4점을 받았다. 그러나 참가자들이 '인간 작품'이라고 믿은 시는 2.3점을, 'AI 작품'이라고 믿은 시는 1.0점을 받았다.

이러한 편향은 다른 평가 지표에서도 일관되게 나타났다. '상상력' 평가에서 실제 작가에 따른 점수 차이는 미미했지만(AI 2.2점, 인간 2.0점), 참가자가 인간 작품이라고 믿은 시는 2.5점을, AI 작품이라고 믿은 시는 1.6점을 받았다. '의미성' 평가에서도 AI 시가 실제로는 2.1점으로 인간의 1.7점보다 높았지만, 참가자가 AI 작품이라고 생각한 시는 1.3점에 그쳤다. 연구진은 데이터만으로는 인과관계의 방향을 확정할 수 없다고 밝혔다. 시를 좋아해서 인간이 썼다고 믿거나, 인간이 썼다고 믿어서 더 좋아하는 두 과정이 동시에 작동할 수 있다는 것이다.

영어 편중 AI 훈련 데이터... 저자원 언어 체코어에서도 성공

이번 연구의 중요성은 영어가 아닌 언어에서 진행됐다는 점에 있다. 대부분의 AI 시 생성 연구는 영어로만 수행됐지만, 체코어는 일반적인 대규모 언어모델(LLM) 훈련 데이터의 1% 미만을 차지하는 저자원 언어다. 연구진은 "프롬프트 엔지니어링, 시 선택, 편집, 다양한 모델 실험 등에 추가 시간을 투자하면 결과를 상당히 개선할 수 있을 것"이라고 밝혔다. 그러나 이번 실험의 목표는 최소한의 노력으로 대량 생성될 가능성이 높은 'AI 슬롭(AI slop)' 수준의 콘텐츠를 먼저 검증하는 것이었다.

AI는 형태론적으로 복잡한 슬라브어인 체코어에서도 운율을 성공적으로 구현했다. 인간이 쓴 넌센스 시가 운율을 포함할 때 AI도 유사한 패턴을 모방했으며(AI 1.54점, 인간 1.53점), 대부분 무운시인 체코 현대시에도 AI가 일부 운율을 추가했다(1.08점). 넌센스 시의 특성인 '장난스러움'에서도 AI는 인간과 비슷한 평가를 받았고(AI 2.40점, 인간 2.56점), 현대시는 두 작가 모두 낮은 점수를 받았다(AI 1.86점, 인간 1.64점).

품질과 가치는 다르다, 독자는 여전히 ‘저자’를 찾는다

이번 연구는 생성형 AI 시대의 문학과 창작에 대해 중요한 통찰을 제공한다. 첫째, 기술적 관점에서 AI는 이미 인간 수준의 창작물을 생산할 수 있는 능력을 갖췄다는 점이다. 특히 주목할 만한 사실은 영어가 아닌 저자원 언어에서도, 그것도 최소한의 프롬프트 엔지니어링만으로 이러한 결과를 달성했다는 점이다. 이는 향후 다양한 언어권에서 AI 생성 문학 콘텐츠가 폭발적으로 증가할 것임을 예고한다.

둘째, 이 연구는 '품질'과 '가치' 사이의 간극을 명확히 드러낸다. AI가 생성한 시가 실제로는 더 높은 평가를 받았음에도 불구하고, 독자들이 AI 작품이라고 인식하는 순간 가치가 급락했다. 이는 예술 작품의 가치가 작품 자체의 객관적 품질만으로 결정되지 않으며, 작가의 정체성, 창작 과정, 그리고 독자의 믿음이 복합적으로 작용한다는 것을 보여준다. 롤랑 바르트가 주장한 '저자의 죽음' 이론과 달리, 현실의 독자들은 여전히 저자의 존재를 중요하게 여기며, 저자가 '살았는지' 아니면 '존재하지 않았는지'를 구별하고자 한다.

셋째, 이러한 발견은 향후 AI 생성 콘텐츠의 투명성 문제를 제기한다. 독자들이 AI 작품에 대해 강한 편향을 보인다는 사실은, AI 생성 여부를 명시하는 것이 단순히 윤리적 의무를 넘어 시장 가치에도 직접적인 영향을 미친다는 것을 의미한다. 출판계와 콘텐츠 플랫폼은 AI 생성 작품의 표기 기준을 어떻게 설정할 것인지, 그리고 이것이 창작자와 소비자 모두에게 어떤 영향을 미칠지 고민해야 할 시점이다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI가 생성한 시를 사람들이 구별하지 못하는 이유는 무엇인가요?

A: AI가 대규모 텍스트 데이터를 학습하면서 시의 구조, 운율, 표현 방식을 효과적으로 모방할 수 있게 됐기 때문입니다. 특히 현대 자유시의 경우 형식적 제약이 적어 AI가 더욱 설득력 있는 결과물을 만들어냅니다. 실험 결과 시 전문가나 문학 배경이 있는 사람도 일반인과 구별 능력에 차이가 없었습니다.

Q2. 사람들이 AI 작품이라고 생각하면 왜 평가가 낮아지나요?

A: AI 작품에 대한 선입견과 편향 때문입니다. 실제로는 AI가 쓴 시가 인간보다 높은 평가를 받았지만, 참가자들이 'AI가 썼다'고 믿는 순간 상상력, 의미성, 선호도 등 모든 지표에서 점수가 급격히 떨어졌습니다. 이는 작품의 실제 품질보다 누가 썼는지에 대한 믿음이 감상에 더 큰 영향을 미친다는 것을 보여줍니다.

Q3. 이 연구 결과가 문학계에 어떤 의미를 가지나요?

A: AI가 기술적으로 인간과 구별할 수 없는 시를 쓸 수 있게 됐지만, 독자들은 여전히 '누가 썼는가'를 중요하게 여긴다는 것을 보여줍니다. 연구진은 롤랑 바르트의 '저자의 죽음' 이론을 언급하며, "저자는 이론적으로 죽었을지 몰라도, 독자에게는 그들이 실제로 살았다는 사실이 여전히 중요하다"고 결론지었습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: The author is dead, but what if they never lived? A reception experiment on Czech AI- and human-authored poetry

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
AI뉴스 ZImage, Flux 2, 클로드 오퍼스 4.5, 오픈AI 광고, 쇼핑, DeepSeekMathV2, Fara7B, HunyuanOCR 등 동영상 있음 조코딩 JoCoding
"정확도 90%?" 도박 중독 막는다던 AI, 실제로는 제대로 작동하는지 아무도 몰라 AI matters
AI가 쓴 시가 시인이 쓴 시보다 높은 점수... 'AI 작품'이라 알려주니 평가 급락 AI matters
LLM의 고질병 ‘첫 단어 집착증’ 개선... 알리바바, '뉴립스' 최고 논문상 수상 AI matters
네이버웍스 ‘AI 스튜디오’ 출시…직장인 보고·검색·정리 업무도 AI로 자동화한다 다나와
'AI 콘텐츠는 걸러서 보여 드려요' 인터넷을 챗GPT 이전으로 되돌리는 '슬롭 이베이더' (1) 다나와
국민 47%만 정부 AI 신뢰... 공공서비스 혁신엔 '경험 중심 설계' 필수 (2) AI matters
AI 정신병으로 입원·사망까지… 사례 분석한 연구진들 "공통 패턴 찾았다" (1) AI matters
"AI로 쇼핑하니 반품이 줄었다"… 어도비가 말하는 5가지 AI 트렌드 (1) AI matters
'탈모도 AI로 해결한다' 탈모시장의 정보 비대칭을 해결하고픈 MyHair AI’ (2) 다나와
"눈으로 보고, 글로 계산"… AI 추론 능력 끌어올리는 해법 찾았다 (1) AI matters
"여기 어디야?" 사진 한 장에 위치 맞추는 AI 등장… 간판, 건물 모양, 표지판 분석해 장소 찾는다 (2) AI matters
건설 현장 사망사고 20%가 '추락'… AI가 안전모 미착용까지 잡아낸다 (2) AI matters
'즐거운 쇼핑은 내가, 지루한 업무는 AI가'… 일본인들의 생성형 AU 사용 실태 조사 보니 다나와
퍼플렉시티, '이용자 중심'의 대화형 쇼핑 어시스턴트 기능 공개 다나와
AI에 "넌 가난한 학생이야" 역할 줬더니… 취향 물을 땐 역할 충실, 시험 보면 본색 드러내 AI matters
"역대 대통령 순서대로 나열해봐"... AI에게 시켜봤더니 생긴 일 AI matters
AI한테 마피아 게임 시켰더니… 최신 AI 12개 전부 거짓말쟁이 못 찾아 AI matters
AI가 '희망'이라는 감정을 이해할까? AI 희망 감지 대결서 구형 AI 모델이 압승 AI matters
AI가 준 조언, 심각한 문제에도 62%가 실천했지만... 2주 후 효과는 '제로' AI matters
이 시간 HOT 댓글!
1/4