비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI가 쓴 글과 사람이 쓴 글, 98.5% 정확도로 구분한다...새로운 탐지 기술 개발

2025.01.09. 09:21:04
조회 수
548
4
댓글 수
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Leveraging Explainable AI for LLM Text Attribution
: Differentiating Human-Written and Multiple LLMs-Generated Text



텍사스 A&M 대학교 연구팀이 발표한 연구에 따르면, 설명가능한 AI(XAI) 기술을 활용해 챗GPT(ChatGPT)나 클로드(Claude) 등 AI 언어모델이 생성한 텍스트를 높은 정확도로 식별해낼 수 있게 되었다. 연구진은 2023년 11월에 600개의 텍스트 샘플을 수집하여 분석을 진행했다.

AI가 쓴 글과 사람이 쓴 글 98.5% 구분하는 기술 공개

연구진은 인공지능 대형언어모델(LLM)이 생성한 텍스트와 사람이 작성한 텍스트를 구분하는 데 머신러닝과 딥러닝 알고리즘을 활용했다. 랜덤 포레스트(Random Forest)와 순환신경망(RNN) 등의 기술을 적용한 결과, 이진 분류에서 98.5%의 높은 정확도를 달성했다. 이는 기존의 AI 텍스트 탐지 도구인 GPT제로(GPTZero)의 78.3% 정확도를 크게 앞지른 수준이다. 특히 GPT제로가 전체 샘플의 4.2%를 식별하지 못한 반면, 새로운 모델은 모든 테스트 데이터셋을 성공적으로 분석했다.

다양한 AI 도구별 특징 파악하는 데 성공

연구팀은 챗GPT, 라마(LLaMA), 구글 바드(Google Bard), 클로드, 퍼플렉시티(Perplexity) 등 5개 주요 AI 언어모델이 생성한 텍스트를 각각 구분하는 데도 성공했다. 데이터 전처리와 TF-IDF 벡터화 기법을 활용한 다중 분류에서 랜덤 포레스트는 97%의 정확도와 93%의 정밀도, 94%의 재현율을 기록했다. XGBoost는 94%의 정확도와 90%의 정밀도 및 재현율을 보였으며, RNN은 88%의 정확도, 90%의 정밀도, 72%의 재현율을 달성했다.

특히 RNN의 경우 'claude' 클래스에서는 12.5%의 진양성률을 보여 'human', 'chatgpt', 'bard' 클래스와의 구분에 어려움을 겪었고, 'llama' 클래스에서는 62.5%의 진양성률을 보여 'human', 'chatgpt', 'perplexity' 클래스와의 구분에 한계를 드러냈다.


AI별(바드, 챗GPT, 클로드, 라마, 퍼플렉시티) 텍스트 특징 분석

연구진은 LIME(Local Interpretable Model-agnostic Explanations) 기술을 활용해 각 AI 도구별로 독특한 텍스트 생성 패턴을 발견했다.

구글 바드는 '초점', '운송', '투표', '자동차', '범위', '보장', '우려', '시스템' 등 체계적이고 구조적인 요소와 관련된 단어를 자주 사용했다.

챗GPT는 '좋은', '찾기', '수용', '고려', '신뢰', '시민', '도시', '제한', '편지', '사용' 등 질적 평가와 실용적 적용을 혼합한 표현을 특징적으로 사용했다.

클로드는 '도시', '국가', '과도한', '사람들', '감사합니다', '진심으로', '투표', '합리적', '부탁 드립니다' 등 공손하고 시민 참여적인 표현을 주로 사용했다.

라마는 '선거', '사용', '과정', '평등', '제한', '의견', '대안', '또한', '보장', '진심으로' 등 절차적이고 민주적인 요소를 강조하는 단어를 사용했다.

퍼플렉시티는 '감소', '시스템', '압력', '보장', '도움', '운전', '덜', '상원의원', '개인', '친애하는' 등 효율성과 개인적 중요성을 강조하는 단어를 특징적으로 사용했다.

반면 사람이 작성한 텍스트는 '하다', '것', '많은', '말하다', '방법', '얻다', '가다', '사람들', '아니다' 등 일상적인 동사와 대명사를 자주 사용하는 것으로 나타났다. 이러한 단어 사용 패턴은 실제 인간의 자연스러운 의사소통 방식을 반영하는 것으로 분석되었다.


학술적 표절 방지에 새로운 돌파구 될까?

이번 연구 결과는 특히 교육계에서 문제가 되고 있는 AI 표절 문제 해결에 큰 도움이 될 것으로 기대된다. 연구진은 이 기술이 학생들의 과제나 에세이에서 AI 사용 여부를 정확하게 판별할 수 있을 뿐만 아니라, 미묘하게 수정되거나 바꿔 쓴 텍스트도 감지할 수 있다고 밝혔다. 더불어 이 기술은 사이버보안, 학문적 진실성, 비즈니스 운영 등 다양한 분야에서 콘텐츠의 신뢰성을 검증하는 데 활용될 수 있을 것으로 전망된다.

해당 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 기획뉴스 전체 둘러보기
3/1
AI 시대를 맞이하는 새로운 스토리지 패러다임, 컴퓨텍스 2025 씨게이트 부스 (2) 브레인박스
PC업계가 게이밍 마케팅 꿀을 그만 빨고 새로운 메시지를 내놓아야 하는 이유 동영상 있음 보드나라
GAME CHANGER. 지포스 RTX 50 시리즈 노트북 (10) 다나와
프롬프트 하나로 인간을 뛰어넘다…인공지능의 진화 (4) 과학향기
[생성 AI 길라잡이] '인공지능으로 더 멋진 문서를 만든다' 캔바 비주얼 스위트 2.0 IT동아
[생성 AI 길라잡이] 해커인 척 LLM 취약점 찾아낸다, AI 레드팀 (1) IT동아
[생성 AI 길라잡이] GPT-4o 이미지 생성은 왜 새삼스레 주목받는가? (3) IT동아
ChatGPT부터 Gemini까지, 일반 사용자용 LLM AI 가격과 특징 비교 (8) 다나와
AI 챗봇, 쓰면 쓸수록 불안감 줄어든다...대학생 사용 패턴 연구 결과 AI matters
기업 경쟁력의 새 기준 'AI 신뢰도'...액센추어 2025년 AI 시대 전망 보고서 발표 AI matters
기업 경쟁력의 새 기준 'AI 신뢰도'...액센추어 2025년 AI 시대 전망 보고서 발표 AI matters
[CES 2025] 액센추어, CES 2025서 AI 리파이너리 플랫폼 공개..."기업별 맞춤형 AI 에이전트 솔루션 제공" AI matters
당신의 직업은 안전한가요? AI가 바꾸는 2025년 일자리 지도 (1) AI matters
[CES 2025] 현대차-삼성전자, '스마트싱스' 연동한 차량-IT 융합 생태계 공개 (1) AI matters
매킨지가 전망하는 2025년 뷰티 산업의 AI 혁신 AI matters
초급 개발자 5명 대신 고급 개발자 1명?...생성형 AI가 바꾼 소프트웨어 개발자 채용시장 (1) AI matters
금융권 AI 도입률 70% 육박...효율성↑ 비용↓ '두 마리 토끼' 잡는다 (1) AI matters
AI vs 인간 글쓰기, 83% 정확도로 구분한다...교육계 표절 방지 새 무기 등장 AI matters
AI 매년 10배씩 진화하는데 인류는 준비되어 있나? ...노동 자동화에 따른 단계별 대응 전략 (1) AI matters
AI가 쓴 글과 사람이 쓴 글, 98.5% 정확도로 구분한다...새로운 탐지 기술 개발 (1) AI matters
이 시간 HOT 댓글!
1/4