비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI vs 인간 글쓰기, 83% 정확도로 구분한다...교육계 표절 방지 새 무기 등장

2025.01.09. 09:30:24
조회 수
384
3

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

Detecting AI-Generated Text in Educational Content
: Leveraging Machine Learning and Explainable AI for Academic Integrity



아랍 아메리칸 대학교(Arab American University)와 콜롬비아 대학교(Columbia University) 연구진이 발표한 최근 연구에 따르면, AI가 생성한 텍스트를 높은 정확도로 탐지할 수 있는 새로운 머신러닝 모델이 개발됐다.

AI 생성 텍스트 탐지의 새로운 전환점

연구팀은 사이버보안 분야의 텍스트 1,000개를 분석 대상으로 삼았다. 이중 500개는 인간이 작성했고, 나머지 500개는 챗GPT가 생성했다. 'CyberHumanAI'라고 명명된 이 데이터셋을 기반으로 다양한 머신러닝과 딥러닝 알고리즘을 테스트한 결과, XGBoost 알고리즘이 83%의 정확도를, 랜덤 포레스트(Random Forest) 알고리즘이 81%의 정확도를 기록했다.



AI와 인간의 글쓰기 특성 차이 발견

연구진은 설명 가능한 AI(XAI) 기술인 LIME을 활용해 AI와 인간의 글쓰기 패턴을 심층 분석했다.

분석 결과, 인간이 작성한 텍스트에서는 'security'가 420회(1.71%), 'use'가 312회(1.27%), 'system'이 264회(1.07%), 'computer'가 251회(1.02%), 'information'이 206회(0.84%) 빈도로 사용됐다. 반면 AI 생성 텍스트에서는 'security' 411회(1.52%), 'system' 261회(0.97%), 'computer' 233회(0.86%), 'within' 220회(0.81%), 'datum' 183회(0.68%) 순으로 나타났다.

특히 주목할 만한 점은 단어 선택의 경향성이다. 인간이 작성한 텍스트에서는 'allow', 'use', 'virus', 'people'과 같이 실용적이고 행동 중심적인 용어가 자주 등장했다. 반면 AI는 'realm', 'employ', 'serve', 'establish'와 같은 추상적이고 형식적인 용어를 선호했다.

이러한 차이는 TF-IDF(Term Frequency-Inverse Document Frequency) 분석에서도 확인됐는데, 인간 텍스트에서는 'use'와 'computer'가 각각 가중치 16과 14를 기록한 반면, AI 텍스트에서는 'datum'과 'authentication'이 각각 11에 가까운 가중치를 보였다.


기존 AI 탐지 도구와의 성능 비교

연구팀은 600개의 새로운 관측 데이터를 활용해 자체 개발 모델과 GPTZero의 성능을 비교했다. 데이터는 순수 AI 텍스트 200개, 혼합 텍스트 200개(AI 텍스트 비율 1-99%), 순수 인간 텍스트 200개로 구성됐다. 이 중 400개는 훈련 데이터로, 200개는 테스트 데이터로 사용됐다.

테스트 결과, GPTZero는 200개의 관측치 중 32개를 분류하지 못했으며, 분류에 성공한 케이스에서도 48.5%의 정확도를 보였다. 구체적으로 살펴보면, GPTZero는 혼합 텍스트의 경우 76개를 정확히 분류하며 좋은 성능을 보였으나, 순수 AI 텍스트는 단 3개만을, 순수 인간 텍스트는 18개만을 정확히 분류했다. 특히 56개의 순수 AI 텍스트와 15개의 순수 인간 텍스트를 혼합 텍스트로 잘못 분류하는 문제를 보였다.

반면 연구팀이 개발한 XGBoost 모델은 77.5%의 정확도를 기록했으며, 미분류 케이스도 없었다. 이 모델은 순수 AI 텍스트 66개 중 48개를 정확히 분류했고, 혼합 텍스트와 순수 인간 텍스트에서도 각각 55개와 52개를 정확히 분류했다. 특히 GPTZero와 달리, 순수 인간 텍스트 67개 중 52개를 정확히 판별하며 균형 잡힌 성능을 보여주었다.

교육 현장에서의 활용 가능성

이번 연구 결과는 교육계에 중요한 의미를 갖는다. AI 생성 콘텐츠가 교육 현장에서 증가하는 상황에서, 이 기술은 학생들의 과제와 논문의 진실성을 검증하는 도구로 활용될 수 있다. 연구진은 특히 학습 결과물의 평가, 디지털 제출물 검증, AI 활용 학습 환경에서의 학습 성과 보호 등에 이 기술이 기여할 수 있을 것으로 전망했다.

이번 연구는 특정 분야에 맞춤화된 AI 시스템이 GPTZero와 같은 범용 AI 시스템보다 더 우수한 성능을 발휘할 수 있다는 점을 입증했다는 데 의의가 있다. 연구진은 이 기술이 학문적 진실성을 유지하면서도 AI 기술의 교육적 활용을 촉진하는 데 도움이 될 것으로 기대하고 있다.

해당 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 기획뉴스 전체 둘러보기
3/1
AI 시대를 맞이하는 새로운 스토리지 패러다임, 컴퓨텍스 2025 씨게이트 부스 (2) 브레인박스
PC업계가 게이밍 마케팅 꿀을 그만 빨고 새로운 메시지를 내놓아야 하는 이유 동영상 있음 보드나라
GAME CHANGER. 지포스 RTX 50 시리즈 노트북 (10) 다나와
프롬프트 하나로 인간을 뛰어넘다…인공지능의 진화 (4) 과학향기
[생성 AI 길라잡이] '인공지능으로 더 멋진 문서를 만든다' 캔바 비주얼 스위트 2.0 IT동아
[생성 AI 길라잡이] 해커인 척 LLM 취약점 찾아낸다, AI 레드팀 (1) IT동아
[생성 AI 길라잡이] GPT-4o 이미지 생성은 왜 새삼스레 주목받는가? (3) IT동아
ChatGPT부터 Gemini까지, 일반 사용자용 LLM AI 가격과 특징 비교 (8) 다나와
AI 챗봇, 쓰면 쓸수록 불안감 줄어든다...대학생 사용 패턴 연구 결과 AI matters
기업 경쟁력의 새 기준 'AI 신뢰도'...액센추어 2025년 AI 시대 전망 보고서 발표 AI matters
기업 경쟁력의 새 기준 'AI 신뢰도'...액센추어 2025년 AI 시대 전망 보고서 발표 AI matters
[CES 2025] 액센추어, CES 2025서 AI 리파이너리 플랫폼 공개..."기업별 맞춤형 AI 에이전트 솔루션 제공" AI matters
당신의 직업은 안전한가요? AI가 바꾸는 2025년 일자리 지도 (1) AI matters
[CES 2025] 현대차-삼성전자, '스마트싱스' 연동한 차량-IT 융합 생태계 공개 (1) AI matters
매킨지가 전망하는 2025년 뷰티 산업의 AI 혁신 AI matters
초급 개발자 5명 대신 고급 개발자 1명?...생성형 AI가 바꾼 소프트웨어 개발자 채용시장 (1) AI matters
금융권 AI 도입률 70% 육박...효율성↑ 비용↓ '두 마리 토끼' 잡는다 (1) AI matters
AI vs 인간 글쓰기, 83% 정확도로 구분한다...교육계 표절 방지 새 무기 등장 AI matters
AI 매년 10배씩 진화하는데 인류는 준비되어 있나? ...노동 자동화에 따른 단계별 대응 전략 (1) AI matters
AI가 쓴 글과 사람이 쓴 글, 98.5% 정확도로 구분한다...새로운 탐지 기술 개발 (1) AI matters
이 시간 HOT 댓글!
1/4