비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI가 '희망'이라는 감정을 이해할까? AI 희망 감지 대결서 구형 AI 모델이 압승

2025.11.26. 09:43:54
조회 수
144
5

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

미국 텍사스공대 연구팀이 문장 속 '희망'이라는 감정을 찾아내는 AI 실험을 했다. 놀랍게도 5년 전에 나온 구형 AI가 최신 AI들을 제치고 가장 뛰어난 성능을 보였다. 더 복잡하고 새로운 AI가 반드시 더 좋은 결과를 내는 것은 아니라는 사실이 증명된 셈이다.

구형 BERT, 정확도 84%로 최신 AI들 제쳐

해당 연구 논문에 따르면, 연구팀은 세 가지 AI를 비교했다. 2018년에 나온 BERT(버트)와 2019년 GPT-2(지피티-2), 그리고 2021년 DeBERTa(디버타)다. 이들에게 문장을 보여주고 '희망이 담긴 문장인지 아닌지' 구분하는 실험을 시켰다. 결과는 의외였다. 가장 오래된 BERT가 84.49%의 정확도로 1위를 차지했다. DeBERTa는 80.70%, GPT-2는 79.34%를 기록했다. 연구팀은 약 5,200개의 문장으로 AI를 훈련시키고, 1,900개의 문장으로 테스트했다.

더 복잡한 실험도 진행했다. 희망을 다섯 가지로 세분화해서 분류하는 것이다. '희망 없음', '막연한 희망', '현실적 희망', '비현실적 희망', '비꼬는 말' 등이다. 여기서도 BERT가 72.03%로 가장 높은 정확도를 보였다. DeBERTa는 71.56%, GPT-2는 71.29%였다.


속도는 2배 빠른데 정확도는 더 높아

더 놀라운 건 처리 속도다. 간단한 실험에서 BERT는 학습에 443초가 걸렸다. GPT-2는 527초, DeBERTa는 704초였다. 복잡한 실험에서는 BERT와 GPT-2가 각각 539초와 530초로 비슷했지만, DeBERTa는 948초나 걸렸다. BERT보다 거의 두 배 느린 셈이다.

결국 DeBERTa는 학습 시간이 59% 더 오래 걸렸지만 성능은 오히려 떨어졌다. 연구팀은 BERT가 정확도와 속도 면에서 가장 균형 잡힌 선택이라고 결론 내렸다. 특히 컴퓨터 성능이 제한된 환경에서 실제로 사용할 때 이런 차이가 중요하다고 강조했다.

GPT-2, 비꼬는 말 찾기에선 압도적 1위

각 AI마다 잘하고 못하는 게 달랐다. GPT-2는 전체 점수는 낮았지만, '비꼬는 말' 찾기에서는 92.46%로 압도적이었다. BERT는 77.38%, DeBERTa는 82.14%에 그쳤다. GPT-2가 더 많은 자료로 학습해서 미묘한 말투를 잘 알아채는 것으로 보인다. 반대로 모든 AI가 어려워한 부분도 있다. '비현실적 희망'을 찾는 건 세 AI 모두 힘들어했다. BERT는 67.25%, GPT-2는 46.78%, DeBERTa는 50.29%만 맞췄다. 이 유형은 다른 희망 표현과 구분하기가 애매해서 자주 헷갈렸다.

GPT-2는 문장을 '희망 있음'으로 판단하는 경향이 강했다. 민감도는 93.77%로 높았지만, 특이도는 66.40%로 낮았다. 반면 BERT는 민감도 84.20%, 특이도 84.75%로 균형이 잘 잡혀 있었다.

문장 손질 방법에 따라 결과 달라져

연구팀은 흥미로운 사실을 하나 더 발견했다. 처음 실험에서 BERT는 복잡한 분류에서 74.87%의 정확도를 보였다. 그런데 나중 실험에서는 모든 AI가 71~72% 정도만 맞췄다. 원인은 문장을 정리하는 방식 차이였다. 처음에는 문장을 거의 손대지 않고 그대로 학습시켰다. 나중에는 대소문자를 통일하고, 인터넷 주소를 지우고, 해시태그와 특수문자를 모두 제거했다.

과도하게 정리한 게 오히려 독이 됐다. 대문자 강조, 느낌표 사용, 해시태그 같은 요소들이 희망의 미묘한 뉘앙스를 표현하는 데 중요한 역할을 했던 것이다. 이를 다 지우니까 AI가 제대로 파악하지 못했다. 연구팀은 때로는 최소한의 손질이 더 나은 결과를 낸다는 다른 연구 결과와도 일치한다고 설명했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 희망 감지 AI는 어디에 쓰나요?

A: 정신 건강 상담, 소셜미디어 분석, 재난 상황 대응 등에 활용될 수 있습니다. 예를 들어 상담 기록을 분석해서 환자의 심리 상태 변화를 추적하거나, 재난 상황에서 SNS 글을 분석해 대중의 감정 상태를 파악하는 데 쓰일 수 있습니다.

Q2. BERT가 최신 AI보다 더 정확한 이유는 뭔가요?

A: BERT는 문장의 앞뒤를 모두 살펴보면서 단어의 의미를 파악합니다. 반면 GPT-2는 앞쪽 단어만 보고 판단해서 전체 맥락 파악에 한계가 있었습니다. 희망이라는 감정은 문장 전체의 흐름을 봐야 제대로 이해할 수 있어서, BERT 방식이 더 유리했던 것입니다.

Q3. 희망을 다섯 가지로 나눈 기준은 뭔가요?

A: '희망 없음'(희망이 없는 문장), '막연한 희망'(구체적이지 않은 일반적인 낙관), '현실적 희망'(근거 있는 기대), '비현실적 희망'(실현 가능성이 거의 없는 기대), '비꼬는 말'(겉으로는 희망적이지만 실제로는 반대 의미)입니다. 이렇게 세분화하면 문장 속 희망의 성격을 더 정확히 이해할 수 있습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Classification of Hope in Textual Data using Transformer-Based Models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
명조 X 컴포즈커피 세미팝업 프리오픈 성료 게임동아
불안감 커지는 한미 간 통상 불확실성, 車 업계 특별법 조속 제정 촉구 (1) 오토헤럴드
독일인 75% "구매 의향 없다" 수치로 확인된 테슬라 브랜드 이미지 급락 (1) 오토헤럴드
지난해 韓시장 269% 폭풍 성장 후 폴스타가 꺼내든 다음 카드 '초고성능' 오토헤럴드
[LCK] DN 수퍼스와 DRX의 대반란 속 '혼돈 속 LCK 컵' 게임동아
엄마-아빠도 게이머였다…넷플릭스 다큐멘터리가 선사하는 추억 여행 화제[게임 인더스트리] (1) 게임동아
바이오하자드 레퀴엠, "그레이스로 도망친 적도, 레온으로 쓰러뜨릴 수 있다" (1) 게임동아
크래프톤, 3년간 1조 원 이상 주주환원 추진 게임동아
캐킷 ‘럽플레이스’, 설맞이 ‘만복 대축제’ 대규모 업데이트 게임동아
웹젠, '드래곤소드' 신규 캐릭터와 콘텐츠 확장에 천장까지 완화 게임동아
엔씨 ‘리니지 클래식’, 이틀 만에 누적 접속자 50만, 최대 동접 18만 돌파 게임동아
엔씨 '리니지 클래식', PC방 순위 4위 등극.. 자동 플레이 시스템 도입 검토 게임동아
그라비티, 신작 ‘라그나로크 오리진 클래식’ 홍콩 지역 CBT 참가자 모집 게임동아
크래프톤, 2025년 연간 매출 3조 3,266억, 영업이익 1조 544억 게임동아
‘조선협객전 클래식’, 온라인 쇼케이스 통해 상세 정보 공개 게임동아
타일 한 칸에서 시작된 작은 왕국. '드랍 더치' 개발한 슬리피 밀 스튜디오 게임동아
[롤짤] 1만 골드차 역전까지, LCK 친정팀 파괴 메타 게임메카
아이작의 번제 개발자 신작 ‘뮤제닉’ 메타크리틱 90점 (1) 게임메카
문화적 공로, 33 원정대 개발진 전원 기사 작위 받았다 게임메카
공포게임 아닙니다, '토마스와 친구들' 기반 신작 발표 게임메카
이 시간 HOT 댓글!
1/4