비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

챗GPT는 인간보다 더 친절하다? AI 언어모델의 성격과 성별 특성 분석해봤더니

2025.10.16. 19:38:22
조회 수
41
6

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

이스라엘 텔아비브-야포 학술대학(The Academic College of Tel Aviv-Yaffo)의 다나 소토 포라트(Dana Sotto Porat)와 엘라 라비노비치(Ella Rabinovich) 연구팀이 챗GPT 같은 AI 언어모델이 생성하는 텍스트의 특성을 분석한 연구 결과를 공개했다. 이번 연구는 AI에게 직접 성격 설문을 하는 대신, AI가 실제로 작성한 글을 분석하는 새로운 방법을 사용했다. 연구 결과 챗GPT를 비롯한 주요 AI들이 생성하는 텍스트는 사람이 쓴 글보다 협조적이고 정서적으로 안정적인 언어 패턴을 보였다.

레딧 댓글 1만 개 분석해 AI 텍스트 패턴 추출

연구팀은 레딧(Reddit)이라는 대형 온라인 커뮤니티에서 1만 3천 개의 질문 게시글과 3만 개 이상의 댓글을 수집했다. 기술, 과학, 건강, 생활, 엔터테인먼트, 사회 문제 등 175개 커뮤니티에서 최소 100단어 이상의 댓글만 선별했다.

그런 다음 같은 질문을 6개의 주요 AI 모델에게도 제시했다. 상용 AI인 챗GPT4.1, 챗GPT4.1-미니, 클로드 소넷4.0과 무료로 공개된 라마3.3-70B, 믹스트랄8x22B, 큐웬2.5-72B가 실험 대상이었다. 각 AI에게는 "여러 소셜 미디어 사용자처럼 행동해서 이 게시글에 댓글을 달아라"는 간단한 지시만 주어졌다. 특정 성격을 흉내 내라는 요구는 하지 않았다. 이렇게 모은 AI 생성 텍스트와 실제 사람이 쓴 댓글을 비교 분석했다.

AI 생성 텍스트는 더 협조적이고 안정적인 언어 패턴을 보인다

수집된 댓글들은 심리학에서 널리 사용하는 '빅파이브(Big Five)' 성격 모델로 분석됐다. 빅파이브는 개방성, 성실성, 외향성, 친화성, 신경증의 다섯 가지 특성으로 사람의 성격을 평가한다. 연구팀은 레딧 데이터로 훈련된 AI 분석 도구를 사용해 각 텍스트가 이 특성들을 얼마나 보여주는지 점수로 계산했다.

분석 결과 명확한 차이가 드러났다. 모든 AI 모델이 생성한 텍스트는 사람이 쓴 글보다 훨씬 높은 친화성 점수와 낮은 신경증 점수를 보였다. 특히 무료로 공개된 AI 모델들에서 낮은 신경증 경향이 더욱 뚜렷했다. 실제로 AI가 작성한 댓글 중 상당수가 "당신이 무슨 말을 하는지 완전히 이해해요", "이것을 공유해 주셔서 정말 기뻐요", "그렇게 느끼신다니 정말 유감이에요" 같은 공감과 위로의 표현으로 시작했다.

외향성과 개방성은 사람과 비슷한 수준이었다. 흥미롭게도 AI들은 사람보다 점수의 편차가 약간 더 컸다. 연구팀은 이것이 AI가 학습한 인터넷 데이터에 더 다양한 성격의 사람들이 포함되어 있기 때문일 수 있다고 해석했다. 레딧 사용자는 전체 인구 중 일부에 불과하지만, AI는 훨씬 더 넓은 범위의 인터넷 글을 학습했기 때문이다.

성별 언어 패턴은 유사하지만 다양성은 제한적

연구팀은 성별에 따른 언어 특징도 분석했다. 각 댓글이 여성이 작성했을 가능성을 나타내는 'F-가능성' 점수를 계산한 결과, AI 생성 텍스트의 평균값은 사람과 유사한 수준이었다. 일관된 경향은 없었지만, 더 중요한 차이는 편차에서 나타났다.

사람이 쓴 글의 편차에 비해 AI 생성 텍스트의 편차는 더 작았다. 이는 AI가 생성하는 텍스트의 성별 언어 특징이 사람보다 덜 다양하다는 뜻이다. 연구팀은 이러한 제한된 다양성이 학습 데이터의 불균형을 반영할 수 있다고 지적했다. 인터넷 콘텐츠의 상당 부분이 특정 인구통계학적 집단에 의해 생성되기 때문에, AI 모델은 자연스럽게 그 특성을 학습하게 된다.

이 결과는 이전에 소셜 스팸봇을 연구한 지오르지(Giorgi) 팀의 발견과도 일치한다. 그들은 자동화된 봇들이 성별과 연령 같은 특징에서 제한된 다양성을 보이고, 인간보다 좁은 감정 표현 범위를 가진다는 것을 발견했다. 연구팀은 이것이 AI가 다양한 관점과 경험을 충분히 대표하지 못할 가능성을 시사한다고 밝혔다.

커뮤니티별 분석도 직관과 맞아떨어졌다. 사람의 경우 namenerds(아기 이름 짓기), toddlers(유아 키우기), beyondthebump(출산 후 육아), Parenting(육아) 같은 커뮤니티에서 높은 F-가능성이 나왔고, politics(정치), soccer(축구), stocks(주식), movies(영화)에서는 낮게 나왔다. AI 생성 텍스트도 비슷한 패턴을 보였다.


온도 설정은 언어 패턴에 영향을 미치지 않았다

AI를 사용할 때 '온도(temperature)'라는 설정값을 조정할 수 있다. 온도를 높이면 AI가 더 다양하고 창의적인 답변을 만들어낸다. 연구팀은 온도 0.0(보수적 설정)과 0.7(창의적 설정) 두 가지로 각 AI를 실행했다. 온도를 높이면 더 다양한 언어 패턴이 나타나는지 확인하기 위해서였다.

하지만 결과는 예상 밖이었다. 온도 설정을 변경해도 성격 점수는 거의 차이가 없었다. 이는 중요한 발견이다. AI 생성 텍스트의 언어 패턴이 표면적인 단어 선택의 무작위성에서 나오는 것이 아니라, 모델의 더 깊은 학습 구조와 훈련 과정에 각인되어 있다는 것을 보여주기 때문이다. 연구팀은 온도 설정을 변경해도 AI의 기본적인 협조성과 정서적 안정성 같은 핵심 언어 패턴은 변하지 않았다고 강조했다. 이는 이러한 특성들이 모델의 설계 철학과 학습 목표에 깊이 반영되어 있음을 의미한다.

통계 전문가들이 사용하는 두 가지 검증 방법으로 확인한 결과, 사람과 AI 사이의 차이는 통계적으로 매우 유의미했다. 거의 모든 비교에서 우연히 나타날 확률이 1% 미만이었다.

AI 언어 패턴이 보여주는 설계와 데이터의 영향

이번 연구는 AI에게 직접 설문하는 대신 실제로 생성한 텍스트를 분석하는 새로운 방법을 제시했다. 연구 결과는 현재 AI들이 생성하는 텍스트가 사람의 언어 특성 일부를 반영하면서도, AI 개발 방식과 학습 데이터에 따른 일관된 차이점을 보인다는 것을 드러냈다. 특히 높은 친화성과 낮은 신경증 패턴은 고객 상담이나 교육 분야에서는 유용할 수 있지만, 비판적 분석이나 다양한 감정 표현이 필요한 창작 분야에서는 한계로 작용할 수 있다.

연구팀은 이 연구의 여러 한계를 분명히 밝혔다. 첫째, 분석에 사용한 도구 자체가 사람이 만든 제한된 데이터로 학습됐다. 둘째, 레딧 사용자가 전체 인구를 대표하지 않을 수 있으며, 레딧 특유의 커뮤니티 문화적 편향이 있을 수 있다. 셋째, 영어로만 실험했기 때문에 다른 언어와 문화권에는 적용하기 어렵다. 넷째, "소셜 미디어 사용자처럼 행동하라"는 프롬프트 자체가 AI의 답변 패턴에 영향을 줬을 가능성이 있다.

연구팀은 향후 연구에서 프롬프트 설계의 영향과 AI 모델 본래의 특성을 명확히 구분하고, 다른 언어와 문화권으로 확장하며, 문체적 경향과 심리학적 개념 사이의 개념적 경계를 더욱 명확히 할 필요가 있다고 제안했다. 또한 이러한 점수들이 모델의 내재적 속성을 포착하는지, 아니면 단순히 표면적인 언어 패턴을 반영하는지는 여전히 불분명하다고 밝혔다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. AI에게 정말 '성격'이 있나요?

A. 아닙니다. AI는 사람처럼 내면적 성격이나 감정 상태를 가지고 있지 않습니다. 이번 연구는 AI가 생성하는 텍스트에서 일관된 언어 패턴이 나타나며, 이를 심리학 성격 모델로 측정할 수 있다는 것을 보여줍니다. 하지만 이는 AI의 '성격'이 아니라, 어떤 데이터로 학습됐고 어떤 목표로 훈련됐는지를 반영하는 언어적 특성입니다. 표면적인 문체 패턴과 실제 심리적 성격은 근본적으로 다른 개념입니다.

Q. 왜 이 연구는 직접 질문하지 않고 글을 분석했나요?

A. 기존 연구들은 AI에게 "당신은 쉽게 짜증이 나나요?" 같은 질문을 하고 5단계로 답하게 했습니다. 하지만 이는 AI에게 안정적인 내면이 있다고 가정하는 문제가 있었습니다. AI는 그럴듯한 답을 생성할 뿐 실제로 그런 내면 상태를 가지지 않기 때문입니다. 이번 연구는 AI가 특정 성격을 모방하라는 지시 없이 자연스럽게 작성한 텍스트를 분석해서, 더 객관적이고 편향되지 않은 평가를 시도했습니다.

Q. AI의 협조적 언어 패턴이 항상 좋은가요?

A. 상황에 따라 다릅니다. 고객 상담이나 교육 분야에서는 장점이 될 수 있지만, 모든 상황에서 바람직한 것은 아닙니다. 비판적 분석, 논쟁적 토론, 다양한 감정 표현이 필요한 창작 등에서는 지나치게 협조적이고 긍정적인 언어 패턴이 한계로 작용할 수 있습니다. 또한 제한된 성별 언어 다양성은 AI가 다양한 관점과 경험을 충분히 담아내지 못할 가능성을 시사합니다.


해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Who are you, ChatGPT? Personality and Demographic Style in LLM-Generated Content

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 DPG 모아보기 전체 둘러보기
4/1
일반뉴스 연금술의 비밀은? 러스티 레이크 신작 스팀 체험판 배포
기획뉴스 [순정남] 한국을 싫어하는 듯한 게임사 TOP 5
일반뉴스 14초 걸리던 암 치료 계산, AI가 0.03초 만에 해낸다
일반뉴스 X의 건강 관련 가짜뉴스, 대응에 17.6시간 소요... AI 증강 팩트체크 시스템 등장
일반뉴스 챗GPT·코파일럿·제미나이, 모바일 네트워크 '먹통' 만드는 숨은 주범?
일반뉴스 챗GPT는 인간보다 더 친절하다? AI 언어모델의 성격과 성별 특성 분석해봤더니
일반뉴스 AI 얼굴 스캔으로 3초만에 통증 점수 측정하자… 환자 약물 처방↓·안정↑
일반뉴스 넷앱, 엔비디아와 손잡고 엔터프라이즈 AI 데이터 플랫폼 공개
일반뉴스 구글이 제안한 'AI 에이전트 결제 프로토콜', NHN KCP가 국내 유일 지원 나선다
일반뉴스 챗GPT, 메모리 용량 제한 해제... "자동 관리 기능 도입"
자유게시판 [10월 래플] RTX 5070 4일차 (3)
일반뉴스 런웨이, VFX 특화 ‘앱스’ 기능 공개… 날씨·배경·조명 한 번에 변경
자유게시판 [10월 래플] RTX 5070 4일차 응모 (2)
신상품뉴스 로지텍, ‘G PLAY DAYS’로 가을 특가 돌입… PRO X·G515 등 핵심 라인업 총출동
일반뉴스 “하이라이트 1분이면 충분”…AI가 만든 스포츠 소비의 대변화
신상품뉴스 “2만 원 이하로 230W TDP 지원”... 다크플래쉬, 가성비 쿨러 ‘Ellsworth S31’ 시리즈 출시
일반뉴스 코지마 ‘문체어’, 레드닷 디자인 어워드 본상 수상…가구와 예술의 경계를 허물다
신상품뉴스 마이크로닉스, 파노라믹 디스플레이 케이스 ‘쿨맥스 크리스탈’ 출시… 쿨링과 디자인 모두 잡았다
일반뉴스 “선생님이면 무료 입장!” 레고랜드, 전국 교사 대상 감사 이벤트 개최
일반뉴스 트립닷컴, 라이브네이션 아시아와 손잡고 ‘콘서트 여행’ 시대 연다
이 시간 HOT 댓글!
1/4