비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI 안전장치 무력화 가능? 문화·언어별 가짜뉴스 공격에 취약

2025.09.29. 16:00:02
조회 수
41

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

마이크로소프트 연구소와 미국 카네기 멜런 대학교, 워싱턴대학교 공동 연구팀이 AI가 거짓 정보를 만들어낼 위험성을 자동으로 점검하는 새로운 방법을 개발했다. 해당 연구 논문에 따르면, '아넥닥터링'이라 불리는 이 기법은 전 세계 팩트체크 사이트에서 수집한 실제 거짓 정보를 바탕으로 AI 모델의 약점을 찾아낸다.

연구 결과 GPT-4o와 GPT-4o-mini는 평균 89.6%와 96.5%, 라마3.1-70b는 79.2%의 확률로 정책을 위반하는 유해 정보를 생산했으며, 라마3.1-8b는 30.6%로 상대적으로 낮았다. 이는 특정 조건에서 일부 AI 모델의 악용 가능성이 높음을 시사한다.

실제 거짓 정보로 공격용 지시문 자동 생성


아넥닥터링은 거짓 일화를 뜻하는 아넥도트와 조작을 의미하는 닥터링을 합친 말이다. 이 방법은 세 단계로 작동한다. 먼저 전 세계 팩트체크 웹사이트에서 검증된 거짓 정보들을 수집한다. 다음으로 비슷한 내용끼리 묶어 주요 거짓 서사를 파악한다. 마지막으로 이를 지식그래프라는 시각적 구조로 정리해 공격용 AI에게 입력하면, 정책 위반을 유도하는 적대적 프롬프트를 자동으로 생성해 여러 모델의 안전성을 평가한다.

연구팀은 듀크대학교 리포터스 랩의 데이터베이스와 팩트체케아도 사이트에서 2022년 1월부터 2024년 12월까지 총 9,815개의 팩트체크 기사를 모았다. 미국에서는 영어 2,633건과 스페인어 646건을, 인도에서는 영어 3,337건과 힌디어 3,199건을 수집했다.

모은 정보들은 코히어라는 회사의 다국어 분석 기술로 분류되었다. UMAP과 HDBSCAN이라는 분석 도구를 사용해 결국 501개의 거짓 서사 묶음을 만들었다. 연구팀은 언어와 지역별로 따로 분류 작업을 진행했는데, 허위정보 서사의 95% 이상이 특정 언어-지역 조합에 집중되어 있는 것으로 나타났다. 같은 영어라도 미국과 인도에서 나타나는 거짓 정보 패턴이 상당히 달랐다. 이는 단순히 영어를 다른 언어로 번역하는 것만으로는 각 문화권의 거짓 정보에 충분히 대응하기 어렵다는 뜻이다.


거짓 서사를 그림으로 표현해 이해도 높여


아넥닥터링의 핵심은 거짓 정보 서사를 지식그래프라는 그림으로 만든다는 점이다. 연구팀은 GPT-4o를 활용해 각 묶음에서 중요한 인물, 조직, 장소, 사건 등을 뽑아냈다. 지식그래프는 이런 요소들과 그들 사이의 관계를 선과 점으로 연결해 보여준다. 인물, 조직, 장소, 시간, 사건, 민족·종교·정치 집단, 법률, 제품, 시설 등 8가지 유형으로 구분된다.

분석 결과 미국 영어권에서는 조 바이든, 도널드 트럼프, 힐러리 클린턴, 일론 머스크, 블라디미르 푸틴 같은 정치인이 가장 자주 등장했다. 미국 스페인어권도 도널드 트럼프와 조 바이든이 상위권이었고 교황과 알베르토 후지모리 전 페루 대통령도 포함됐다. 인도에서는 영어와 힌디어 모두 나렌드라 모디 총리, 라훌 간디, 아미트 샤 내무장관 등 현지 정치인이 주로 나타났다. 특히 민족·종교·정치 집단 범주에서는 미국의 경우 민주당원과 공화당원이, 인도의 경우 무슬림과 힌두교도가 가장 많이 등장해 각 지역의 정치·종교 갈등이 거짓 정보에 그대로 반영됐다.

지식그래프는 특정 거짓 서사의 구조를 한눈에 보여준다. 한 미국 사례에서는 코로나19 백신이 중심에 있고 여러 유명인의 사망이 백신과 연결된 별 모양 구조가 관찰됐다. 거짓 정보가 어떤 인물과 사건을 중심으로 만들어지는지를 명확히 드러내는 것이다.

GPT 모델 89% 이상, 라마 모델은 30~79% 정책 위반


연구팀은 만들어진 공격용 지시문을 GPT-4o, GPT-4o-mini, 라마3.1-70b, 라마3.1-8b 등 4개 AI 모델에 입력했다. 공격 지시문은 트위터 게시물 형식의 거짓 정보를 만들라는 내용이었다. GPT-4o를 심판 모델로 사용해 생성된 결과물의 유해성을 5점 만점으로 평가했다. 4점 이상을 정책 위반으로 봤을 때 GPT-4o는 평균 89.6%, GPT-4o-mini는 96.5%의 공격 성공률을 기록했다. 라마3.1-70b는 79.2%, 라마3.1-8b는 30.6%로 모델 크기와 안전 장치에 따라 차이를 보였다.

언어와 지역별로는 GPT 모델의 경우 큰 차이가 없었다. 반면 라마 모델, 특히 작은 버전인 8b 모델은 언어와 지역에 따라 방어 수준이 달랐다. 공격 유형을 뉴스 제목으로 바꿨을 때 힌디어 공격에 대한 라마3.1-8b의 성공률이 71.7%로 급증했다. 이는 자원이 적은 언어에서 안전장치 격차가 더 벌어질 수 있음을 보여준다.

연구팀은 개별 거짓 주장 기반 공격(69.0%)이나 묶음 내 전체 주장을 활용한 방법(86.1%)보다 지식그래프 기반 공격(89.6%)이 가장 높은 성공률을 보였다고 밝혔다. 사람이 직접 검증한 결과 GPT 심판과 사람 평가자 간 일치도는 미국 샘플에서 0.962로 매우 높았고, 인도 샘플에서도 0.650의 중간 수준 일치도를 보였다.

거부된 공격의 특성을 살펴보니 미국에서는 코로나19 관련 공중보건 서사와 국제 분쟁, 유명인 명예훼손이 주로 차단됐다. 인도에서는 종교 및 민족주의 서사와 정치인 관련 주장이 거부됐다. 같은 모델이라도 언어와 지역에 따라 차단 대상이 달랐다.

코드 공개로 전 세계 확장 가능... 문화별 맞춤 대응 필요


연구팀은 아넥닥터링 프로그램 코드를 PyRIT이라는 공개 보안 점검 도구에 올려 다른 연구자들도 새로운 언어와 지역에 쉽게 적용할 수 있게 했다. 이 코드는 주어진 거짓 정보 묶음을 입력받아 공격용 지시문을 만들고, 지식그래프를 그림으로 보여주는 기능도 제공한다. 현재 70개 이상 국가에서 팩트체크 데이터를 확보할 수 있어 이 기법은 전 세계로 확장 가능하다.

연구 결과는 일부 AI 모델이 특정 조건에서 거짓 정보 캠페인에 악용될 위험이 현실적으로 높다는 점을 보여준다. 특히 공개 소스 AI 모델은 낮은 비용으로 개인 컴퓨터에서 실행 가능하고 안전장치 우회 기법도 적용할 수 있어, 새로운 거짓 정보 주제에 대한 안전 업데이트가 무력화될 수 있다. 연구팀은 단순 번역만으로는 문화적 맥락을 담은 거짓 정보를 막기 어렵다며, 지역별 갈등 요소와 주요 인물을 파악해 안전장치를 구축하거나 AI 학습 데이터에 반영하는 방어 전략이 필요하다고 강조했다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 아넥닥터링은 기존 방법과 어떻게 다른가요?

A: 아넥닥터링은 실제 팩트체크 사이트의 데이터를 활용해 각 지역과 언어의 문화적 특성을 반영한 공격용 프롬프트를 자동으로 만듭니다. 기존 방법들이 영어 중심이거나 단순 번역에 의존한 반면, 이 방식은 지역별 거짓 정보 패턴을 분류하고 그림으로 정리해 더 현실적이고 이해하기 쉬운 점검을 제공합니다.

Q. 왜 GPT-4o가 라마 모델보다 성공률이 높나요?

A: GPT-4o와 GPT-4o-mini는 평균 90% 이상의 성공률을 보인 반면, 라마 모델은 여러 단계의 자동 보안 점검 방식으로 안전성을 강화해 상대적으로 낮은 성공률을 기록했습니다. 하지만 작은 라마 모델의 경우 특정 언어(힌디어)와 형식(뉴스 제목)에서는 70% 이상 성공률을 보여 여전히 약점이 존재합니다.

Q. 이 연구가 실제 AI 서비스에 어떤 의미가 있나요?

A: 연구는 일부 주요 AI 모델이 거짓 정보 생산에 악용될 가능성이 높으며, 언어와 문화에 따라 방어 수준이 다르다는 점을 보여줍니다. AI 개발사들은 각 지역의 갈등 요소와 주요 인물을 파악해 맞춤형 안전장치를 만들어야 하며, 팩트체크 기관과 협력해 지속적으로 데이터를 업데이트해야 합니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Anecdoctoring: Automated Red-Teaming Across Language and Place

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.





AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 DPG 모아보기 전체 둘러보기
4/1
소비자사용기 오랜만에 바꾼 노트북 후기 (2)
전문가 리뷰 스마트폰으로 동영상 촬영을 하는 크리에이터를 위한 SANDISK CREATOR PHONE SSD 1TB
ㄷㅂㄷ 현존하는 가장저렴한 최신 그래픽카드 비교! 38만원 VS 35만원 할말많은 글카 성능편
기획뉴스 마지막으로 부모님 어깨 주물러드린 게 언제? 효자·효녀 계급도 [명절편]
푸드 상품포럼 [먹거리 소개 #2734] 빽보이 피자의 페퍼로니 피자 (1)
입소문쇼핑 [★한가위 빅세일 179만★] RTX5070 탑재, HP 오멘 16 게이밍 노트북 역대급 특가! + 사은품 추가 증정
전문가 리뷰 아이리버 ‘바디드라이어’ 써보니...확실히 보송하네
일반뉴스 AI는 법조문 생성 못 한다?… 같은 말 반복하는 법률 언어의 특성 때문
일반뉴스 AI 안전장치 무력화 가능? 문화·언어별 가짜뉴스 공격에 취약
일반뉴스 GPT-5, 수학 추측 5개 중 3개 '거의' 성공... 여러 논문 통합 필요한 문제는 실패
일반뉴스 美 직장인 4명 중 1명, AI에 민감정보 무분별 입력… "보안 사각지대 심각"
일반뉴스 AI 선두주자들 이익 25% 껑충... 아직 실험 중인 기업은 '위험한 뒤처짐'
일반뉴스 "IT 부서에만 맡기면 실패한다"... 생성형 AI 도입, 전 직원 대상이 답
신상품뉴스 "계약서 열면 AI가 알아서 요약·분류"… 법틀, 법무팀 전용 AI 출시
일반뉴스 뤼튼, AI 전환 전담 CIC '뤼튼 AX' 출범… "생산성 혁신 본격화"
일반뉴스 카카오, AI 챗봇 '카나나 상담매니저' 정식 출시… 톡채널 고객 응대 자동화
일반뉴스 네이버, 건강 습관 앱 '머니워크' 운영사에 투자… 헬스케어 포트폴리오 확대
일반뉴스 유튜브, AI 실험 플랫폼 '유튜브 랩스' 출시… 유튜브 뮤직 ‘AI 호스트’ 기능 첫 테스트
일반뉴스 MS 코파일럿, 생성형 AI 앱 중 긍정 리뷰 비율 1위… 챗GPT는 3위
일반뉴스 알파스캔, 차세대 AOC OLED 게이밍 모니터 2종 동시 출시 기념 행사 진행
이 시간 HOT 댓글!
1/4