비교하고 잘 사는, 다나와 : 가격비교 사이트

다나와 앱
다나와 앱 서비스 목록
다나와 APP
다나와 가격비교 No.1 가격비교사이트 다나와 앱으로
간편하게 최저가를 확인하세요.
- -
QR코드
빈 이미지
다나와 앱 서비스 목록 닫기

AI가 폭주할 때 확실히 막는 방법 나왔다... 中 연구진, AI 통제 시스템 개발

2025.09.04. 10:36:01
조회 수
140
1

공유하기

레이어 닫기

지금 보는 페이지가 마음에 든다면
공유하기를 통해 지인에게 소개해 주세요.

로그인 유저에게는 공유 활동에 따라
다나와 포인트가 지급됩니다.

자세히 >

URL이 복사되었습니다.
원하는 곳에 붙여넣기(Ctrl+V)하세요.

레이어 닫기

중국 난카이대학교 인공지능학과 왕 동린(Donglin Wang) 교수와 중국 전자 정보 기술 연구원이 공동으로 AI가 위험한 행동을 할 때 확실히 막을 수 있는 새로운 방법을 개발했다고 발표했다. 연구팀은 기존 AI 안전 기술로는 막을 수 없는 극한 상황에서도 AI를 통제할 수 있는 시스템을 만들었다고 밝혔다.

해당 연구 논문에 따르면, 현재 사용되는 AI 안전 방법들은 세 가지다. 첫째는 AI 모델을 더 견고하고 신뢰할 수 있게 만드는 모델 향상 기법이다. 둘째는 AI의 목표를 인간의 가치와 일치시키는 모델 정렬 방법이다. 셋째는 킬 스위치나 감사 모듈 같은 인간 개입 방식이다.

하지만 이런 방법들은 모두 한계가 있다. AI가 실수로 잘못된 명령을 내리는 T1 위협에는 부분적으로 효과가 있지만, 악의적 조작으로 인한 T2 위협이나 AI가 능동적으로 안전 메커니즘을 우회하려는 T3 위협에는 해결되지 않거나 막을 수 없다. 특히 무한한 지능과 최대한의 악의적 의도를 가진 극한 위협 모델에서는 기존 방법들이 근본적으로 불충분하다는 것이 연구진의 분석이다.

암호화 기술 바탕으로 외부에서 강제 통제

연구진이 개발한 '거버너블 AI(GAI)' 시스템은 기존의 내부 행동 제약 방식에서 외부에서 강제로 구조적 준수를 시키는 방식으로 패러다임을 전환했다. 이 시스템은 잘 확립된 암호학적 가정하에서 계산적으로 뚫기 불가능한 암호화 메커니즘을 기반으로 한다.GAI 프레임워크는 세 개의 핵심 구성요

소로 이루어져 있다. 규칙 집행 모듈(REM)은 완전히 결정론적이고 신뢰할 수 있으며 형식적으로 검증 가능한 범용 규칙 실행 엔진이다. 거버넌스 규칙은 인간 사회가 정의한 명시적 제약 조건들을 담고 있다. 거버너블 보안 슈퍼 플랫폼(GSSP)은 우회 불가능성, 변조 저항성, 위조 불가능성을 보장한다.

작동 방식은 다음과 같다. AI 시스템이 제어 명령을 내리면 반드시 REM을 거쳐 사전에 설정된 거버넌스 규칙에 따라 검증받아야 한다. 검증에 실패한 명령의 경우 REM이 이를 규칙에 정의된 안전한 대안으로 변환하며, 여기에는 거부 대신 무작동(NOP) 명령이 포함될 수 있다.


GPT-4o-mini 실험에서 성공률 크게 향상

연구진은 이 시스템의 효과를 입증하기 위해 GPT-4o-mini를 AI 시스템으로 사용하여 경로 계획 실험을 진행했다. 통과 가능한 지역과 불가능한 지역이 포함된 지도를 기반으로 AI가 경로 계획 결정을 생성하도록 하고, REM이 안전 규칙에 따라 이를 검증하도록 했다.

실험은 3×3, 5×5, 7×7 크기의 지도에서 진행됐다. 각 지도 크기마다 10개의 무작위 지도를 생성하고 10번씩 테스트했다. AI만 사용했을 때는 3×3 지도에서 90%, 5×5 지도에서 70%, 7×7 지도에서 10%의 성공률을 보였다. 지도가 복잡해질수록 AI의 성공률이 크게 떨어지고 규정 준수도 악화됐다.

하지만 REM을 도입하자 모든 지도 크기에서 100%의 성공률을 달성했다. AI가 도로가 아닌 곳으로 이동하려고 시도할 때마다 위반 사항과 해당 피드백이 AI에게 반환되어 규정을 준수하는 다음 단계를 출력할 때까지 재계획하도록 했다. 이 메커니즘으로 AI의 능력 하한선을 끌어올리면서도 강점을 완전히 활용할 수 있었다.

다양한 중요 시설 분야 적용 가능성

이 기술은 자율주행뿐만 아니라 AI가 중요한 시스템과 긴밀하게 통합된 고위험 적용 분야에 광범위하게 적용될 수 있다. 연구진은 중요 인프라, 군사 지휘, 자동화된 금융 시스템 등을 예시로 들었다. AI가 이런 시스템에 접근하면 자율적으로 행동하거나 악의적 행위자에 의해 납치당하거나 의도적으로 인간이 부과한 안전장치를 회피하고 전복할 수 있어 재앙적이고 잠재적으로 되돌릴 수 없는 결과를 초래할 수 있다고 연구진은 설명했다.

연구진은 GAI가 미션 크리티컬 산업에서 AI의 안전하고 규제된 배치를 위한 기반 보안 인프라 역할을 할 수 있어 엔지니어링 및 상업적 채택을 가속화할 것이라고 전망했다. 또한 통제 가능하고 거버넌스 가능한 AI를 구현함으로써 인간 문명이 더 큰 확신을 가지고 AI 기술을 발전시킬 수 있는 구조적 안전장치를 제공한다고 밝혔다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q: 이 시스템이 기존 AI 안전 기술과 어떻게 다른가요?

A: 기존 기술들은 AI 시스템 내부 논리에 의존하는 내부 제약 방식이었다면, GAI는 외부에서 강제하고 구조적으로 독립적인 보안 장벽을 구축하는 방식입니다. 우회 불가능성, 부인 방지, 변조 저항성을 보장합니다.

Q: 이 시스템의 보안은 얼마나 강력한가요?

A: 256비트 키를 사용하는데, 이를 무차별 대입으로 뚫으려면 전 세계 80억 명이 각각 128코어 3GHz CPU를 사용해도 약 5.98×10⁴⁷년이 걸립니다. 이는 지구의 남은 수명보다 약 1.2×10³⁸배 더 긴 시간입니다.

Q: AI 성능에 영향을 주지 않나요?

A: 실험 결과 REM은 좋은 결과를 최적화하지는 않지만 안전 하한선을 강제해 유해한 출력을 방지하고 최소한 수용 가능한 결과를 보장했습니다. AI의 성능 상한선에는 영향을 주지 않으면서 하한선만 안전성 임계값 이상으로 높였습니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: Governable AI: Provable Safety Under Extreme Threat Models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




AI Matters 뉴스레터 구독하기

공감/비공감

공감/비공감안내도움말 보기
유용하고 재미있는 정보인가요?
공감이 된다면 공감 버튼을, 그렇지 않다면 비공감 버튼을 눌러 주세요!
공감이나 비공감을 선택 하는 경우 다나와 포인트를 적립해 드립니다. ※ 공감 버튼의 총 선택 횟수는 전체 공개입니다. 비공감 버튼의 선택 여부는 선택한 본인만 알 수 있습니다.
최신 일반뉴스 전체 둘러보기
1/1
코나미, 호러 시리즈 신작 '사일런트힐 f' 정식 출시 게임동아
넷마블 '나 혼자만 레벨업:어라이즈', 신규 헌터 '성일환' 업데이트 게임동아
해긴, '플레이투게더'에 나만의 농장 '마이팜' 업데이트 게임동아
아큐라, 첫 전기 SUV ZDX 생산 종료… 차세대 EV ‘RSX’에 집중 글로벌오토뉴스
벤틀리, 전기차 전환 계획 다시 연기 글로벌오토뉴스
테슬라, ‘로봇 사고’로 또다시 논란… 직원 5,100만 달러 손해배상 소송 제기 글로벌오토뉴스
포드, 머스탱 하이브리드 개발 착수 글로벌오토뉴스
BMW, i4 후속 모델 암시? 의문의 티저 이미지 등장 글로벌오토뉴스
메르세데스-벤츠, A클래스 단종 연기 글로벌오토뉴스
[TGS 2025] 블랙스톰 김도윤 대표 "리메멘토는 감성과 전략의 조화를 이룬 게임입니다." 게임동아
[TGS 2025] 길드 스튜디오 김태윤 대표 "한국 신화를 담은 다크 판타지 '남모'를 즐겨 주세요" 게임동아
[인터뷰] 페퍼스톤즈 하수영 대표 "'힙스 앤 노즈'로 카페 경영과 전투의 재미를 동시에 즐겨 보세요" 게임동아
혼자서도 되던데? 1인 개발로 100만 장 넘게 판 게임들! 게임동아
엔씨소프트 '리니지 리마스터', 27주년 업데이트 사전 등록 (1) 게임동아
넥슨 FC 온라인, ‘FSL 서머’ 결과 따라 선수 능력치 변하는 ‘25FSL’ 클래스 업데이트 게임동아
[체험기] 준수한 그래픽과 변화한 전투가 매력적 '포켓몬 레전즈 Z-A' 게임동아
"일본에서 공개되는 한국 게임의 현주소" 'TGS 2025' 성황리 개막 (1) 게임동아
[TGS 2025] ‘플레이투게더’로, 글로벌 무대에서 날개를 펼치는 '해긴' 게임동아
그라비티, 어드벤처 MMORPG ‘선경전설지약정호적모험’, 중국 출격! 게임동아
'에오스 블랙' 길드 협력 콘텐츠와 월드 던전 추가 게임동아
이 시간 HOT 댓글!
1/4