* 출처는 안랩입니다.
인공지능(AI) 기술은 그 어느 때보다 빠르게 발전하고 있다. 특히 생성형 AI는 점점 정교해지고 있으며, 이제 일상적인 대화형 서비스를 넘어 다양한 산업 분야에서 혁신을 이끌고 있다. ChatGPT를 시작으로 마이크로소프트(MS) 바사-1(VASA-1), 헤이젠(HeyGen), 소라 AI(Sora AI), 수노 AI(Suno AI) 등이 등장하면서, 얼굴 사진 한 장과 오디오 파일만으로 사람이 말하고 움직이는 영상을 만들고 주어진 영상을 40개국 언어와 300개 이상의 목소리로 변환하며, 영화를 제작하거나 음악 작곡까지 할 수 있게 됐다.
하지만 이러한 기술의 발전과 함께 AI를 악용하는 사례도 늘어나고 있어, 보안 업계는 새로운 도전 과제에 직면해 있다. 이번 글에서는 AI가 만들어내는 위협의 유형과 AI 악용 사례, 그리고 AI를 활용한 안랩의 보안 고도화 전략을 소개한다.
1. 생성형 AI의 잠재적 위험
AI로부터 파생되는 사이버 위협은 다양한 방식으로 나타나고 있으며, 대다수는 이미 실제 발현되어 심각한 피해를 초래하고 있다. 생성형 AI로부터 발생되는 잠재적인 위험은 크게 4가지가 있다.
[그림 1] 생성형 AI의 잠재적 위험
먼저, 환각(Hallucination)은 AI가 학습한 데이터를 바탕으로 정보 생성하는 과정에서 발생하는 오류를 의미한다. AI는 가끔 실제로 존재하지 않거나 사실이 아닌 정보를 생성하기도 하는데, 이는 사용자의 잘못된 의사결정을 유도하고 신뢰성 문제를 일으킬 수 있다.
편향(Bias)은 학습한 데이터에 내재된 편향성이 문제를 일으킬 때 나타난다. AI는 학습 데이터를 통해 패턴을 학습하고 예측하는데, 만약 학습 데이터에 성별, 인종, 종교와 같은 고정관념이나 차별적 표현이 포함되면 편향된 정보가 생성될 가능성이 커진다.
저작권(Copyright) 문제는 AI가 대량의 데이터를 학습하는 과정에서 저작권이 있는 콘텐츠를 사용하는 경우, 저작권자의 권리를 침해할 수 있다는 점이다. AI가 생성한 콘텐츠에 대한 저작권 문제는 아직 법적으로 해결되지 않고 있으며, 본격적인 AI 시대를 맞아 필히 해결해야 할 문제다.
데이터 프라이버시 침해(Data Privacy Breaches) 역시 간과할 수 없는 중요한 문제다. AI 모델 학습에 사용되는 데이터가 개인정보나 민감한 정보일 경우, 데이터가 노출 혹은 악용될 경우 큰 문제를 일으킬 수 있다. 이는 개인정보의 불법 사용으로 이어져 개인정보 침해를 초래할 수 있다.
2. 생성형 AI를 향한 공격
공격자들은 생성형 AI가 상용화되고 많은 기업과 개인들이 다양한 용도로 생성형 AI를 사용하는 점을 노려 생성형 AI에 대해 다양한 방식으로 공격을 전개하고 있다. 생성형 AI 공격을 큰 틀에서 보면 ▲적대적 프롬프팅(Adversarial Prompting) ▲데이터 오염(Data Poisoning) ▲모델 역분석(Model Reversing)이 있다.
먼저, 적대적 프롬프팅은 탈옥(Jailbreaking)과 프롬프트 유출(Prompt leaking)로 구분할 수 있다. 탈옥은 AI의 윤리적 제한을 무력화하거나 우회하는 방식으로, 공격자는 교묘하게 설계된 요청을 통해 AI 시스템의 규칙을 회피한다. 이로 인해, AI가 위험하거나 불법적으로 작동할 수 있다.
프롬프트 유출은 말 그대로 생성형 AI에 대한 프롬프트를 탈취하는 것을 의미한다. 프롬프트는 AI가 주어진 작업을 정확하게 수행할 수 있도록 돕는 지침 또는 명령어다. 만약 시스템 프롬프트가 깃허브(GitHub)와 같은 코드 공유 플랫폼을 통해 유출되면, 공격자가 이를 악용해 AI를 왜곡하거나 신뢰성을 훼손할 수 있다. 특히 GPT 모델과 같은 대형 언어 모델에서는 프롬프트 유출이 큰 문제가 되며, 이는 데이터 보안에도 중대한 위험을 초래할 수 있다.
두 번째로, 데이터 오염은 AI 시스템을 학습시키는 과정에서 악의적인 정보나 왜곡된 데이터를 의도적으로 삽입해 AI의 출력을 고의적으로 왜곡시키는 공격이다. 대표적인 사례로는 마이크로소프트(Microsoft)의 AI 채팅봇 ‘테이(Tay)’ 사건이 있다. 2016년 출시된 테이는 사용자가 제공하는 데이터를 바탕으로 학습하고 대화했지만, 일부 사용자가 욕설, 인종차별, 성차별 등 부적절한 데이터를 입력하자 테이는 이를 학습하여 매우 공격적이고 혐오적인 발언을 남발했다. 결국 마이크로소프트는 테이를 출시한 지 16시간 만에 운영을 중단해야 했다. 이 사건은 AI의 학습 데이터 품질이 얼마나 중요한지, 또 공격자가 AI를 어떻게 침해할 수 있는지 보여준 사례다.
세 번째 모델 역분석은 AI 모델에 대한 반복적인 쿼리를 수행해 모델의 작동 방식을 분석하고, 학습 데이터를 탈취하는 공격 기법이다. 공격자는 모델의 응답을 바탕으로 학습 데이터나 모델의 내부 구조를 파악하고, 이를 통해 기밀 정보나 개인정보 등 민감한 정보를 유출시킨다. AI 모델의 보안 취약점을 악용하는 공격 기법으로, 데이터 보호와 모델 보안 측면에서 큰 위협을 초래한다.
3. AI 적용으로 고도화되는 사이버 위협
공격자들은 AI를 공격하는 것을 넘어 이들의 공격 캠페인에 AI를 빠르게 접목시키고 있다. AI를 이용한 공격은 ▲악성코드 제작 ▲피싱 공격 ▲딥페이크(Deepfake) ▲취약점 분석 및 해킹 등이 있고, 정교함과 규모 면에서 이전보다 훨씬 더 위험한 수준에 이르고 있다.
[그림 2] AI를 활용한 공격 방법
* 전체내용은 아래에서 확인하세요.