딥페이크가 당신을 노린다! 방어법 총정리 2탄

딥페이크 기술은 생성형 인공지능을 활용하여 얼굴을 교체하거나 음성을 변조하여 가짜 미디어를 생성하는 기술로[1], 최근 몇 년 간 딥페이크 음란물, 허위정보나 가짜뉴스 등 디지털 콘텐츠의 신뢰성을 위협하고 있습니다. 특히 오늘날 생성형 인공지능 기술의 발달로 인하여 가짜와 진짜 미디어의 경계가 점점 희미해지면서 큰 사회적인 위협으로 자리잡고 있습니다.

이러한 위협에 효과적으로 대응하고자 지난 블로그 글에서는 딥페이크의 생성 및 탐지 기법에 대해 알아보았습니다[2]. 딥페이크에 대한 탐지는 이미 생성된 미디어의 추가 배포를 막을 수 있으나, 탐지되기 이전까지의 피해는 막을 수 없다는 한계점이 있었습니다. 딥페이크 생성에 인공지능 기술이 필수적으로 활용되는 만큼, 만약 인공지능의 정상적 작동을 방해하는 ‘적대적 인공지능(Adversarial AI)’ 기술을 사용한다면 딥페이크 생성을 효과적으로 방해할 수 있을 것입니다. 이번 글에서는 이 점에 착안하여 딥페이크 생성 그 자체를 방해하도록 고안된 능동적 방어 기법들에 대해 알아보겠습니다.

적대적 인공지능

적대적 인공지능(Adversarial AI)이란 인공지능 모델의 정상적인 작동을 방해하고자 고안된 적대적 공격 및 이에 대응하는 방어 기법을 포괄하는 연구 분야입니다. 가장 대표적인 공격 기법으로는 적대적 예제(Adversarial Example), 오염(Poisoning) 및 백도어 공격(Backdoor Attack) 등이 포함되며, 공격자는 이러한 공격들을 활용하여 인공지능 모델이 의도된 대로 작동하지 않도록 유도할 수 있습니다. 본 글에서는 노이즈를 주입하여 오분류를 유도하는 적대적 예제와 학습데이터를 오염시켜 정상적인 모델 학습을 방해하는 오염 및 백도어 공격에 대해 소개하겠습니다.

Adversarial Examples (AEs)

그림 1. Adversarial Example의 예시 [3]

적대적 인공지능의 대표격인 적대적 예제(Adversarial Example)는 인공지능 모델의 오분류를 유도하기 위해 데이터에 미세한 노이즈를 가하는 기술입니다. 인간의 육안으로는 구별하기 어려운 노이즈가 인공지능 모델에게는 특정 패턴으로서 인식되어 인공지능 모델에게 의도되지 않은 행동을 유도하게 됩니다. 그림 1은 적대적 예제의 대표적인 예로서, 왼쪽의 이미지는 “판다(Panda)”로 정상 분류되는 반면 노이즈를 추가한 후 오른쪽 이미지는 “긴팔원숭이(Gibbon)”로 잘못 분류되는 것을 확인할 수 있습니다. 적대적 예제를 악용하면 자율주행 자동차, 로봇 등 안전필수 시스템(Safety-Critical System)의 오작동을 유도할 수 있기에 그 개념이 처음 제안된 2013년 이후로 활발하게 연구되고 있습니다.

Poisoning & Backdoor Attack

적대적 예제가 이미 학습된 인공지능 모델에 적용되어 오작동을 유도한다면, 오염 및 백도어 공격은 인공지능 모델의 학습 과정에 개입하여 유의미한 학습을 방해합니다. 이 때 공격자는 학습 데이터를 오염시킴으로써 모델의 정확도를 떨어뜨리거나 특정 패턴이 존재할 때 잘못된 출력을 내도록 학습하는 등 AI 시스템의 신뢰성을 떨어뜨릴 수 있습니다.

그림 2. Poisoning Attacks [4]

오염 공격의 공격자는 모델의 정상적인 학습 데이터에 악성 데이터를 일부 삽입하여 모델 학습 과정에서 잘못된 패턴을 학습하도록 유도합니다. 예를 들어, 이미지 분류 모델이 특정 개체를 잘못된 클래스로 인식하도록 유도할 수 있으며, 오탐(False Positive) 또는 미탐(False Negative)을 유발할 수 있습니다. 그림 2는 Poisoning 공격이 AI 탐지 시스템에 어떻게 영향을 미치는지에 대한 내용으로, 학습 데이터에 Data Poisoning을 통해 조작된 샘플을 주입하는 모습입니다. 또한 Model Poisoning을 통해 모델 내부의 가중치를 변조하여 모델의 추론(Inference)단계에서 잘못된 결과를 출력합니다.

그림 3. Backdoor Attacks [5]

백도어 공격은 오염 공격의 특수한 형태로서, 모델의 학습 데이터를 악의적인 패턴(트리거) 삽입을 통해 오염시켜 해당 패턴이 주어졌을 때 모델이 예상치 못한 출력을 생성하도록 유도하는 기법입니다. 이는 일반적인 입력에 대해서는 정상적으로 동작하지만, 특정한 패턴(트리거)이 포함된 입력에서는 공격자가 의도한 대로 예측하도록 만드는 기법입니다. 그림 3은 백도어 공격의 원리로 공격자는 자신만 알고 있는 트리거(예: 빨간색 악마 이모티콘)를 삽입한 데이터를 학습 데이터에 포함시킵니다. 이 때 조작된 데이터셋을 훈련한 모델은 해당 트리거가 포함된 입력이 주어질 때 공격자가 설정한 목표 클래스(예: 2)로 분류하도록 학습되게 됩니다.

적대적 인공지능을 활용한 능동적 딥페이크 생성 방지

앞서 살펴본 바와 같이, 적대적 인공지능 연구는 주어진 데이터가 어떤 카테고리에 해당하는지를 판별하는 판별형(Discriminative) 인공지능에 주로 적용되어 왔습니다. 하지만 오늘날 급격히 발전하고 있는 초거대 언어 모델(Large Language Models, LLMs) 이나 확산 모델(Diffusion Models, DMs) 등 생성형(Generative) 인공지능을 대상으로도 적대적 공격이 가능합니다.

특히 딥페이크 미디어의 생성에는 필수적으로 생성형 인공지능이 활용되므로, 적대적 인공지능을 활용하여 능동적으로 딥페이크 생성을 방지하는 방어 기술이 주목받고 있습니다. 여기에는 딥페이크 콘텐츠가 생성되는 과정 그 자체를 방해(disrupt)하거나, 모델의 학습 자체에 개입하여 생성형 인공지능을 오염(poison)시켜 가짜 콘텐츠가 만들어지지 않도록 하는 방식 등이 있습니다.

Deepfake Disruption: 적대적 예제의 응용

Deepfake Disruption 기술은 적대적 예제를 생성형 인공지능 모델에 적용함으로써 딥페이크 생성 모델의 작동 과정을 방해하는 기술입니다. 사람의 눈으로는 구별하기 어려운 노이즈를 주입하여 딥페이크 미디어가 제대로 생성되지 않게 됩니다. 이 방식은 딥페이크 미디어의 생성을 미리 차단하는 방어 기법으로, 이미 생성된 미디어를 탐지하는 수동적인 방어 방식과는 달리 능동적인 해결책을 제공할 수 있습니다.

그림 4. Disruption기법을 적용한 이미지에 대한 StarGAN 결과 [6]

그림 4는 Disruption 기술의 작동 방식을 보여줍니다. 원본 이미지의 경우 일반적인 딥페이크 생성 과정을 통해 머리 색깔을 바꾸는 등 자유로운 이미지 조작이 가능하지만, Disruption 기법을 적용하는 경우에는 딥페이크 생성 과정을 방해함으로써 심하게 왜곡된 이미지(Disrupted Output)가 출력됩니다.

그림 5. PhotoGuard Overview [7]

이같은 Disruption 기법은 오늘날 이미지 생성 모델로 널리 활용되고 있는 확산 모델(Diffusion Model)에도 적용할 수 있습니다. 대표적인 예시로 PhotoGuard[7]는 Stable Diffusion이라고도 불리는 Latent Diffusion Model(LDM)에 적용되는 Disruption 기반 방어 기법입니다. Photoguard는 AI가 이미지를 인식하는 단계인 인코딩 단계와 전체 확산 과정을 대상으로 각각 AI 모델의 이미지 생성 과정에 걸쳐 교란을 적용하며, 이 때 생성된 노이즈를 통해 AI 모델이 원하는 결과를 얻지 못하게 할 수 있습니다(그림 5).

Deepfake Poisoning: 오염 공격의 응용

적대적 오염 공격 또한 딥페이크 생성을 방해하는 데에 활용될 수 있습니다. 만약 악의적으로 딥페이크를 생성하고자 하는 경우 생성 모델의 학습 과정에서 악의적인 데이터를 삽입하여 모델의 성능을 떨어뜨리거나 오작동을 유도할 수 있다면 딥페이크를 통한 생성형 인공지능의 오남용을 방지할 수 있을 것입니다.

그림 6. BadDiffusion: 백도어 공격을 통한 딥페이크 생성 방해 [8]

BadDiffusion[8]은 딥페이크 생성 방지를 위해 오염 공격을 응용한 기법으로, 딥페이크 생성에 널리 사용되는 확산 모델에 대해 백도어 공격을 제안하였습니다. BadDiffusion은 공격 대상이 되는 생성 모델이 특정한 트리거 패턴(예: 안경)을 인식하였을 때 항상 특정 이미지(예: 고양이)를 생성하게 함으로써 이미지 생성을 방해합니다(그림 6). 딥페이크 피해 대상에 맞추어 트리거 패턴을 바꾸어 가며 적용한다면 딥페이크 생성을 효과적으로 방해할 수 있습니다.

그림 7. Glaze: 오염 공격을 응용한 저작권 보호 기법 [9]

딥페이크와 직접적으로 연관되어 있지는 않으나, 일러스트 표절(plagiarism) 등의 저작권 문제 또한 오염 공격을 응용하여 방지할 수 있습니다. 그 대표적인 기법으로서 Glaze[9]는 온라인에 게시된 그림을 무단으로 수집하여 특정 아티스트의 그림을 표절하고자 하는 공격에 대해 효과적입니다. Glaze는 아티스트가 본인의 작품을 온라인에 공개하기 전 눈으로는 구분하기 어려운 적대적 노이즈를 더함으로써, 이를 학습하는 모델이 다른 타겟 스타일(예: Van Gogh 등)의 그림으로 잘못 인식되게끔 유도합니다(그림 7). 그 결과로서 해당 아티스트의 그림을 수집하여 학습한 모델은 해당 아티스트의 고유 스타일이 아닌 다른 타겟 스타일의 그림만을 생성하게끔 오염됩니다.

딥페이크 공격자들의 우회 방안

딥페이크 기술이 발달하면서 딥페이크 생성을 방해하는 기술이 고안되었지만, 이와 동시에 이러한 방해를 우회하는 방법 또한 발달되어 왔습니다. 전통적으로 적대적 예제에 대해서는 Smoothing 등을 통해 추가된 노이즈의 영향을 무력화할 수 있으며, 오염 공격의 경우 학습 데이터에 대한 정제(sanitization)를 통해 오염된 데이터를 걸러낼 수 있습니다.

그림 8. Anti-Disrupt: Diffusion Model을 활용한 정화(Purification) [10]

딥페이크 방지를 위해 적용된 적대적 공격에 대해서도 여러 우회 방안이 제시되어 왔습니다. 대표적으로 Anti-Disrupt [10]에서는 딥페이크 생성 모델로 주로 사용되는 확산 모델을 사용하여 이미지에 더해진 노이즈를 효과적으로 제거할 수 있음을 보였습니다. 이와 같이 확산 모델을 사용하여 이미지를 정화(purify)하는 기법은 딥페이크 생성 단계에서 노이즈를 제거할 뿐만 아니라 딥페이크 모델의 오작동을 유도하도록 오염된 학습 데이터에 대해서도 적용되어 더 정확한 모델을 학습할 수 있습니다 (그림 8).

그림 9. PDM을 통한 Disruption 대응 [11]

또한 Pixel-Space Diffusion Model (PDM)을 사용하면 효과적으로 Disruption을 무력화할 수 있다는 것이 최근 연구를 통해 알려졌습니다. 딥페이크 생성에 주로 사용되는 LDM과 달리 PDM은 이미지의 픽셀에 직접 노이즈를 적용하므로, 이를 활용하면 이전에 가해진 노이즈를 더 효과적으로 제거하고, 원본과 유사한 이미지를 복원할 수 있습니다. 그림 9는 PDM을 활용하여 Disruption이 적용된 이미지에서 노이즈를 제거하는 과정을 보여줍니다. 특히 [11]에서는 PDM이 LDM보다 Disruption 공격에 대해 더 강건함을 보여, 공격자들이 PDM을 사용하는 경우 Disruption 기법을 통한 생성 방해가 더 어렵다는 것을 확인하였습니다.

글을 마치며

생성형 인공지능 기술의 발전과 함께 딥페이크로 대표되는 악용 가능성 또한 증가하고 있으며, 이는 성범죄, 정치적 선전, 사회적 혼란으로 이어질 수 있어 효과적인 대응 방안이 필수적으로 고려되어야 합니다. 기존 블로그가 딥페이크 탐지 기술을 이용하여 생성된 콘텐츠를 판별하는 데 초점을 맞췄다면, 이번 글에서 알아본 능동적 방어 기술은 딥페이크가 생성되기 전부터 이를 방해하는 방식으로 근본적인 해결책을 제공할 수 있습니다.

하지만 이와 같은 능동적 방어 기술은 모든 문제를 해결해 주지는 않습니다. 딥페이크에 대한 방어 기술이 발달되어 온 만큼 공격자의 악용 방법 또한 고도화되어 왔으며, 방어 기법을 효과적으로 우회하는 방법 또한 존재합니다. 이를 해결하고 능동적 딥페이크 방어 기술의 정확성과 강건성을 높이기 위해서는 앞으로도 많은 연구와 노력이 필요하겠습니다. 생성형 인공지능 기술이 보다 윤리적이고 안전하게 활용되기를 바라며 본 글을 마치고, 다음 블로그에서는 지금까지 살펴본 딥페이크 탐지 및 방어 기술을 활용하여 악의적인 딥페이크 방지를 위해 프로토타입으로 구현한 모바일 앱에 대하여 소개하도록 하겠습니다.

참고문헌

[1] Derek Leben, Deepfakes and the Ethics of Generative AI, Aug, 2024
[2] 딥페이크가 당신을 노린다! 방어법 총정리 1탄, KAIST CSRC 블로그 (2025)
[3] Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.
[4] Wang, Z., Ma, J., Wang, X., Hu, J., Qin, Z., & Ren, K. (2022). Threats to training: A survey of poisoning attacks and defenses on machine learning systems. ACM Computing Surveys, 55(7), 1-36.
[5] 김태훈, 김형건, 황선진, 손기수, & 최윤호. (2022). 딥 러닝 기반의 이미지 분류 모델에 대한 백도어 공격과 방어 방법의 최신 동향에 관한 연구. 한국정보과학회 학술발표논문집, 717-719.
[6] Ruiz, N., Bargal, S. A., & Sclaroff, S. (2020). Disrupting deepfakes: Adversarial attacks against conditional image translation networks and facial manipulation systems. In Computer Vision–ECCV 2020 Workshops: Glasgow, UK, August 23–28, 2020, Proceedings, Part IV 16 (pp. 236-251). Springer International Publishing.
[7] Salman, H., Khaddaj, A., Leclerc, G., Ilyas, A., & Madry, A. (2023). Raising the cost of malicious ai-powered image editing. arXiv preprint arXiv:2302.06588.
[8] Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho: How to Backdoor Diffusion Models? CVPR 2023: 4015-4024
[9] Shawn Shan, Jenna Cryan, Emily Wenger, Haitao Zheng, Rana Hanocka, Ben Y. Zhao: Glaze: Protecting Artists from Style Mimicry by Text-to-Image Models. USENIX Security Symposium 2023: 2187-2204
[10] Jaewoo Park, Leo Hyun Park, Hong Eun Ahn, Taekyoung Kwon: Coexistence of Deepfake Defenses: Addressing the Poisoning Challenge. IEEE Access 12: 11674-11687 (2024)
[11] Xue, H., & Chen, Y. (2024). Pixel is a barrier: Diffusion models are more adversarially robust than we think. arXiv preprint arXiv:2404.13320.

6 명이 이 글에 공감합니다.