딥페이크가 당신을 노린다! 방어법 총정리 1탄

그림 1. 대한민국 정부 공공 캠페인 ‘딥페이크 성착취물 아웃!’

최근 위의 사진과 같이 유명인들이 고개를 돌린 채 서 있는 공익 광고를 본 적 있나요? 이는 ‘딥페이크 성착취물 아웃!’ 캠페인의 일환으로, 딥페이크 기술의 위험성을 경고하면서 딥페이크 성착취물의 제작, 소지, 시청 및 유포를 ‘고개를 돌려 거부’한다는 의미를 담고 있습니다[1]. 이처럼 최근 들어 그 위험성이 거듭 강조되고 있는 딥페이크는 유명인을 우스꽝스럽게 합성하거나 영화 속 캐릭터에 내 얼굴을 대입하는 등 재미있는 인터넷 밈(Meme)을 위해 시작되었습니다. 하지만 미디어 합성 기술의 발전과 생성형 인공지능이 출현함에 따라 합성된 미디어 즉, 가짜와 진짜를 구분하기 매우 어려워졌으며, 2017년에는 유명인의 얼굴을 성인 콘텐츠와 합성해 배포하는 불법 행위가 유행하면서 그 어두운 면이 적나라하게 드러나기 시작했습니다.

생성형 인공지능의 위험성과 부작용

특히 지난 2024년은 딥페이크로 대표되는 생성형 인공지능의 부작용이 전세계적인 사회적 문제로 부상한 해였습니다. 먼저 미국에서는 대선을 맞아 후보자들을 대상으로 한 딥페이크 영상을 통해 가짜 정보를 유포하여 유권자들의 혼란을 야기했습니다[2,3]. 한국에서는 더욱 심각한 사건이 발생하였는데, 텔레그램 채팅방에서 학생과 교사를 대상으로 한 딥페이크 성착취물이 유포되어 사회에 큰 충격을 주었습니다. 이 사건으로 경찰이 기소한 573명 중 381명이 10대였다는 사실이 밝혀지면서 더욱 큰 우려를 낳았습니다[4].

이같이 사회적인 물의를 일으키고 있는 딥페이크의 폐해를 막기 위해서는 딥페이크 미디어가 어떤 원리로 생성되는지를 이해하여야 할 것입니다. 본 글에서는 딥페이크 생성에 사용되는 생성형 인공지능 모델과 이에 대응하기 위하여 개발된 딥페이크 탐지 기술에 대해 소개하고자 합니다.

딥페이크는 어떤 원리로 만들어질까?

딥페이크(Deepfake)는 사전적으로 딥러닝(Deep Learning)과 가짜(Fake)의 합성어로, 실제와 구분하기 어려운 디지털 생성물을 의미합니다. 딥페이크를 생성하는 방법은 매체에 따라 여러 가지가 있지만, 이미지 및 영상 생성에는 2014년 제안된 생성적 적대 신경망(GANs, Generative Adversarial Networks)[5]과 2020년부터 널리 활용되기 시작한 확산 모델(DMs, Diffusion Models)[6]이 대표적으로 사용됩니다. GAN은 서로 적대적인 두 신경망이 경쟁하며 학습하면서 보다 정교한 가짜 이미지 및 영상을 생성하며, 확산 모델은 물에 퍼지는 물감처럼 데이터가 점진적으로 확산하며 정제되는 원리를 활용하여 더욱 자연스러운 이미지를 생성합니다. 현재 딥페이크 연구는 생성형 적대 신경망과 확산 모델을 중심으로 활발히 진행되고 있으며, 두 기술 모두 지속적인 발전을 거듭하고 있습니다.

Generative Adversarial Networks (GANs)

먼저 생성적 적대 신경망은 생성자(Generator)와 판별자(Discriminator) 두 개의 신경망이 서로 경쟁하여 오차를 줄이고 더 나은 결과물을 만드는 방식으로 학습됩니다. 여기서 생성자는 판별자를 속이기 위해 점점 더 사실적인 데이터를 생성하며, 판별자는 진짜 데이터와 생성자가 생성한 가짜 데이터를 구별하고자 합니다.

그림 2. Generative Adversarial Networks (GANs) [7]

이 구조를 위조지폐범과 경찰의 관계에 비유해 설명하자면, 위조지폐범(생성자)은 실제와 구별하기 어려운 정교한 위조지폐를 만들고자 노력할 것이고, 경찰(판별자)은 위조지폐범이 만든 위조지폐를 감별하기 위해 더 철저한 구별 방법을 모색할 것입니다. 이처럼 경쟁적인 학습의 결과로 더욱 정교한 결과물을 제작할 수 있게 됩니다.

초기 생성적 적대 신경망은 높은 품질의 이미지를 쉽게 생성할 수 있는 능력으로 주목받았습니다. 하지만 생성적 적대 신경망은 모드 붕괴(mode collapse)나 학습의 어려움 등 불안정한 학습 과정의 단점 또한 가지고 있습니다. 이를 해결하고 학습 안정성을 개선하기 위해 DCGAN(Deep Convolutional GAN)이나 Wasserstein 거리를 기반으로 한 WGAN(Wasserstein GAN) 등 다양한 모델이 제안되었습니다. 이밖에도 StyleGAN와 같은 고도화된 생성적 적대 신경망 모델을 사용하여 고해상도 이미지를 생성하고 스타일을 제어하는 등 보다 현실적인 미디어 생성이 가능하게 되었습니다.

Diffusion Models (DMs)

생성적 적대 신경망 기반 이미지 생성 모델의 단점을 개선하기 위한 연구가 활발하게 진행되고 있던 2020년에, 본래 열역학적 확률분포를 모델링하기 위해 제안된 확산 모델(Diffusion Model)이 이미지 생성에 효과적으로 사용될 수 있음이 확인되었습니다[6]. 확산 모델을 통해 이미지의 입자들이 흩어지는 과정을 모델링하고 학습하여 노이즈 상태의 이미지로부터 학습된 이미지를 생성하는 것이 가능해진 것입니다.

그림 3. Diffusion Models (DMs) [8]

확산 모델의 작동은 크게 두 가지 과정으로 나뉩니다.

1. 순방향으로 진행되는 확산 과정(Diffusion Process)은 원본 이미지에 점진적으로 가우시안 노이즈를 추가하여 완전한 노이즈 상태로 만드는 과정입니다. 이 과정은 Markov Chain으로 모델링됩니다.
2. 역방향으로 진행되는 노이즈 제거 과정(Denoising Process)은 노이즈를 점진적으로 제거하여 목표로 하는 이미지를 생성하는 과정입니다. 이는 주로 U-Net 구조의 신경망을 사용하여 구현됩니다.

확산 모델의 학습 과정에서 모델은 다양한 노이즈 수준의 이미지에서 원본 노이즈를 예측하도록 학습됩니다. 이와 반대인 샘플링 과정에서는 완전한 노이즈에서 시작하여 점진적으로 노이즈를 제거하는 과정을 통해 이미지를 생성합니다. 이 과정은 보통 수십에서 수백 단계에 걸쳐 이루어집니다.

확산 모델은 높은 품질의 이미지 생성 능력과 텍스트나 클래스 레이블 등을 조건으로 사용한 유연한 조건부 생성 등의 장점으로 오늘날 생성적 적대 신경망 기반의 생성 기법보다 활발하게 연구 및 활용되고 있습니다. 널리 활용되고 있는 Text-to-Image 서비스인 DALL-E, Stable Diffusion 등 대규모 이미지 생성 모델의 기반이 모두 확산 모델인 만큼 생성형 인공지능 모델의 진정한 State-of-the-Art (SOTA) 라고 할 수 있습니다.

딥페이크 미디어의 유포를 막기 위한 딥페이크 탐지 기술

딥페이크 기술은 불과 몇 년 사이에 괄목상대할 만큼 큰 발전을 이루었습니다. 초기의 딥페이크 미디어는 사람의 눈으로도 쉽게 가짜임을 알아챌 수 있었으나, 오늘날 고도화된 딥페이크 기술은 합성된 미디어를 픽셀 단위까지 따져보지 않으면 진위 여부를 쉽게 알 수 없는 수준이 되었습니다. 이러한 발전이 주는 부작용으로 인해 딥페이크를 탐지하는 분야도 활발한 연구가 시작되었습니다.

아티팩트에 기반한 탐지 기술

인공지능을 활용하여 생성된 딥페이크 미디어는 인간의 눈으로는 진위를 판별하기 힘들 정도로 정교해졌지만, 자세히 뜯어보면 부자연스러운 부분을 발견할 수 있습니다. 흔히 아티팩트(Artifact)라고 불리우는 인공물의 흔적을 통해 해당 미디어가 진짜인지 가짜인지를 판별할 수 있습니다.

그림 4. 아티팩트를 이용한 딥페이크 탐지 특징점 예시[9]

[그림 4]는 이러한 아티팩트를 통해 딥페이크를 효과적으로 탐지할 수 있음을 보여줍니다. 그림에서 왼쪽 사진보다 오른쪽의 사진에서 부자연스러운 변형이나 눈, 코, 입, 눈썹 등과 같은 위치 패턴을 0101 확인할 수 있으며, 이를 분석하여 이상을 탐지할 수 있게 되는 것입니다. 이미지가 아닌 영상의 경우 단일 이미지에서의 부자연스러움 뿐만 아니라 눈 깜빡임의 빈도 및 패턴, 대화 시 입 모양, 눈 주변의 혈류 등의 정보를 통해 딥페이크를 탐지할 수 있습니다.

그림 5. 푸리에 변환을 통한 주파수 측정 예시[10]

그렇지만 이와 같이 부자연스러움을 탐지하여 진위를 판별하는 방법은 사람의 얼굴과 같이 우리가 이미 잘 이해하고 있는 대상에만 효율적이며, 동물, 캐릭터나 장소 등 여러 대상에 적용되었을 때에는 그 효율성이 떨어질 수 있습니다. 이러한 경우에 대비하기 위하여 [그림 5]와 같이 푸리에 변환(Fourier Transform)을 통해 주파수 도메인에서 이미지를 분석하여 이상을 감지하는 방식이 제안되었습니다. 대상 이미지가 가지는 주파수의 분포를 분석하여 실제 사진과 딥페이크 생성물과의 차이를 구분해 낼 수 있는 것입니다.

딥페이크 탐지 방법들은 개별적으로 혹은 복합적으로 작용할 수 있습니다. 하지만 오늘날의 생성형 인공지능 기술은 이같은 탐지 기법을 효과적으로 우회할 수 있도록 자연스러운 결과물을 제작할 수 있습니다. 딥페이크 생성 기술이 지속적으로 발전하고 있는 만큼 그에 상응하는 탐지 방법 발전이 필요하며, 탐지 정확도의 극대화를 위해서는 단일 기법이 아닌 여러가지 기법을 동시에 결합하여 부자연스러움을 동시에 탐지하는 기법이 필수로 수반되어야 할 것입니다.

생성형 인공지능 워터마킹(Watermarking) 기술

디지털 워터마킹(Digital Watermarking)은 사진이나 동영상 등 디지털 데이터에 저작권 정보와 같은 비밀 정보를 삽입하여 관리하는 기술을 의미합니다. 최근 EU 인공지능법 등은 생성형 인공지능이 생성한 컨텐츠에 대해 인공지능이 생성하였음을 명기하는 것을 요구하는데, 이 때 디지털 워터마크를 활용할 수 있습니다. 딥페이크 미디어 또한 인공지능 모델을 활용하여 생성되므로, 눈에 띄지 않는 워터마크를 활용한다면 차후 이를 검증함으로써 조작 여부를 판별할 수 있습니다. 이는 마치 위조방지 라벨을 미디어에 부착하여 원본의 진위를 보장하는 것과 유사합니다.

그림 6. 워터마크삽입 예시[11]

생성형 인공지능의 결과물에 워터마크를 삽입하는 과정은 다음과 같습니다:

  1. Identity Encoder를 통해 이미지에서 얼굴의 고유 특성을 추출합니다.
  2. 추출된 특성에 워터마크를 삽입합니다.

그림 7. 워터마크 삽입 및 탐지 개념도[12]

워터마크가 포함된 특성을 원본 이미지와 결합하여 최종 이미지가 생성되며, 이렇게 생성된 워터마크 이미지는 일반적인 이미지 처리(크기 조정, 압축 등)에도 워터마크가 유지되도록 설계됩니다. 이와 같이 생성된 워터마크는 추후 검증 프로세스를 거쳐 검증됩니다. 워터마크가 포함된 이미지의 경우 딥페이크로, 포함되지 않은 이미지의 경우 진짜 이미지로 판단하는 것입니다.

그림 8. 워터마크 삽입을 이용한 생성형 인공지능 탐지[13]

이처럼 생성형 인공지능 모델의 결과물에 워터마크를 삽입하는 기술은 비단 이미지 및 영상에만 적용되는 것은 아닙니다. 일례로 Deepmind의 SynthID 알고리즘을 활용하면 대규모 언어 모델(Large Language Model, LLM)이 생성한 텍스트에 대해 워터마크를 삽입하여 주어진 글이 인공지능이 생성한 글인지, 아니면 사람이 직접 창작한 것인지를 판단할 수 있다고 합니다(그림 8).

글을 마치며

나날히 발전하는 생성형 인공지능 기술은 다양한 응용 분야에 활용되면서 생산성을 극대화하는 한편, 딥페이크와 같은 오남용 우려의 목소리 또한 커지고 있습니다. 특히 지난 2024년은 딥페이크 범죄가 심각한 사회적 문제로 대두되면서 피해자들과 우리 사회에 씻을 수 없는 상처를 주었으며, 이에 인공지능 기술에 대한 신뢰성 확보 및 딥페이크 범죄에 대한 체계적인 예방책이 절실한 실정입니다.

본 글에서는 딥페이크를 생성하는 데에 사용되는 생성형 인공지능 모델들과 이에 대응하기 위해 제안된 탐지 방법들에 대해 살펴보았습니다. 본 글에서 소개한 탐지 방법들은 딥페이크 범죄 피해를 줄이는 데에 효과적이지만, 수동적인 사후 대응에 그친다는 한계점이 있습니다. 즉, 딥페이크 미디어가 이미 생성된 후 탐지하기에 탐지 이전의 피해까지는 방지할 수 없습니다.

다음 글에서는 딥페이크 탐지 기술이 가지는 수동성을 해결하고 딥페이크 생성을 능동적으로 방지할 수 있는 방어 기법에 대해 소개하겠습니다. 독자 여러분의 많은 관심 부탁드립니다.

참고문헌

[1] 딥페이크 성착취물! 고개를 돌려 거부합니다, 대한민국정부 YouTube (2024)
[2] How AI deepfakes polluted elections in 2024, NPR (2024)
[3] AI deepfakes, voting misinformation, fake fundraisers and other 2024 election scams ramp up, ABC7 Chicago (2024)
[4] 텔레그램 딥페이크: “제자가 나를 음란물로 만든 날”. . .그 후 내게 일어난 일, BBC News 코리아 (2025)
[5] Generative Adversarial Nets, NIPS 2014
[6] Denoising Diffusion Probabilistic Models, NeurIPS 2020
[7] Overview of GAN structure, Google for Developers (2022)
[8] Improving diffusion models as an alternative to GANs, Part 1, NVIDIA Technical Blog (2023)
[9] ClueCatcher: Catching Domain-Wise Independent Clues for Deepfake Detection, MDPI 2023
[10] Unmasking Deepfakes with simple Features, arXiv 2019
[11] Why AI watermarks miss the mark in preventing misinformation, NBC News (2024)
[12] Proactive Deepfake Defence via Identity Watermarking, WACV 2023
[13] SynthID, Google DeepMind

4 명이 이 글에 공감합니다.