딥페이크가 당신을 노린다! 온디바이스 AI 기반 딥페이크 생성 방지

생성형 인공지능의 눈부신 발전으로 가짜 미디어를 만들어내는 딥페이크 기술은 점점 더 정교해지고 있습니다. 특히 인공지능의 경량화와 하드웨어의 발전으로 스마트폰과 같은 모바일 기기에서도 AI를 효과적으로 활용하고 학습할 수 있는 온디바이스(On-Device) AI 기술이 발전하면서, 이제는 누구나 스마트폰의 버튼 하나만으로 위조 콘텐츠를 손쉽게 제작하고 확산시킬 수 있게 되었다는 우려의 목소리가 나오고 있습니다.

하지만 온디바이스 AI 기술은 딥페이크를 효과적으로 방지하는 데에도 유용하게 활용될 수 있습니다. 사용자의 데이터를 외부 서버로 전송하지 않고도 실시간으로 위조 콘텐츠를 탐지하거나 분석할 수 있기에, 적절히 활용한다면 보안성과 프라이버시를 강화하는 동시에 딥페이크 대응 능력을 높이는 데 기여할 수 있습니다. 특히 딥페이크 공격의 주요 대상이 되는 SNS 사진 등[1,2]에 대해, 외부 서비스에 의존하지 않고 업로드 시점에서 딥페이크 생성을 방지하는 노이즈를 자동으로 주입[3,4]할 수 있다면, 보다 효과적인 방어가 가능할 것입니다.

이러한 점에 착안하여 저희 KAIST 사이버보안연구센터에서는 주식회사 엔텀과의 공동 연구를 통해 온디바이스 AI를 활용하여 딥페이크 생성을 방지하는 안드로이드 어플리케이션 DFGuard를 개발하였습니다. 이번 글에서는 DFGuard의 작동 원리와 구현 방안, 그리고 데모를 통한 활용 방법에 대해 소개하고자 합니다.

DFGuard: Android On-Device Deepfake Disruption

DFGuard는 사람이 인식하기 어려운 노이즈를 주입하여 딥페이크 생성을 방지하는 Deepfake Disruption 기술[4,5]을, 스마트폰과 같은 사용자 기기의 온디바이스 AI를 활용해 구현한 안드로이드 애플리케이션입니다. DFGuard를 사용하면 사진을 외부 기기나 클라우드 서비스에 전송하지 않고도 오프라인 환경에서 직접 노이즈를 주입할 수 있어, 이미지 공개로 인한 부차적인 개인정보 유출 위협으로부터 자유로울 수 있습니다(<그림 1>). 본 장에서는 DFGuard의 작동 원리와 구현 방식에 대해 간단히 살펴보겠습니다.

<그림 1> DFGuard 활용 시나리오

DFGuard의 작동 원리

DFGuard의 핵심이 되는 기술은 딥페이크 생성 과정에서 사용되는 모델의 입력 이미지에 미세한 노이즈를 주입함으로써 생성 모델이 의도한 대로 이미지를 합성하지 못하도록 방해하는 기술[5]입니다. 이러한 방식은 원본 이미지의 시각적 품질을 크게 해치지 않으면서도, 딥페이크 콘텐츠의 생성을 효과적으로 차단할 수 있다는 점에서 큰 장점을 지닙니다. 통상적으로 딥페이크 생성을 효과적으로 방해하기 위해서는, PGD(Projected Gradient Descent)[6]와 같은 기법을 활용하여 사전에 정의된 손실 함수를 최대화하는 방향으로 기울기(Gradient)를 계산하는 과정이 필수적입니다. DFGuard는 이러한 계산을 온디바이스 AI를 통해 사용자 기기 내에서 직접 수행함으로써, 외부 서버와의 통신 없이 개인정보 유출 가능성을 최소화합니다.

<그림 2> DFGuard 작동 원리: Deepfake Disruption [5]

DFGuard의 구현 방안

DFGuard는 Flutter[7]와 LiteRT[8]를 사용하여 구현되었습니다. 먼저, 크로스 플랫폼 모바일 애플리케이션 개발을 지원하는 Flutter를 활용함으로써 안드로이드와 iOS 환경 모두에서 일관된 기능성과 사용자 경험을 제공할 수 있도록 구성하였습니다. 또한 LiteRT는 모바일 및 임베디드 환경에서 효율적인 추론을 위해 설계된 경량화된 딥러닝 추론 엔진으로, 온디바이스에서의 실시간 처리 성능을 확보하는 데 기여할 수 있습니다. DFGuard에서는 LiteRT를 적극적으로 활용하여 그 기능의 핵심이 되는 온디바이스 AI 기반 노이즈 주입 기능을 경량화된 형태로 구현하였으며, 이를 통해 노이즈 주입을 통한 딥페이크 생성 방지 기능을 성공적으로 제공합니다.

<그림 3> LiteRT를 통한 Android에서의 온디바이스 AI 실행 [8]

DFGuard 애플리케이션 데모

지금까지는 DFGuard 개발의 배경이 되는 활용 시나리오, 작동 원리와 구현 방안에 대해 알아보았습니다. 이제 저희가 개발한 안드로이드 앱 DFGuard를 GAN 기반의 딥페이크 방어를 통한 데모를 통해 소개하겠습니다. 본격적으로 실행 화면을 소개하기에 앞서, 먼저 본 데모의 방어 대상인 딥페이크 생성 모델 중 하나인 StarGAN v2에 대해 간단히 소개하겠습니다.

DFGuard 방어 대상 모델: StarGAN v2

StarGAN v2[9]는 Naver CLOVA에서 개발한 GAN(Generative Adversarial Network) 기반의 모델로서, 다양한 도메인 간 이미지 변환을 가능하게 하는 다중 도메인 이미지 변환 모델입니다. 특히 스타일 임베딩을 도입함으로써 원하는 스타일 속성을 조절하거나 생성하는 것이 가능해졌으며, 이를 통해 특정 인물의 얼굴을 대상이 되는 얼굴의 스타일로 자유롭게 합성하는 등 딥페이크와 같은 생성형 AI 기술의 기반 모델로도 자주 사용됩니다(<그림 4>). 본 데모에서는 이러한 점에 착안하여 특정 얼굴 사진을 다른 얼굴 스타일로 합성하고자 하는 공격자를 가정하여 딥페이크를 방어하고자 합니다. 본 데모에서는 노이즈 주입을 통해 보호하고자 하는 이미지를 [보호 대상 이미지], 딥페이크 합성에 사용되는 이미지를 [합성 대상 이미지]라고 각각 지칭하겠습니다.

<그림 4> StarGAN v2를 활용한 얼굴 변환 딥페이크 [9]

0. DFGuard 실행 플로우

DFGuard의 실행 절차는 <그림 5>와 같은 흐름을 따릅니다. 먼저 앱을 실행하면, 보호할 이미지와 딥페이크 합성 대상이 되는 이미지를 각각 선택할 수 있습니다. 두 이미지를 모두 선택하면 노이즈 주입을 통한 이미지 보호 기능이 활성화됩니다. 이미지 보호 기능을 실행하면 노이즈가 주입된 보호된 이미지가 생성되며, 이 결과물을 갤러리에 저장할 수 있습니다.

<그림 5> DFGuard 실행 플로우

1. 앱 실행 화면

다음은 앱 실행 화면입니다. 저희가 개발한 앱인 DFGuard를 실행하면, 먼저 스플릿 스크린이 표시되고 이어서 보호 대상 이미지를 선택하는 화면으로 전환됩니다 (<그림 6>).

<그림 6> DFGuard 앱 아이콘 및 실행 화면

2. 보호 사진 선택

앱 로드가 완료되면 <그림 7>과 같이 보호 대상 이미지를 선택할 수 있습니다. 보호 대상 이미지는 갤러리에서 불러올 수도 있고, 직접 촬영할 수도 있습니다. 보호 대상 이미지의 로드가 완료되면 아래와 같이 확인이 가능하도록 화면에 표시됩니다.

<그림 7> 보호 대상 이미지 선택 화면

3. 합성 대상 사진 선택

보호 대상 이미지를 선택한 후에는 <그림 8>과 같이 [합성 대상 이미지] 탭으로 넘어가서 합성 대상 이미지를 선택할 수 있습니다. 합성 대상 이미지 또한 보호 대상 이미지와 같이 촬영 및 로드가 모두 가능합니다. 합성 대상 이미지의 로드가 완료되면 아래와 같이 확인이 가능하도록 화면에 표시되며, [DFGuard 보호] 버튼이 활성화됩니다.

<그림 8> 합성 대상 이미지 선택

4. 노이즈 주입을 통한 이미지 보호 및 결과 저장

[DFGuard 보호] 버튼을 누르면 온디바이스 AI를 활용한 노이즈 주입 과정이 수행됩니다. 보호가 적용된 이미지는 [보호된 이미지] 탭에 사용자가 확인할 수 있도록 표시되며, “보호 완료!” 메시지가 표시됩니다. 최종적으로 보호된 이미지는 갤러리에 저장할 수 있으며, 저장 시 “갤러리에 저장 완료” 메시지가 표시됩니다(<그림 9>).

<그림 9> 노이즈 주입을 통한 이미지 보호 및 결과 저장

이미지 보호 결과 분석

DFGuard를 사용하여 노이즈 주입을 통한 이미지 보호를 적용한 그림이 정말 딥페이크 생성을 방지할 수 있을지 확인해 보겠습니다. <그림 10>에서 첫번째 행은 보호가 적용되기 전의 보호 대상 이미지와 합성 대상 이미지, 그리고 StarGAN v2를 사용하여 합성한 딥페이크 이미지를 보여줍니다. 그 아래 행에는 보호 노이즈가 주입된 이미지, (동일한) 합성 대상 이미지와 보호된 딥페이크 결과를 보여줍니다. 아래의 그림에서도 확인할 수 있듯, 보호된 이미지를 활용할 경우 인물 사진이라고 생각될 수 없을 정도로 딥페이크 합성을 성공적으로 방해함을 확인할 수 있습니다.

<그림 10> 이미지 보호 전후 StarGAN v2를 통한 딥페이크 이미지 생성 결과

지금까지 간단한 데모를 통해 DFGuard를 활용한 StarGAN v2에 대한 방어 기법을 소개하였습니다. DFGuard는 StarGAN v2뿐만 아니라, 이와 유사한 GAN 기반의 딥페이크 얼굴 합성 모델에 대해서도 효과적인 방어가 가능합니다. 앞으로도 DFGuard의 성능을 지속적으로 개선하고, Diffusion 기반 모델을 포함한 다양한 딥페이크 생성 모델에 대응할 수 있도록 그 기능성을 확장해 나갈 예정입니다.

글을 마치며

이번 글에서는 생성형 인공지능의 대표적인 부작용인 딥페이크를 효과적으로 방지하기 위해 KAIST 사이버보안연구센터와 주식회사 엔텀에서 공동으로 개발한 안드로이드 애플리케이션 DFGuard를 소개하였습니다. DFGuard는 온디바이스 AI를 활용하여 오프라인 환경에서도 노이즈를 주입함으로써, 개인정보 유출에 대한 우려 없이 딥페이크 생성을 효과적으로 차단할 수 있습니다. 본 애플리케이션이 생성형 인공지능 기술의 윤리적이고 안전한 활용과 이를 도모할 수 있는 기술 발전에 기여할 수 있기를 바라며, 글을 마칩니다.

참고문헌

[1] “SNS사진·○○네컷 다 내려”… 학교 현장 덮친 ‘딥페이크’ 불안, 국민일보 (2024/08/26)
[2] Rhea Nath, “Lisa, 32, Found Deepfake Nudes Using Her Image & A Legal Loophole Means She Can’t Stop It”,  Pedestrian, (2025.05.09.)
[3] 딥페이크가 당신을 노린다! 방어법 총정리 2탄, KAIST CSRC 블로그 (2025)
[4] Utkarsh Bagaria, Vijit Kumar, Tanvi Rajesh, Vibhav Deepak, Shylaja S. S. (2024). Disrupting Deepfakes: A Survey on Adversarial Perturbation Techniques and Prevention Strategies, ICCAI 2024: 301-306
[5] Nataniel Ruiz, Sarah Adel Bargal, Stan Sclaroff: Disrupting Deepfakes: Adversarial Attacks Against Conditional Image Translation Networks and Facial Manipulation Systems. ECCV Workshops (4) 2020: 236-251
[6] Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, Adrian Vladu: Towards Deep Learning Models Resistant to Adversarial Attacks. ICLR (Poster) 2018
[7] Flutter, https://flutter.dev/
[8] Use LiteRT on Android, Android Developers, https://developer.android.com/ai/custom
[9] Yunjey Choi, Youngjung Uh, Jaejun Yoo, Jung-Woo Ha: StarGAN v2: Diverse Image Synthesis for Multiple Domains. CVPR 2020: 8185-8194

2 명이 이 글에 공감합니다.