딥페이크 기술은 얼굴과 음성을 조작해 허위 정보를 만들어내며, 정치적 선전, 금융 사기, 가짜 뉴스 확산 등 사회적 문제를 야기합니다. 특히, 생성형 AI 기술이 발전하면서 기존 탐지 기술만으로 이를 완전히 차단하기 어려워졌습니다. 기존 대응 방식은 탐지를 통해 이미 생성된 딥페이크를 판별하는 것이었지만, 사전 차단이 불가능하다는 한계가 있습니다. 이에 따라 능동적 방어 기법이 주목받고 있으며, 적대적 인공지능(Adversarial AI)을 활용해 딥페이크 생성 모델을 교란하거나 학습 데이터를 변조하여 가짜 미디어 생성을 차단하는 방법이 연구되고 있습니다.
[글쓴이:] 손 진혁
AI 기술은 챗봇, 안면 인식, 자율주행, 의료 지원 등 다양한 분야에 적용되며 빠르게 발전하고 있습니다. 하지만 의사 결정 과정이 불투명하기 때문에 흔히 ‘블랙박스’ 문제라고 불리는 AI의 결정을 완전히 신뢰하기 어려운 경우가 많습니다. 바로 이 부분에서 설명 가능한 AI(XAI)가 등장하여 AI의 결정을 설명하는 데 도움을 줍니다.
2022년 SiteLock의 Security Report에 따르면 높은 위험성의 악성코드가 점점 더 증가하고 있다고 발표하였고, 이러한 위험성의 악성코드는 데이터를 훔치고, 고객정보를 삭제하는 행위등 브랜드 평판에 큰 타격을 주고있습니다. 이러한 악성코드를 해결하기 위해 전통적인 방식의 시그니쳐 기반 탐지 방식을 많이 사용하였으나 여러 한계점이 존재하여 AI를 활용한 탐지 연구가 진행되고 있습니다. 그러나 늘어나는 악성코드의 비해 실제 악성코드 데이터를 구하기는 어려워 효율적인 AI 모델을 생성하기가 어렵습니다. 이런 문제를 해결하기 위한 방법 중 하나는 데이터 증강방법으로 본 포스팅에서는 데이터 증강 기법들의 종류와 실제 HWP 악성코드에 적용했던 데이터 증강 연구를 소개하겠습니다.
최근 코로나19 팬데믹은 우리 일상의 많은 부분을 바꿔 놓았습니다. 가장 큰 변화 중 하나는 재택근무, 화상 회의와 같은 업무의 비대면을 꼽을 수 있는데, 이를 위해 이메일 및 메신저의 활용이 폭발적으로 증가했고 악성 공격자들은 사회공학적 기법을 통해 문서형 악성코드를 유포하는 공격이 증가했습니다. PDF나 MS-Office, 한글 파일 등에 악성코드를 숨기고 사용자들의 운영체제를 침해할 수 있고, 이러한 파일을 문서형 악성코드라 부릅니다. 본 포스팅에서는 이러한 문서형 악성코드 탐지를 위해 ML을 활용하였고, ML을 위해 PDF 파일을 활용하여 특징점을 추출하고, 특징점을 활용한 모델을 만들어 평가를 진행하였습니다.
PDF, HWP, MS-Word등 다양한 전자 문서는 중요한 정보를 효율적이고 효과적으로 전달하는 매체입니다. 그러나 이렇게 편리한 전자 문서들 내 악성코드를 숨겨 문서와 문서의 취약점을 이용해 운영체제를 침해 할 수 있는데, 이러한 문서 파일들을 문서형 악성코드라 부릅니다. 이번 포스팅에서는 문서형 악성코드를 효과적으로 탐지하기 위한 방법론에 대해 알아보도록 하겠습니다.