2022년 SiteLock의 Security Report에 따르면 높은 위험성의 악성코드가 점점 더 증가하고 있다고 발표하였고, 이러한 위험성의 악성코드는 데이터를 훔치고, 고객정보를 삭제하는 행위등 브랜드 평판에 큰 타격을 주고있습니다. 이러한 악성코드를 해결하기 위해 전통적인 방식의 시그니쳐 기반 탐지 방식을 많이 사용하였으나 여러 한계점이 존재하여 AI를 활용한 탐지 연구가 진행되고 있습니다. 그러나 늘어나는 악성코드의 비해 실제 악성코드 데이터를 구하기는 어려워 효율적인 AI 모델을 생성하기가 어렵습니다. 이런 문제를 해결하기 위한 방법 중 하나는 데이터 증강방법으로 본 포스팅에서는 데이터 증강 기법들의 종류와 실제 HWP 악성코드에 적용했던 데이터 증강 연구를 소개하겠습니다.
[글쓴이:] 진혁 손
손진혁 연구원은 컴퓨터공학과를 학부, 석사과정을 졸업했다. 현재 카이스트 사이버보안연구센터 AI보안 팀원으로 XAI를 활용한 인공지능의 보안 연구를 진행하고 있다.
최근 코로나19 팬데믹은 우리 일상의 많은 부분을 바꿔 놓았습니다. 가장 큰 변화 중 하나는 재택근무, 화상 회의와 같은 업무의 비대면을 꼽을 수 있는데, 이를 위해 이메일 및 메신저의 활용이 폭발적으로 증가했고 악성 공격자들은 사회공학적 기법을 통해 문서형 악성코드를 유포하는 공격이 증가했습니다. PDF나 MS-Office, 한글 파일 등에 악성코드를 숨기고 사용자들의 운영체제를 침해할 수 있고, 이러한 파일을 문서형 악성코드라 부릅니다. 본 포스팅에서는 이러한 문서형 악성코드 탐지를 위해 ML을 활용하였고, ML을 위해 PDF 파일을 활용하여 특징점을 추출하고, 특징점을 활용한 모델을 만들어 평가를 진행하였습니다.
PDF, HWP, MS-Word등 다양한 전자 문서는 중요한 정보를 효율적이고 효과적으로 전달하는 매체입니다. 그러나 이렇게 편리한 전자 문서들 내 악성코드를 숨겨 문서와 문서의 취약점을 이용해 운영체제를 침해 할 수 있는데, 이러한 문서 파일들을 문서형 악성코드라 부릅니다. 이번 포스팅에서는 문서형 악성코드를 효과적으로 탐지하기 위한 방법론에 대해 알아보도록 하겠습니다.