T9 Project 여정의 시작

최근 ICT 기술이 비약적으로 발전함에 따라 이를 활용한 새로운 응용 기술 및 서비스들이 폭발적으로 출현하고 있습니다. 하지만, 이렇게 출현한 새로운 기술과 서비스들은 사이버 위협 관점에서 보았을 때는 또 다른 공격의 대상과도 같습니다. 이를 방증하듯 MITRE에서 실제 공개한 정보를 살펴보면, [표1]과 같이 CVE(Common Vulnerabilities and Exposures)의 수가 2020년 18,375개에서 2023년 29,065개로 최근 4년간 매년 꾸준히 증가하는 것을 알 수 있습니다. 또한, 시간의 흐름에 따라 늘어난 폭이 커지는 양상을 볼 때 우리가 얼마나 많이 사이버 위협에 노출되어 있는가에 대해 새삼 놀라지 않을 수 없습니다.

표 1 연도별 CVE 등록 수(출처: www.cve.org)

Year 2020 2021 2022 2023
Q1 4,807 4,415 6,015 7,015
Q2 5,011 5,005 6,365 7,134
Q3 4,170 5,541 6,448 6,936
Q4 4,387 5,200 6,231 7,980
Total 18,375 20,161 25,059 29,065

지속적으로 증가하고 다양한 사이버 위협에 효과적으로 대응하기 위해 전통적으로 큰 범주에서 네트워크 공격 탐지를 수행하는 NIDS (Network-based Intrusion System)와 호스트 공격 탐지를 수행하는 HIDS (Host-based Intrusion System) 기반의 정보보호 솔루션을 구축하게 됩니다. 또한 이 대응 방법의 탐지 방식은 크게 규칙 기반 침입탐지 방식과 행위 기반 침입탐지 방식으로 나눌 수 있는데, 규칙 기반 침입탐지 방식은 발생 가능한 공격에 대해 사전에 탐지 패턴(시그니처, 룰 등)을 등록하는 방식으로 탐지의 정확도가 높지만 새로운 공격이나 탐지 패턴을 속이는 기법에는 탐지의 한계점이 존재합니다. 이와 반대로 행위 기반 침입탐지 방식은 새로운 공격에 효과적이지만 탐지 정확도가 상대적으로 낮고, 분석 리소스와 시간이 상대적으로 많이 소요된다는 단점이 있습니다. 따라서 최근에는 두 방식을 효율적으로 병행하면서 공격 데이터의 분석과 탐지에 있어 인공지능 기술을 적용하는 노력이 주류를 이루고 있습니다.

인공지능 기술을 이용하여 사이버 위협 탐지 모델을 생성할 때 무엇보다 중요한 것은 고품질의 대용량 학습 데이터셋입니다. 즉 실질적인 공격 행위를 통해 수집된 데이터셋이 사이버 위협 탐지 모델의 성능을 좌지우지하는 것이지요. 물론 공격 데이터셋만큼 중요한 것이 정상 데이터셋입니다. 현재까지 사이버 위협(주로 네트워크 공격) 탐지 모델 생성을 위한 대표적인 데이터셋은 KDD99, NSL-KDD, CICIDS-2017 등이 있는데, 이 데이터셋에는 몇 가지 문제점이 존재합니다. 첫째, 구축 시기가 오래되어 최신 공격 트렌드를 반영하지 못하는 문제가 있고, 둘째, 공격 기술의 편향성에 따른 데이터셋의 품질의 문제가 있습니다. 마지막으로 최근 암호화 프로토콜을 이용하는 사이버 공격이 늘어나고 있지만 이에 대한 데이터 상당히 미흡합니다. 하지만 아직까지 이를 대체하여 사용할 수 있는 오픈 데이터셋은 존재하지 않습니다. 따라서 연구기관이나 기업에서는 사이버 위협 탐지 모델을 생성하기 위해 오픈 데이터셋을 사용하되, 내부적으로 공격 데이터셋을 별도 구축하기 위한 많은 시간과 리소스를 투입하는데, 이러한 과정을 자체적 수행하거나 여의찮은 경우 상당히 큰 예산을 들여 전문적으로 공격을 수행하는 기업(그룹)에 의뢰하기도 하는 번거로움이 있습니다.

따라서, 저희 연구팀에서는 이러한 번거로움을 효과적으로 해결할 수 있도록 가상환경 기술을 이용하여 Attacker의 환경과 Victim의 환경을 자동으로 구축하고, 다양한 공격을 프로그매틱한 방법으로 수행하면서 대량의 공격 데이터셋을 자동으로 수집할 수 있는 프레임워크를 연구하고 있습니다. 또한 최신 공격 트렌드를 반영하기 위해 MITRE ATT&CK의 사이버 공격 전술, 기법 및 절차(TTPs)를 체계적으로 재정의하고 분류하여 공격 시나리오 및 공격 코드를 개발함으로써 고품질의 공격 데이터셋 확보가 가능합니다. 그렇다면 저희 연구팀에서 수행하는 연구에 대해 좀 더 살펴보도록 하겠습니다.

T9 Project는 무엇인가?

우선 T9이라는 이름의 의미를 살펴보자면 T는 그리스 신화에 나오는 바다의 신 포세이돈의 상징인 Trident의 첫 글자로 삼지창을 의미하며, 9는 삼지창의 개수로 삼지창 한 개가 하나의 사이버 공격(도구, 코드, 시나리오, 단위)을 의미합니다. 간단히 T9의 의미를 살펴보았으니, 저희 연구팀에서 장기적으로 추진하고자 하는 T9 Project에 대해 좀 더 자세히 알아보겠습니다.

그림 1. 삼지창을 들고 있는 포세이돈

T9 Project는 [그림 2]에서 알 수 있듯이 위협 시나리오 기반의 공격 및 수집 환경 자동화 생성 프레임워크인 T9 Framework, 9개의 공격 시나리오에 대한 공격 도구의 묶음인 T9, T9이 빌딩 형태로 쌓여 데이터베이스화된 T9 Data, T9에 대한 공격 정보 및 공격 데이터셋이 공유되는 웹사이트 및 깃허브. KAIST CSRC 블로그인 공유 미디어를 총칭하여 T9 Project라 부릅니다.

그림 2. T9 Project 기술적 구성도

T9 Framework

단일 공격 시나리오를 예를 들어 설명하자면 프롬프트 창에서 구축하고자 하는 사이버 공격(T9 Data의 하나)을 선택하면, 가상환경(Docker 또는 VM)으로 Attacker의 환경과 Victim의 환경이 구축됩니다. 각 Victim의 환경에는 공격 행위를 수집할 수 있는 로깅 시스템(수집 데이터 : PCAP, Memory, Network, Process, Registry 등)이 설치되어 있어 Attacker의 환경에서 공격을 수행하면 자동으로 공격 데이터 수집이 가능하도록 구성되어 있습니다.

그림 3. T9 Framework의 단일 공격 생성 흐름도(예)

① T9 Framework에서 구축하고자 하는 사이버 공격 선택
② 선택한 사이버 공격을 가상화로 자동 구축 및 생성
③ Attacker 환경에 준비 된 공격 도구 실행
④ 공격 데이터 생성

T9 Data

MITRE ATT&CK TTPs 기반의 9개 공격 시나리오(한 층)로 아래와 같은 규칙으로 코드명이 정해지며, 매년 정기적으로 상반기 하반기 두 번 공개가 되어 지속적으로 쌓이는 공격 시나리오의 전체 세트를 의미합니다.

* T9-2301SNA
: 23 (년도)
: 01 (1~2의 번호로 23년도에 첫 번째 공개되는 데이터의 경우 1의 값을 가지게 됩니다.)
: S (S: (Single) 단일공격, M: (Multi) 복합공격)
: N (N: NDR, E: EDR, NE: NDR/EDR)
: A (MITRE ATT&CK의 14개의 Tactic의 첫 번째인 Reconnaissance가 A를 기준으로 마지막 Impact가 N이 부 여됩니다. 중복 가능)

공유 미디어(웹사이트, 깃허브, 블로그)

T9 Data에 대한 정보와 T9 Framework에서 생성된 공격 데이터셋이 T9 웹사이트(https://www.t9project.dev, `24.7.17. 오픈 예정)와 깃허브에 공개됩니다. 또한, T9 웹사이트를 통해 인증받은 사용자는 T9 Data에 존재하는 코드명 또는 취약점을 입력하면, 해당하는 공격 도구를 포함하는 Attacker의 환경과, 공격이 수행될 수 있는 Victim의 환경이 검색되고 구축 환경을 다운로드 받을 수 있습니다. 사용자는 제공받은 환경을 통해 Attacker의 환경에 접속하여, 준비 되어있는 공격 도구를 실행하면 원하는 공격 및 공격 수행 결과의 데이터셋을 자동으로 수집할 수 있습니다.

예를 들어 위의 예시에서 “T9-23-01-S-N-A”가 Path Traversal 공격이라고 했을 때 Attacker의 환경에는 Path Traversal 공격을 수행할 수 있는 공격 도구가 준비되어 있고, victim의 환경에는 Path Traversal 공격이 수행될 수 있는 웹 서버와 공격 로그를 수집할 수 있는 시스템이 구축되게 됩니다. 이렇게 T9 Framework가 사이버 공격 환경을 자동으로 구축해 주고, 사용자는 공격 도구를 매뉴얼하게 간단히 실행만하면 공격 데이터셋을 보다 쉽게 수집할 수 있을 뿐만 아니라 이를 기반으로 인공지능 위협 탐지 모델 생성에 있어 활용을 극대화하는 것이 T9 Project의 궁극적인 목표이며, 더불어 아래와 같이 다양한 활용성 및 기대효과를 가지고 연구를 진행하고 있습니다.

[활용성 및 기대효과]

* 위협 탐지 솔루션(NDR/EDR) 개발
* 위협 탐지 솔루션(NDR/EDR) 성능 평가 및 검증
* 위협 탐지 인공지능 모델 개발
* 연구 목적의 학습 공격 데이터 세트
* 위협 대응 학습을 위한 교육 도구

글을 마치며

T9 Project가 무엇인지, 무엇을 위해서 연구가 추진되고 있는지 살펴보았고, 어떤 기준에서 공격 시나리오가 만들어지는지, 어떻게 확장될 것인가에 대해 전반적으로 살펴보았습니다. 최초 공개 예정일인 `24.7.17. 이후 T9 Project는 매년 2회 9개(년 총 18개)의 공격 환경에서 수집된 공격 데이터셋이 깃허브, 웹사이트에 공개될 예정입니다. 다음 블로그 글에서는 첫 공개와 함께 사용법에 대해 살펴보도록 하겠습니다. 많은 관심 부탁드립니다.

참고문헌

[1] https://www.cve.org/About/Metrics
[2] https://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
[3] https://www.unb.ca/cic/datasets/nsl.html
[4] https://www.unb.ca/cic/datasets/dos-dataset.html
[5] 한국과학기술정보연구원, 최신 사이버위협동향 및 대응 방안 분석, 2023
[6] https://attack.mitre.org/
[7] https://commons.wikimedia.org/wiki/File:Wireshark_Icon.png
[8] https://namu.wiki/w/%ED%8F%AC%EC%84%B8%EC%9D%B4%EB%8F%88

5 명이 이 글에 공감합니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다