LLM 및 RAG 기반 사이버 위협 예측 2탄 (RAG와 XAI 콜라보)

앞선 LLM 및 RAG 기반 사이버 위협 예측 1탄(링크)에서는 기존에 제안된 사이버 위협 예측 방법들을 살펴보고, 이러한 방법들이 가지는 한계점에 관해 설명하였습니다. 또한 이를 보완하기 위한 접근 방식으로, LLM(Large Language Model)과 RAG(Retrieval-Augmented Generation)을 결합하여 사이버 공격의 흐름을 이해하고 다음 공격 단계를 예측하는 연구 방향을 소개해 드렸습니다.

이번 블로그 글에서는 효과적인 위협 예측을 위해 한 단계 더 나아가, T9 Project 블로그 (링크)에서 소개해 드린 T9 Detect의 사이버 위협 탐지 정보와 XAI(eXplainable AI)를 통해 도출된 탐지 근거 정보를 결합하여 사이버 위협 예측에 활용하는 방법을 소개하고자 합니다. 특히 탐지 과정에서 도출된 설명 가능한 근거 정보인 XAI 결과를 활용하여 보다 연관성 있는 정보를 추출하는 방법을 설명하겠습니다.

[그림 1] T9 Project(Detect 개념도 및 도식화)

RAG 활용을 위한 XAI

XAI를 RAG에 활용하기에 앞서, 실제 XAI 결과가 어떤 형태로 제공되는지와 이를 RAG 기반 질의 생성에 활용하기 위해 어떤 처리가 필요한지 살펴보겠습니다.

[그림 2] XAI-RAG 예측 개념도

사이버 위협 탐지 및 XAI

T9 Project에서 연구 개발하고 있는 사이버 위협 탐지 모델(T9 Detect)은 네트워크 환경에서 발생하는 패킷, 플로우, 세션 단위의 트래픽 데이터를 분석하여 다양한 공격을 탐지하는 것을 목표로 합니다[1]. 특히 XAI를 적용하여 탐지 모델이 특정 공격을 판단하게 된 근거 정보를 함께 제공하도록 설계하여 어떤 패킷 특징이나 통신 패턴이 공격 탐지에 영향을 미쳤는지 확인할 수 있도록 설계되었습니다.

이렇게 XAI를 통해 도출된 공격 탐지의 근거 정보는 RAG 기반 사이버 위협 분석 과정에서 질의(Query)를 생성하는 데 활용할 수 있습니다. 네트워크 패킷에는 다양한 필드와 데이터가 포함되어 있기 때문에 이를 그대로 활용할 경우 불필요한 정보까지 포함될 수 있습니다. 반면, XAI를 통해 식별된 공격 관련 핵심 근거 및 특징만을 활용하면 실제 공격과 연관성이 높은 정보 중심으로 질의를 구성할 수 있습니다. 이를 통해 RAG 데이터셋에서 보다 정확한 연관 정보를 추출할 수 있으며, 결과적으로 LLM이 공격의 흐름을 해석하고 이후 발생할 가능성이 높은 공격 단계를 예측하는 데 도움을 줄 수 있습니다.

XAI를 위한 의미 단위 기반 토큰 복원

[그림 3] 의미 단위 기반 토큰 복원 전과 후

XAI에서 제공되는 결과는 크게 토큰과 해당 토큰의 기여도로 구성됩니다[2]. 그러나 기존 BERT기반 토크나이저(Tokenizer)의 경우 네트워크 트래픽 데이터를 표현하는 과정에서 하나의 의미 단위가 여러 개의 토큰으로 분절되는 문제가 발생할 수 있습니다[3]. 예를 들어 세션 길이나 패킷 크기와 같은 수치 값, 또는 특정 네트워크 필드 값이 토큰화 과정에서 여러 조각으로 나뉘어 표현되면서 실제 데이터가 가지는 의미 단위가 파편화되어 해석의 왜곡이 발생할 수 있습니다. 이러한 토큰 분절은 XAI 결과를 그대로 활용할 경우 실제 네트워크 특징과 연관없는 정보로 해석될 수 있어 위협 탐지 및 예측 분야에서는 설명력(Explainability)을 확보하는 데 있어 중대한 변수로 작용합니다[4].

따라서 본 연구에서는 XAI 결과에서 분절된 토큰을 다시 결합하여 원래의 네트워크 특징 단위를 복원하는 의미 단위 토큰 재구성(Semantic Token Reconstruction) 과정을 수행합니다. 구체적으로, BERT 기반 토크나이저에 의해 분절된 토큰들 중 동일한 네트워크 특징에 해당하는 연속 토큰을 식별하고 이를 병합하여 하나의 의미 단위로 재구성합니다[5]. 이를 통해 세션 길이(SESSION), 평균 패킷 크기(AVG_PKT), 패킷 간 인터벌(AVG_IAT)과 같은 네트워크 통계 값이나, IP 주소, 포트 번호와 같은 필드 값이 실제 데이터가 가지는 의미 단위를 유지한 형태로 복원할 수 있습니다.

이와 같이 의미 단위 토큰 재구성 과정을 통해 복원된 XAI 결과는 RAG 기반 질의 생성 과정에서도 중요한 역할을 합니다. 그림 3의 좌측처럼 네트워크 특징이 여러 조각의 토큰으로 표현될 경우 검색 질의의 의미가 왜곡될 수 있지만, 우측처럼 의미 단위로 복원된 토큰을 활용하면 실제 공격 행위와 관련된 핵심 특징 중심으로 질의를 구성할 수 있습니다. 이를 통해 RAG 데이터셋에서 보다 정확한 위협 정보를 검색할 수 있으며, 결과적으로 LLM이 공격 시나리오를 해석하고 이후 발생할 가능성이 높은 공격 단계를 보다 신뢰성 있고 효과적으로 예측할 수 있습니다.

RAG와 XAI 콜라보

[그림 4] XAI를 활용한 RAG 질의 구성 예시

앞서 설명한 것처럼 의미 단위로 복원된 XAI 결과는 RAG 기반 사이버 위협 분석을 위한 질의 생성에 활용되는데, 의미 있는 특징만을 활용하기 위해 그림 4에서처럼 XAI에서 제공되는 토큰별 기여도를 기반으로 일정 임계 값 이상의 기여도를 가지는 토큰만을 선별하여 질의를 구성합니다[6]. 이러한 과정은 공격 탐지에 실제로 중요한 영향을 미친 네트워크 특징만을 추출하여 RAG 질의에 반영하기 위함입니다.

이렇게 구성된 질의는 RAG 데이터셋에서 가장 연관성이 높은 위협 정보를 검색에 사용되며, 검색된 결과는 LLM의 추론 과정에서 추가적인 컨텍스트로 활용됩니다[7]. LLM은 XAI 기반 네트워크 특징과 RAG를 통해 검색된 공격 지식 정보를 종합적으로 분석하여 현재 관찰된 공격 행위와 연관된 공격 시나리오를 해석하고, 이를 기반으로 이후 발생할 가능성이 높은 공격 단계를 사용자에게 제시하게 됩니다.

글을 마치며

지금까지 XAI 기반 공격 탐지 결과를 RAG 기반 사이버 위협 분석에 활용하기 위한 방법을 살펴보았습니다. 특히 탐지 결과와 함께 제시되는 XAI 결과는 의미 단위 기반 토큰 재구성을 통해 실제 네트워크 특징 단위로 복원하고, 이를 기반으로 RAG 질의를 구성하는 과정을 소개하였습니다. 이러한 접근 방식은 공격 탐지 모델이 판단한 근거 정보를 효과적으로 활용하여 실제 공격과 연관성이 높은 위협 정보를 검색하고, 이를 LLM의 추론 과정과 결합할 수 있다는 장점이 있습니다.

다음 글에서는 이번 글에서 소개드린 XAI와 RAG의 결합을 포함하여 실제 LLM과 RAG를 활용한 사이버 위협 예측 시스템의 전체 구조와 실제 구현 과정을 구체적으로 소개드릴 예정이니 많은 관심 부탁드립니다.

참고자료

[1] T9 Project의 세 번째 공격 데이터(T9 Attack) 공개와 사이버 위협 탐지(T9 Detect) 프리뷰, KAIST CSRC 블로그, 2025
[2] Adadi, Berrada, Peeking Inside the Black-Box: A Survey on Explainable Artificial Intelligence(XAI), IEEE Access, 2018
[3] Devlin, Jacob, et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL, 2019
[4] Sennrich, et al., Neural Machine Translation of Rare Words with Subword Units, ACL, 2016
[5] Jain et al., Attention is not Explanation, NACCL 2019
[6] Lundberg, Scott, Lee, A Unified Approach to Interpreting Model Predictions, NeurIPS, 2017
[7] LLM 및 RAG 기반 사이버 위협 예측 1탄(이해하기), KAIST CSRC 블로그, 2025

1 명이 이 글에 공감합니다.