알고리즘 및 하드웨어 성능의 한계로 인해 두 번의 빙하기(AI Winter)를 맞이했던 인공지능(AI) 기술은 빠른 속도로 하루가 다르게 발전하고 있습니다[1]. 인공지능 활용은 과거 ‘인식’과 ‘분류’, ‘예측’이라는 한정된 분야에서 현재는 지식 추천, 챗봇, 음성 및 얼굴인식 등의 생활 서비스, 자율주행, 의료수술 보조, 공장 자동화 등의 생산적인 활동, 그리고 파포스(PAPHOS), ChatGPT, DALL•E 등 문화예술의 영역까지 우리 삶의 전 영역에서 활용되고 있습니다.
그렇다면 우리 생활에 밀접한 인공지능을 과연 온전히 믿을 수만 있을까요? 우리는 상당수 인공지능이 제공하는 의사결정을 신뢰하고는 있습니다만, 최종 결정에 대한 근거와 도출 과정의 공정성, 신뢰성 등은 제대로 제공받지 못하고 있습니다. 더욱이 개발자조차 이러한 부분을 명확히 파악하지도, 제시하지도 못하고 있습니다. 그렇다면 인공지능 모델을 해석하는 것이 원천적으로 불가능한 것일까요? 인공지능을 명확히 해석하기 어려운 이유는 내부의 연산 과정이 매우 복잡하며 구조적으로 파악이 불가능한 ‘블랙박스(black-box)’ 형태로 되어 있기 때문입니다. 그러면 인공지능 모델을 구조적으로 경량화한다면, 즉 계산식을 간소화한다면 모델의 해석이 쉬워질까요? 물론 모델을 해석할 가능성이 높아질 수 있지만 모델의 성능이 나빠질 가능성 또한 높아지는 문제가 발생합니다. 모델의 복잡도에 따른 해석과 성능은 일반적으로 트레이드오프(trade-off) 관계에 있으며[2] 그림 1과 같은 관계를 갖습니다.

이러한 인공지능 모델의 블랙박스 형태는 사회적 편견의 영향을 받는 데이터로 인공지능 모델이 학습되거나 알고리즘에 악의적인 조작이 개입돼 인간의 기본권이나 안전에 치명적인 피해를 끼치는 등의 문제가 발생하였을 때 사후 조치적 개입 또는 보정을 어렵게 만듭니다. 이와 같은 ‘블랙박스 딜레마’를 해소하기 위해 인공지능 모델의 계산 과정을 설명하는 기술 즉, 설명가능한 인공지능(eXplainable AI, XAI, 이하 XAI) 기술이 출현하게 되었습니다.
본 포스팅에서는 XAI의 정의와 종류에 대해 살펴보고, 실제 우리 센터에서 사이버위협 탐지를 위해 연구 개발한 다양한 인공지능 모델에 XAI를 적용한 사례에 대해 소개하고자 합니다.
XAI 정의 및 종류
XAI는 사용자가 인공지능 시스템의 작동 방식과 결과를 이해하고 올바르게 해석할 수 있게 하여 결과물이 생성되는 과정을 설명해 주는 기술을 의미합니다. 예를 들어, 이미지 분류 모델에서는 모델이 어떤 특정 부분을 어떻게 인식하는지 시각적으로 보여주거나, 특성 중요도(feature importance)를 분석 및 식별하는 방법을 사용합니다. 그림 2의 예제는 2가지 모델에 대한 XAI를 적용한 결과로 첫 번째 모델은 사람의 성별, 나이, 키, 몸무게를 입력받아 당뇨병을 진단하는 모델이며, 당뇨병을 판단하는데 몸무게의 정보가 당뇨병의 영향을 크게 끼친 것을 확인할 수 있습니다. 두 번째 모델은 이미지를 입력받아 동물 혹은 새의 종류를 출력하는 모델로 아래 그림에서, 긴부리 도요새(dowitcher)로 판단하는데 빨간 점들이 중요한 영향을 끼친 것으로 보입니다.

최근 들어 다양한 XAI 기술이 연구되고 있는데 구체적으로 어떤 기술들이 있는지 살펴보도록 하겠습니다. 표 1은 주요 XAI 기술 현황입니다.
표 1 . 현재 주류 XAI 기술 현황[3]
| XAI 기술 | 특징 |
| LIME | 이미지, 텍스트를 포함한 다양한 데이터에 대해 임의의 판별 인공지능 모델의 예측을 선형 유사(linear approximation)로 설명 |
| SHAP | 각종 데이터에 대응하는 인공지능 모델의 예측에 대해 특징량의 공헌도를 게임 이론적인 지표를 사용해 고르게 나누어 설명 |
| Permutation Importance | 특징량의 값을 정렬하고 모델 예측 오차의 증가를 추정해 특징량과 결과의 관계를 파악 |
| Tree Surrogate | 인공지능 모델 예측의 대역적 경향을 유사하게 학습한 해석 가능한 의사결정 트리로 설명 |
| CAM | CNN 계열 모델의 누적층의 경사를 사용해 이미지의 중요 요소를 강조한 지도를 생성 |
| Integrated Gradient | DNN 계열 모델의 입•출력값의 경사의 적분을 유사하게 계산해 입력 특징의 중요도 점수를 계산 |
| Attention | RNN/CNN 계열 모델에 사용되는 주의(Attention)기법을 사용해 예측을 설명 |
본 포스팅에서는 XAI 기술 중 센터에서 연구 개발한 인공지능 모델에 실제 적용 사례가 있는 SHAP와 Integrated Gradient에 대해 중점적으로 살펴보도록 하겠습니다.
1. SHAP
인공지능 모델의 예측 결과를 설명하는 방법으로, 예측 결과에 대한 각 특징량의 기여도를 산출하여 인공지능 모델 동작 원리를 설명합니다. 기여도를 산출하는 Shapley Value는 게임이론을 바탕으로, 게임에서 각 Player의 기여분을 계산하는 방법에 따르는데, 각 특징량 기여치의 총합은 예측의 값과 일치한다는 특성을 가집니다.
게임이론이란 여러 주제가 서로 영향을 미치는 상황에서 서로가 어떤 의사결정이나 행동을 하는지에 대해서 이론화한 것으로 아래와 같은 공식을 가집니다.

예를 들어 집값을 결정짓는 요인으로 [공원 근처(O, X), 면적(Big, Small), 층(High, Low), 반려동물 허용(O, X)]의 특성이 있다고 가정합니다. 먼저 기여도가 궁금한 특성을 선정하고, 나머지 변수들의 모든 조합을 구성합니다. 선택한 특성의 모든 조합의 기여도를 계산하여 평균을 냅니다. 예를 들어 계산하고자 하는 기여도를 반려동물 허용 여부로 정해보겠습니다. 그럼, 나머지 3개의 특성의 조합의 개수는 2*2*2인 8가지가 있습니다. 표 2는 8가지의 예제를 표로 나타낸 값입니다.
표 2 . Shapley value 게임이론 예제
| 공원근처 | 면적 | 층 | 반려동물 가능 | 반려동물 불가능 | 차이 |
| O | Big | High | 55,000원 | 50,000원 | 5,000원 |
| O | Big | Low | 45,000원 | 43,000원 | 3,000원 |
| O | Small | High | 40,000원 | 36,000원 | 4,000원 |
| O | Small | Low | 36,000원 | 33,000원 | 3,000원 |
| X | Big | High | 45,000원 | 40,000원 | 5,000원 |
| X | Big | Low | 43,000원 | 40,000원 | 3,000원 |
| X | Small | High | 30,000원 | 30,000원 | 0원 |
| X | Small | Low | 26,000원 | 25,000원 | 1,000원 |
반려동물 여부를 토대로 나머지 3개의 특성인 위치(공원 근처) 여부와 집의 크기(면적), 그리고 높이(층)의 조합을 토대로 반려동물의 기여도를 측정할 수 있습니다. 8가지의 조합의 평균이 반려동물 가능 여부 기여도의 최종 Shapley Value 값입니다.
2. Integrated Gradients
Integrated Gradients는 모델 출력을 입력값으로 미분한 값(기울기)을 사용해 영향도를 산출하는 방법으로, 역전파(back propagation)로 미분값을 계산할 수 있는 신경망에 주로 사용합니다. 출력에 대한 입력값의 영향을 계산하기 위해서 일반적으로 미분값을 계산하는데, 입력값을 다차원 벡터 x로 한 경우 출력 F(x)에 대한 i번째 입력값 xi의 영향으로 미분값
을 구합니다. 미분값이 정(Positive)의 값으로 커질수록 i번째 입력값이 출력에 미치는 영향이 커진다는 것을 알 수 있는데, 국소적인 미분값만을 사용하면 영향도로 구해야 할 값과 많이 동떨어지는 경우가 있습니다. 예를 들어 신경망에 사용하는 ReLU 등의 함수는 미분값이 0이 되는 범위가 있습니다. 이러한 상황을 고려해 Integrated Gradients에서는 영향도를 고려하고 싶은 입력 x에 대해 기준(baseline)이 되는 입력값 x’(예를 들어 값이 모두 0이 되는 입력)을 설정하고 기준 x’에서 입력값 x까지 점차 변화시킨 경우에 미분값의 총합(적분)이 크다면 영향이 커질 것으로 상정합니다. 구체적으로는 출력 F(x)에 대한 i번째 입력값 xi의 영향도를 식 2와 같이 계산합니다.


이는 그림 3과 같이 적분 경로로서 기준이 되는 입력 x’에서 x까지 직선으로 도달하는 경로를 생각할 수 있습니다. 이러한 적분 경로는 여러 개 존재하지만, Integrated Gradients에서는 직선적인 경로를 고려하여 각각의 점에 대한 미분값의 경로를 따라 적분합니다.
역전파(back propagation)이 가능한 모델에서 자주 사용하며, 특히 딥러닝 모델에 사용합니다. 파이토치로 구현한 모델에는 Captum 라이브러리에 Integrated Gradients의 기능이 구현되어 있어 인터페이스 등을 사용하기 쉽게 정리되어 있습니다.
XAI 적용 사례
우리 센터에서는 다양한 보안 문제를 해결하기 위해 인공지능 모델을 연구 개발하고 있으며, 이러한 인공지능 모델을 설명하고 신뢰성을 확보하기 위해 다양한 XAI 기법을 적용하고 있습니다.
1. 문서형 악성코드 탐지 시스템 (DocScanner)

센터에서는 PDF, HWP, MS-Office 등 전자 문서 내에 악성코드를 숨기거나 취약점을 이용하여 악성 행위를 하는 문서형 악성코드를 탐지하기 위하여 그림 4와 같은 “DocScanner”를 연구 개발하여 운영하고 있습니다. 이 DocScanner는 정상 문서형 파일과 악성 문서형 파일을 분석하여 특성값을 추출하고, Tabular 형태의 데이터를 기반으로 XGBoost 라이브러리 사용하여 탐지하는 인공지능 모델과 어떻게 탐지를 하는지 설명하는 Shap XAI 기술이 적용되어 있습니다. 그림 5은 PDF 파일 분류에 있어 인공지능 모델의 결과와 XAI 결과입니다. Probability(확률)의 왼쪽 파이 그래프는 정상 확률과 악성 확률을 나타낸 그래프로 해당 입력 파일은 악성 확률이 98.5%임을 알 수 있고, 해당 모델이 악성 문서라 판단하는데 오른쪽의 Shap Value의 그래프로 확인할 수 있는데, 오른쪽 그래프에서 녹색 부분과 붉은 부분으로 나뉘어 있습니다. 이는 인공지능 모델 생성에 사용한 학습 데이터를 활용하여 Shapley Value를 미리 계산한 후 악성으로의 기여도는 붉은 부분으로, 정상으로 판단하는 기여도는 녹색으로 표현했습니다. 그 후 입력 데이터의 Shapley Value를 검정색 선으로 표현하여 어떤 특성이 악성 혹은 정상 파일로의 판단에 기여하는 지를 나타냈습니다. 해당 입력 파일을 분석하면, “/URI” 특성은 기존 학습데이터의 악성 특성과 비슷하게 올라갔으며 그 외 “/Filter”, “ascii”, “xref_size”, “/Annot”, “XObject”등이 악성 문서형 파일로 판단함에 영향을 준 특성임을 알 수 있습니다. 이를 토대로 해당 파일의 사후 분석(Post Analysis)의 방향을 정할 수 있으며 악성 코드의 상세 분류를 가능하게 할 수 있습니다. 인공지능 모델에 사용한 특성은 기본 포스팅 했던 “PDF 악성코드의 효과적 탐지 방법론(ML 기반)[7]”을 참고해 주시기 바랍니다.

2. (IT-OT) 이상 트래픽 탐지 및 XAI 기반 이상징후 간 상관분석
센터에서는 실시간 IT-OT 네트워크에서 발생하는 데이터를 수집하고 이상 탐지를 위한 인공지능 모델을 생성하고, 이상징후 간 상관관계를 XAI를 통해 분석하는 기술을 연구 개발했습니다. 본 연구에서 사용한 특성들로는 온도 센서, RPM 센서, 알림 센서, 가스 인입량 센서 4가지의 시계열 데이터를 활용했습니다. 시계열의 데이터는 그림 6과 같이 시간 축을 기준으로 데이터의 변화량을 보이는 데이터로 이상탐지 분석시에는 정상 데이터를 토대로 이상치를 탐지하는 방식의 Anomaly Detection 방식의 인공지능 모델을 학습합니다.

시계열 이상 탐지 모델로 USAD(UnSupervised Anomaly Detection on Multivariate Time Series)기법을 이용하여 다변수 시계열을 분석했습니다. Unsupervised 방식으로는 AE(Auto Encoding) 방식으로 특정 크기의 윈도우 사이즈를 분석하여 다음 시계열의 값을 예측하는 모델을 토대로, 예측값과 실제 값의 차이를 통해 이상탐지 여부를 계산하는 방식입니다. 해당 인공지능 모델을 해석하기 위하여 Captum 라이브러리의 Integrated Gradient를 활용하여 센서들의 기여도를 계산하고, 센서 사이의 상관분석을 진행하였습니다. 그림 7은 XAI를 활용한 상관관계 분석 결과입니다. 상관관계란 -1~1 사이의 소수값을 가지며, 양의 상관관계와 음의 상관관계 2가지 종류가 있습니다. 양의 상관관계일 경우 하나의 특성값이 상승할 때 다른 특성값도 같이 오르는 경우를 뜻하는 것이고, 음의 상관관계인 경우에는 하나의 특성값이 오를 때 다른 특성값은 내려가는 관계입니다. 온도 센서의 경우 인공지능 모델에 있어 RPM 센서와 상당히 강한 음의 상관관계를 가지는 것을 볼 수 있습니다. 즉 이상탐지에 있어 온도 센서의 확률이 올라가면 RPM 센서의 확률이 낮아진다는 의미입니다. 그럼 강한 양의 상관관계를 파악해 볼까요? 바로 가스 센서와 알림 센서의 관계입니다. 그림 6을 통해 알림 센서는 항상 일정한 값을 가지는데, 만약 가스의 이상치가 발견될 경우 모델에서는 알람 센서에 값도 같이 이상치로 변한다고 분석할 수 있습니다.

3. 유해 사이트 분류
센터에서는 자동화된 유해사이트를 탐지 및 분류하기 위해 인공지능 모델을 사용하였고, 유해사이트를 의미상으로 세분화하여 분류하기 위해 키워드 간 문맥을 이해할 수 있는 BERT(Bidirectional Encoder Representations from Transformers) 모델을 적용하였습니다. BERT 모델은 일반적인 인공지능 모델인 XGBoost의 비해 더 많은 파라미터를 사용하기 때문에 모델을 이해하고 설명하기가 더욱 어렵습니다.

그림 8은 유해사이트의 분류 및 판단을 위한 두 개의 BERT 모델 구조입니다. 사이트의 HTML에서 추출된 유의미한 텍스트 콘텐츠를 입력받아 정상사이트와 유해사이트를 1차 분류하고, 유해사이트를 2차 상세 분류하는 BERT 모델 2가지를 활용했습니다[8]. BERT 모델은 단어의 순서나 특성을 반영해야 하여 시퀀스-투-시퀀스(sequence-to-sequence) 모형인 트랜스포머의 인코더 구조를 기반으로, 미리 학습된 모델에 파인 튜닝을 진행하여 모델을 생성합니다[9]. 따라서 BERT 모델의 XAI를 적용할 경우, 미리 학습된 트랜스포머의 인코더를 활용하여 다시 디코딩하는 과정이 필요합니다. 그림 9는 트랜스포머의 디코딩 과정을 나타내는데, 첫 번째 그림은 정상 사이트로 판단할 경우 모델의 기여도를 측정한 것으로, 입력 텍스트로 “검색”, “로그인”, “계정” 등의 키워드가 있었습니다. 일반적인 사이트들에서 볼 수 있는 키워드임을 알 수 있지만 “로그인”이나 “비밀번호”의 경우 도박이나 성인 사이트에서도 볼 수 있는 키워드기 때문에 정상 판단에 반하는 방향으로 기여한 것을 확인할 수 있습니다. 두 번째 그림은 도박 사이트로 판단한 결과입니다. “슬롯”, “사항”, “이벤트”, “비밀번호” 등에서 높은 기여도를 보이고 있습니다. 도박 사이트에서 자주 사용하는 키워드임과 동시에 “비밀번호”와 같은 일반적인 키워드에 “슬롯”이나 “이벤트” 등이 있을 경우 도박에 기여도가 높아지는 것을 볼 수 있습니다. 세 번째 그림의 경우 웹툰 사이트로 판단한 결과인데 “드라마”, “로맨스”, “판타지” 등 웹툰과 관련된 키워드가 높은 기여도임을 확인 할 수 있었으며, 토렌트 사이트의 경우 “영화”, “드라마”, “방영” 등 영상과 관련된 키워드들이 높은 기여를 한 것을 확인할 수 있습니다. 마지막으로 성인 사이트의 경우 “서양”, “일본”, “야동” 등의 키워드가 높은 기여를 했으며, 단순 “서양”, “일본”이란 키워드보다는 “야동”이나 “성인” 등의 키워드와 함께 나오면 더 높은 확률로 성인 사이트임을 확인할 수 있습니다.

끝맺음
본 포스팅에서는 XGBoost Classifier 모델, 시계열 탐지, BERT 등 다양한 인공지능 모델에 설명 가능한 인공지능 기술인 XAI를 적용하여 탐지 및 분류 모델의 신뢰성을 부여하고, 사후 분석을 보다 용이하도록 하는 연구를 소개하였습니다. 인공지능 모델은 아직도 “블랙박스” 형태이며, 모델의 복잡도는 계속해서 높아지고 있습니다. 이에 XAI 기술을 통하여 인공지능 모델 구조에 대한 완벽한 설명이나, 결과의 완전한 해석은 어렵겠지만, 지속적인 XAI 기술 연구를 통해 인공지능 모델이 점점 더 투명하고 신뢰성을 확보할 수 있으리라 생각됩니다. 추후 포스팅에서 더욱 발전적인 XAI 기법과 인공지능 모델 분석에 관한 연구를 통해 찾아뵙겠습니다.

손진혁 연구원은 컴퓨터공학과를 학부, 석사과정을 졸업했다. 현재 카이스트 사이버보안연구센터 AI기술보안 팀원으로 XAI를 활용한 인공지능의 보안 연구를 진행하고 있다.