[Cyber Crime Tracker (CCT) ①] Rethinking Harmful Websites: The Cybercrime Ecosystem Perspective and the Need for the CCT Framework

Harmful websites rarely operate as isolated, standalone entities. Instead, they are typically run as interconnected networks, where a single operating organization manages multiple types of harmful sites in parallel. To effectively respond to this evolving threat landscape, our research team is developing the Cyber Crime Tracker (CCT) framework, designed to reflect the structural and operational characteristics of harmful website ecosystems. This blog series introduces the overall CCT research approach, focusing on how relationships between harmful sites and their underlying operating organizations can be identified and analyzed. In Part 1, we first provide a brief overview of the key characteristics of harmful websites. We then discuss the necessity of research aimed at technically detecting these ecosystems and analyzing inter-site relationships to uncover shared operational origins.

[CCT (Cyber Crime Tracker) ①] 유해사이트를 다시 보다: 사이버 범죄 생태계 관점과 CCT 프레임워크의 필요성

유해사이트들은 단일 사이트로 존재하기보다 서로 연결된 네트워크 형태로 결합되어 운영되고, 하나의 운영 조직이 여러 유형의 유해사이트를 병렬적으로 관리하는 구조를 보이고 있습니다. 이런 위협에 효과적으로 대응하기 위해 우리 연구팀은 유해사이트의 특징을 반영하여 CCT(Cyber Crime Tracker) 프레임워크를 연구하고 있습니다. 시리즈로 기획된 이번 포스팅에선 동일한 운영 조직과 유해사이트간 연관성을 색출하기 위한 CCT의 전반적인 연구 내용을 시리즈로 정리해 소개합니다. 본 1편에서는 유해사이트의 특징을 간략히 살펴본 뒤, 이러한 생태계를 기술적으로 탐지하고 사이트 간 연관 관계를 분석하기 위한 연구의 필요성에 대해 소개하고자 합니다.

AI 기반 데이터 프라이버시 – 언어모델을 이용한 개체명 인식과 개인정보 가명처리

최근 빅데이터와 AI 기술의 발전으로 다양한 산업에서 텍스트 데이터 활용이 증가하고 있으며, 데이터 속에 있는 개인정보와 민감정보 보호가 중요한 과제로 대두되고 있습니다. 텍스트 데이터는 문맥적 해석을 통해 숨겨진 정보가 유추될 수 있어, 이를 보호하기 위해 자연어 처리 기술이 활용될 수 있으며, 특히 BERT와 같은 언어모델을 활용하면 단순 키워드 매칭을 넘어 문맥을 인식해 민감정보를 효과적으로 식별할 수 있습니다. 본 포스팅에서는 BERT-CRF 기반 개체명 인식 모델을 활용한 개인정보 식별 방안을 소개해드리겠습니다.

대규모 언어 모델을 이용한 유해사이트 분류하기 2부

사람은 특정 키워드를 보면 키워드가 어떤 성격과 의미를 갖고 있는지를 이해할 수 있습니다. 이와 마찬가지로 언어모델은 키워드를 통해 이 키워드가 어떤 특성을 갖고 의미하는지 이해할 수 있습니다. 이를 활용하여 유해사이트에 등장하는 키워드를 사용하여 유해사이트를 분류하는 BERT 모델을 파인튜닝으로 학습하는 방법과 그 과정에 대해 소개해 드리겠습니다. 특히, 키워드를 다양한 콘텐츠에서 수집하는 방법과 모델의 성능에 영향을 주는 데이터의 질을 향상시키기 위한 전처리 방법도 함께 소개해 드리겠습니다.

대규모 언어 모델을 이용한 유해사이트 분류하기 1부

최근 ICT발전으로 인터넷이 보편화 되었지만, 이를 악용한 유해사이트들이 출현하고 사회적 문제로 대두되었습니다. 최근 정부에서 유해사이트 근절을 위한 많은 대처법을 강구하고 있지만, 이를 비웃기나 하는듯 여전히 유해사이트는 기하급수적으로 증가하고 있습니다. 이번 글에서는 유해사이트를 근절하기 위한 기초 단계인 유해사이트를 분류하는 방법에 대해서 논의하고 특히, 대용량 언어모델을 활용하여 어떻게 유해사이트를 분류할 수 있는지에 대하여 살펴보도록 하겠습니다.