AI 기반 데이터 프라이버시 – 언어모델을 이용한 개체명 인식과 개인정보 가명처리

최근 빅데이터와 AI 기술의 발전으로 다양한 산업에서 텍스트 데이터 활용이 증가하고 있으며, 데이터 속에 있는 개인정보와 민감정보 보호가 중요한 과제로 대두되고 있습니다. 텍스트 데이터는 문맥적 해석을 통해 숨겨진 정보가 유추될 수 있어, 이를 보호하기 위해 자연어 처리 기술이 활용될 수 있으며, 특히 BERT와 같은 언어모델을 활용하면 단순 키워드 매칭을 넘어 문맥을 인식해 민감정보를 효과적으로 식별할 수 있습니다. 본 포스팅에서는 BERT-CRF 기반 개체명 인식 모델을 활용한 개인정보 식별 방안을 소개해드리겠습니다.

프라이버시

개인정보의 비식별화와 디퍼렌셜 프라이버시

PC, 스마트폰 등 디지털 기술이 개인의 삶에 미치는 영향이 증가하면서 개인정보에 대한 올바른 보호의 중요성 또한 증대되고 있습니다. 개인정보를 올바르게 보호하기 위해서는 먼저 그 기준이 되는 프라이버시 모델이 필요합니다. 본 글에서는 대표적인 프라이버시 모델인 비식별화 기법(Anonymization)과 디퍼렌셜 프라이버시(Differential Privacy)에 대해 살펴보도록 하겠습니다. 비식별화 기법: k-익명성, l-다양성, t-근접성 비식별화란 민감한 개인정보가 포함된 데이터셋을 공개할 때, 특정

Read More