최근 빅데이터와 AI 기술의 발전으로 다양한 산업에서 텍스트 데이터 활용이 증가하고 있으며, 데이터 속에 있는 개인정보와 민감정보 보호가 중요한 과제로 대두되고 있습니다. 텍스트 데이터는 문맥적 해석을 통해 숨겨진 정보가 유추될 수 있어, 이를 보호하기 위해 자연어 처리 기술이 활용될 수 있으며, 특히 BERT와 같은 언어모델을 활용하면 단순 키워드 매칭을 넘어 문맥을 인식해 민감정보를 효과적으로 식별할 수 있습니다. 본 포스팅에서는 BERT-CRF 기반 개체명 인식 모델을 활용한 개인정보 식별 방안을 소개해드리겠습니다.
[태그:] 분류모델
사람은 특정 키워드를 보면 키워드가 어떤 성격과 의미를 갖고 있는지를 이해할 수 있습니다. 이와 마찬가지로 언어모델은 키워드를 통해 이 키워드가 어떤 특성을 갖고 의미하는지 이해할 수 있습니다. 이를 활용하여 유해사이트에 등장하는 키워드를 사용하여 유해사이트를 분류하는 BERT 모델을 파인튜닝으로 학습하는 방법과 그 과정에 대해 소개해 드리겠습니다. 특히, 키워드를 다양한 콘텐츠에서 수집하는 방법과 모델의 성능에 영향을 주는 데이터의 질을 향상시키기 위한 전처리 방법도 함께 소개해 드리겠습니다.

