개인정보의 비식별화와 디퍼렌셜 프라이버시

PC, 스마트폰 등 디지털 기술이 개인의 삶에 미치는 영향이 증가하면서 개인정보에 대한 올바른 보호의 중요성 또한 증대되고 있습니다. 개인정보를 올바르게 보호하기 위해서는 먼저 그 기준이 되는 프라이버시 모델이 필요합니다. 본 글에서는 대표적인 프라이버시 모델인 비식별화 기법(Anonymization)과 디퍼렌셜 프라이버시(Differential Privacy)에 대해 살펴보도록 하겠습니다.

비식별화 기법: k-익명성, l-다양성, t-근접성

비식별화란 민감한 개인정보가 포함된 데이터셋을 공개할 때, 특정 개인의 정보를 식별할 수 없게 하는 일종의 ‘데이터 공개 메커니즘’입니다. 예를 들어 어떤 병원에서 통계적인 목적으로 환자의 진료기록을 공개한다고 했을 때, 환자의 [이름], [주민등록번호] 혹은 [주소] 등 개인을 특정할 수 있는 식별정보를 [병명] 등의 민감한 정보와 같이 공개한다면 개인의 정보를 쉽게 식별할 수 있게 됩니다. 따라서 비식별화 메커니즘의 하나로서 개인을 특정할 수 있는 식별정보를 제외하고 공개할 수 있습니다.

하지만 이처럼 식별자만을 제외하여 공개하는 것만으로는 충분한 비식별화가 이루어지지 않습니다. 특정 인물에 대해 배경지식(auxiliary information)이 알려져 있을 수 있기 때문입니다. 예의 병원에서 <표 1>과 같이 [나이], [성별], [병명]만 공개한다고 가정해 봅시다. 만약 해당 병원을 이용한 사람 중 30세인 사람이 단 한 명뿐이고, 그 사람이 A라고 알려져 있다면, 우리는 공개된 데이터셋과 배경지식을 통해 충분히 A가 어떤 병(<표 1>에 따르면, 심장질환)에 걸렸는지를 파악할 수 있습니다. 이와 같이 특정 배경지식과 공개된 데이터를 연결하여 특정 인물의 정보를 식별하고자 하는 공격을 연결 공격(linkage attack) 이라고 합니다.

나이성별병명
25여자고혈압
30여자심장질환
38남자독감
34남자기관지염
44여자폐렴
47여자폐렴
<표 1> 식별정보를 제외한 공개데이터셋의 예시. 특정 배경지식과의 연결 공격에 취약하다.

이러한 연결공격을 방지하기 위하여 제안된 k-익명성(k-anonymity) [1] 은, 전체 데이터셋에 동일 값의 레코드가 k개 이상 존재하도록 함으로써 개인정보가 노출될 수 없도록 합니다. 다시 <표 1> 진료 데이터의 [나이]를 [21-30], [31-40], [41-50] 등으로 10년씩 묶은 <표 2>를 살펴봅시다. 이 데이터에서는 같은 배경지식을 가지고도 A의 병명을 알 수 없는데, A와 같은 성별과 나이대이면서, 다른 병을 가지고 있는 인물이 존재하기 때문입니다. 이처럼 <표 2>의 데이터에서는 어떠한 성별, 나이대에 대해서도 같은 값을 가지는 환자가 2명 이상 존재하여, 2-익명성을 만족한다고 할 수 있습니다.

나이대성별병명
[21-30]여자고혈압
[21-30]여자심장질환
[31-40]남자독감
[31-40]남자기관지염
[41-50]여자폐렴
[41-50]여자폐렴
<표 2> 2-익명성을 만족하는 공개 데이터. 여전히 연결 공격에 취약하다.

하지만 <표 2>를 자세히 살펴보면 특정 인물들은 여전히 연결 공격에 대해 취약하다는 것을 알 수 있습니다. 해당 병원의 환자 중 ’41-50세의 여성’ 두 명이 동일한 병환(폐렴)을 앓고 있기 때문입니다. 만약 이 중 한명이 B라고 알려져 있다면, 우리는 어렵지 않게 B가 폐렴을 앓고 있다는 사실을 파악할 수 있습니다. 이와 같은 공격을 막기 위해 제안된 것이 l-다양성(l-diversity) [2] 으로서, ‘동일 레코드 값을 가지는 블럭에 l개 이상의 다양한 민감정보가 존재해야 한다’고 규정하고 있습니다.

이처럼 비식별화 모델은 공격자가 배경지식과 공개 데이터를 연결하여 특정 인물의 식별화를 막고자 제안된 프라이버시 모델입니다. k-익명성, l-다양성 이외에도 t-근접성(t-closeness) [3] 등의 비식별화 모델이 존재하며, 이는 ‘개인정보 비식별 조치 가이드라인’에서도 권고되고 있습니다.

비식별화의 한계점과 디퍼렌셜 프라이버시

비식별화 모델은 비교적 쉽게 적용할 수 있고 검증이 쉽다는 장점이 있지만, 보편적인 프라이버시 모델로서 사용하기에는 한 가지 문제가 있습니다. 바로 공격자가 가지고 있는 배경지식의 종류나 형태에 따라 그 위험도가 달라진다는 것입니다. Cynthia Dwork은 이러한 문제를 지적하면서, ‘어떠한 형태의 비식별화 기법을 사용한다고 해도 특정 개인의 민감정보를 추출할 수 있는 배경지식이 항상 존재한다’ [4] 는 것을 이론적으로 증명하였습니다. 아무리 견고한 비식별화 알고리즘을 적용해도 최악의 경우에 공격자는 항상 민감정보를 알 수 있는 것입니다. 이처럼 비식별화 모델은 개인정보 보호의 보편적인 기준이 되기에는 충분하지 않습니다.

이러한 비식별화 기법들의 한계점을 극복하는 프라이버시 모델로서 제안된 것이 디퍼렌셜 프라이버시(Differential Privacy, 차분 프라이버시) [4] 입니다. 디퍼렌셜 프라이버시는 ‘데이터 공개 메커니즘만으로는 임의의 레코드가 포함된 데이터셋과 포함되지 않은 데이터셋을 구별(differentiate) 하기 어려워야 한다’는 조건을 명시하고 있습니다. 임의의 데이터가 해당 데이터셋 내에 존재하는지 여부를 알수 없다고 한다면, 최악의 경우에도 공격자는 민감정보는 물론이고 어떠한 데이터에 대해서도 유의미한 정보를 습득하기 어려워집니다. 디퍼렌셜 프라이버시는 보편적인 프라이버시 기준으로서 적용하기에 적합하다고 평가되는데, 실제로 Apple은 2016년 디퍼렌셜 프라이버시 모델을 적용, 고객의 데이터를 안전하게 관리하겠다고 공표 [5] 하여 세간의 주목을 받은 바 있습니다.

개인정보 유출 방지의 프라이버시와 인공지능 시대의 도래

비식별화와 디퍼렌셜 프라이버시는 정보유출 방지 차원에서의 프라이버시를 논하고 있습니다. 즉, ‘공격자 혹은 제3자가 개인의 민감정보를 (얼마나) 알아낼 수 있는가’라는 질문을 중심으로 제안된 모델입니다. 공격자 혹은 제3자의 민감정보에 대한 지식을 기반으로 한 이와 같은 모델은 인식론적(epistemic) 정의의 프라이버시라고도 할 수 있습니다.

다음 글에서는 인공지능 및 기계학습 기술의 폭발적인 활용이 기존의 개인정보 유출 방지를 목적으로 한 인식론적 프라이버시 모델에 준 영향을 살펴보고, 인공지능 시대에 개인정보를 올바르게 보호하기 위하여 이루어지고 있는 노력들에 대해 살펴보도록 하겠습니다.

* 본 글은 동 저자가 보안뉴스에 기고한 칼럼 <인공지능 시대의 개인정보와 프라이버시> [6]의 확장된 버전입니다.

[1-3] k-익명성 / l-다양성 / t-근접성, IT위키
[4] Cynthia Dwork, Differential Privacy, ICALP 2006
[5] Apple’s ‘Differential Privacy’ Is About Collecting Your Data—But Not ​Your Data, Wired.com
[6] 인공지능 시대의 개인정보와 프라이버시, 보안뉴스

14 명이 이 글에 공감합니다.