[빅데이터 환경에서의 개인정보보호 ]


1. 개인정보보호 이슈


빅데이터 환경에서는 다양한 경로를 통해 개인의 취미나 기호, 건강상태 혹은 구매이력 등 개인의 민감한 정보들이  취합되고 있어 개인정보가 이용자 동의 없이 수집되거나, 보유업체에 의해 남용되는 사례를 막아야 할 필요성이  증가하고 있습니다.  특히, 기업의 경우에는 고객에게 서비스 고도화 및 맞춤형서비스를 제공하기 위해 정밀한 고객정보가 필요하나  이는 자칫 개인정보 유출사고와 같은 문제가 발생할 수 있습니다.


빅데이터의 프라이버시 침해 문제가 발생하고 있는데 실제로 빅데이터의 이용 및 활용에 있어서 프라이버시를  침해하여 문제화된 사례가 발생하고 있습니다. 종래는 개인정보보호법에 의해 개인정보를 보호하면 프라이버시의  문제는 그다지 사회적으로 크게 발생하지 않았는지도 모르지만, 새로운 패러다임으로서 빅데이터의 비즈니스가  활발하게 전개됨으로써, 반드시 개인정보가 아니라고 생각되는 정보로부터 프라이버시의 침해가 발생하는 사태가  발생하고 있습니다.


빅데이터 환경에서의 프라이버시가 쟁점이 되는 사례 를 살펴보면, 쿠키정보를 활용한 온라인 맞춤광고 사례,  구매정보를 활용한 고객 신분, 성향 분석 사례, SNS 및 위치정보를 활용한 맞춤형 광고 사례, 검색정보를 활용한  독감 트랜드 서비스 사례, 모바일 이용자 정보를 활용한 광고플랫폼 등의 사례가 있습니다.  그리고 빅데이터를 이용한 비즈니스 운영시스템 개선 사례, 의료 데이터를 활용한 질병 예측 사례,  범죄 데이터베이스를 이용한 범죄감시시스템 구축 사례, 제3자 쿠키차단 기능 무력화 논쟁 소위 쿠키 게이트 사례  등이 있습니다.


SNS 및 위치정보를 활용한 맞춤형 광고 사례와 범죄 데이터베이스를 이용한 범죄감시시스템 구축 사례와 관련하여,  개인의 위치정보와 프라이버시의 보호관계를 살펴보면, 개인의 위치정보는 개인이 존재하는 공간에 대한 정보로  이를 종합적으로 분석하면 어떤 특정인에 대한 일거수일투족을 파악할 수 있는 주요한 사적 영역의 개인정보에  해당합니다. 특히 핸드폰, 스마트폰 등 휴대용 통신장비가 보편화되어 있는 현대사회에서 개인의 위치정보의  노출 가능성은 그 어느 때보다 높지만 이것을 기존의 프라이버시보호의 법리를 적용하여 보호하는 것에  여러 가지 한계가 있습니다.  빅데이터의 비즈니스화에 따른 프라이버시 침해 사례를 유형화 하면, 개인정보가 악용된 사례, 제3의 사업자에게  노출된 사례, 불특정다수의 일반인에게 노출된 사례, 특정의 일반인에게 노출된 사례 등으로 나눌 수 있습니다.




빅데이터 환경 내 발생 가능한 개인정보 침해위협을 개인정보 생명주기에 따라 분류 해보겠습니다. 




먼저 수집단계의 침해유형에는 사용자가 인지하지 못하는 소프트웨어 등을 이용하여 개인정보를 수집하거나  개인정보가 포함된 콘텐츠를 크롤링하여 개인정보 수집하는 부적절한 개인 정보를 수집하는 유형,  개인정보 소유자의 접속정보를 지속적으로 수집 및 분석하거나 허가 없이 개인 위치 정보 수집하는 동의 없는  사생활 모니터링 유형, 상업적 목적 혹은 관리 편의성을 이유로 불필요한 개인정보 수집, 정당한 목적 없이  민감정보를 수집하는 불필요한 개인정보 수집과 같은 유형이 있습니다. 저장 및 관리 단계의 침해유형에는  개인정보가 저장된 데이터베이스/시스템의 관리 소홀로 인한 데이터베이스/시스템 미보호 유형, 시스템 불법침입  및 실수로 개인 정보 유출이나, 권한 오류로 개인정보 유출 및 노출하는 부주의로 인한 개인정보 노출과 같은  유형이 있습니다.

           

이용 및 제공 단계의 침해유형에는 사용자 동의 없이 구매내역 들을 분석하여 맞춤형 서비스에 이용하거나  사용자 이동경로를 분석하여 악의적 목적에 사용하는 부적절한 분석 유형, 사전동의를 거치지 않고  상품 광고나 광고성 정보를 제공하거나 사용자 동의 없는 개인정보 제3자 제공으로 광고성 스팸메일, SMS문자,  전화를 발송하는 동의 없는 광고성 정보 제공 유형이 있습니다.  그리고 마지막으로 파기 단계의 침해유형에는 보유기간 경과 후에도 개인정보 및 위치정보 파기 하지 않거나  개인정보가 저장된 하드디스크의 저장 정보를 삭제하지 않고 방치하는 보유기간 이후에도 미파기 유형,  파기 권한을 가지지 않은 자가 개인정보를 임의로 파기하거나 관리자의 실수로 개인정보를 파기하는  불법적 개인정보 파기 유형이 있습니다.






2. 개인정보보호 방법


프라이버시보호 를 위해 어떻게 해야 하는지 알아볼까요? 개인데이터의 안전하고 안심한 활용을 도모하기 위해서는  종래의 개인정보보호의 대책에 더하여 프라이버시보호를 위한 대책이 필요합니다. 개인정보를 포함한 데이터를  취급하는 경우, 우선 개인정보보호법을 준수하는 것이 필수적이며 기업 내에 구축한 개인정보보호 매니지먼트  시스템에 따라서 데이터를 취급해야 합니다. 또 이들 개인정보보호대책에 더하여 빅데이터 비즈니스에 있어서  프라이버시 보호를 견고한 것으로 하기 위하여 프라이버시 바이 디자인의 사고방식과 그것에 기초한 프라이버시  보호를 위한 대책을 철저히 하고, 데이터의 안전하고 안심한 활용을 위하여 노력을 기울여야 할 것입니다.

‘프라이버시 바이 디자인’이란 앤 카부키안에 의하여 주장된 개념으로서, 프라이버시 정보를 취급하는 모든  측면에 있어 프라이버시 정보가 적절하게 취급되는 환경을 ‘사전적(事前的)’으로 만드는 것을 의미합니다.   이 ‘프라이버시 바이 디자인’이란 개념은 정부나 기업은 설계 단계에서부터 기술적으로 프라이버시를 보호하는  구조의 구축을 추진해 가는 것이 필요하며 최초 단계에서부터 확실히 프라이버시를 보호하는 것이 요구됩니다.


프라이버시보호를 위한 조직과 체제를 구축할 필요가 있습니다. 이와 동시에 빅데이터 비즈니스에 있어서  프라이버시보호방침을 정하고 사원이 준수할 수 있도록 해야 합니다. 또한 프라이버시 보호방안에 관하여 기업의  고객에게 정보를 공개함과 동시에 계속적인 개선노력을 해야 합니다.  프라이버시보호를 위해 기업은 정보통신 시스템 및 스마트정보시스템 총괄본부 등과 같은 부서에서 프라이버시  보호책임자를 선임해야 하고 프라이버시 보호책임자의 감독아래 빅데이터 비즈니스에서 프라이버시 보호방침 즉  가이드라인을 설정해야 합니다. 그리고 프라이버시 보호방침을 시작으로 하는 프라이버시 보호에 관한  각종 시책, 각종결정은 프라이버시 보호책임자의 책임아래 빅데이터 비즈니스에 연계된 사원에게 철저하게  주지시키며 프라이버시 보호책임자는 적절하게 프라이버시 보호에 각종 시책이 실시되는 여부를 정기적으로  점검하고 또 운영의 개선책을 마련하기 위하여 노력해야 합니다. 사원은 각 개인이 프라이버시 보호방침을  준수해야 합니다.



빅데이터 이용 및 활용하는 각각의 프로세스 에서 프라이버시 보호방침 즉, 가이드라인을 상세히 하고  각 프로세스에서 구체적인 프라이버시 보호대책을 정하며, 그러한 대책이 적절하게 실시되도록 노력해야 합니다.  빅데이터 이용 및 활용 프로세스는 먼저 빅데이터 취득, 변환, 축적, 분석 및 활용, 폐기 및 반환과정으로  진행됩니다. 먼저 취득, 변환 단계에서는 고객의 데이터를 취득하는 경우 고객이 언제, 어디서, 어떻게 수집한  데이터인가를 확인하고, 데이터의 취득이 적절한가 여부를 확인해야 합니다. 또한 고객으로부터 데이터를  취득함에 있어서 취득일, 취득방법 등을 기록하고, 사전에 데이터의 이용목적을 특정하여 고객과 합의하고,  이용목적의 달성에 필요이상의 데이터를 취득하지 않으며, 개인정보나 프라이버시에 관한 정보가 반드시  이용목적의 달성에 필요하지 않는 경우 익명화나 가명화 하는 등의 가공처리를 통해 데이터를 보관할 것 등을  고려해야 합니다.

빅데이 터의 축적 단계에서는 데이터를 보관함에 있어서 취급자를 한정하고, 시스템으로 액세스제어를 부가해야  합니다. 그리고 데이터에 대한 처리 즉 갱신, 삭제, 복제 등을 하거나, 기록을 남길 것 등을 고려해야 합니다.  분석 및 활용 단계에는 분석을 하는 경우에 분석담당자를 한정해야 하며, 분석을 하는 경우에 사전에 특정한  이용목적의 범위를 초과하지 않아야 합니다. 그리고 개인을 특정하는 목적으로 분석 하지 않도록 주의해야  합니다.  폐기 및 반환 단계에서는 데이터의 취득 시 데이터 제공자와 데이터의 보관기간, 폐기방법에 관해서 합의하고  그것을 준수해야 합니다.

사원에 대한 프라이버시 보호교육을 지속적이고 계속적으로 하고, 의식의 보급계발에 힘써야 합니다. 먼저 기업에서는 개인정보보호의 매니지먼트를 구축하고, 개인정보보호에 관한 사내교육이 의무화되며,  사원 전원이 개인정보보호에 관하여 학습하고 이해를 충분히 할 수 있도록 합니다. 사원을 위해서는 사원이  빅데이터 비즈니스에 연계된 때에 프라이버시의 관점에서 배려해야 할 내용을 정리하고 종합한 텍스트나 매뉴얼을  작성하고, 빅데이터 비즈니스에 연계된 사원은 프라이버시 보호에 관하여 학습하고 충분히 이해할 수 있도록  합니다.  프라이버시 보호 강화 모임을 정례적이고 장기적으로 개최함이 바람직합니다. 모임에는 빅데이터를 취급하는  다른 부서나 그룹회사를 포함하여 프라이버시에 관한 정례적인 연구회, 검토모임, 워킹그룹 등이 있고  프라이버시에 관한 비즈니스 동향, 제도동향 등에 관해서 정보공유를 하고, 프라이버시를 보호하기 위한 대책  등에 관하여 검토합니다.



[빅데이터 환경에서의 보안 ]


1. 빅데이터 보안 이슈


빅데이터 서비스는 대규모 데이터를 안정적으로 수집, 저장, 처리하기 위해 대부분은 분산처리 및 병렬처리  방식을 취하고 있습니다.  빅데이터의 생성에서부터 서비스에 이르기까지 세 단계로 나누어 보안이슈와 대책이 필요합니다. 즉, 빅데이터  소스를 통해 생산되는 데이터를 수집하는 과정, 분산처리 및 병렬처리를 위해 데이터의 분산 저장 및 운영하는  과정, 데이터 분석 및 2차 데이터 생성을 통해 서비스로 재사용되는 과정에서 보안이슈와 대책이 필요합니다.

다양한 경로를 통해 생성, 수집되는 빅데이터들은 곧 다양한 경로의 보안위협을 의미합니다. 최근 장시간에 걸쳐  목적을 가지고 공격하는 지능형 지속 위협(APT, Advanced Persistent Threat) 등이 발생하면서 빅데이터 생성 및  수집 과정에서 데이터 신뢰성 및 무결성에 대한 우려가 높아지고 있습니다. 따라서 이를 해결하기 위해 다양한  연구가 진행되고 있으며, 전자서명, 다양한 필터링 기법, 스팸메일방지, 피싱방지 등의 기술들이 적용되고  있습니다.

빅데이터가 생성되어 저장, 분석되어 서비스로 제공되기까지의 일련의 과정 중 가장 보안에 주의해야 하는  구간이 바로 빅데이터의 저장 및 운영 구간입니다. 다양한 경로를 통해 생성, 수집된 데이터를 처리, 저장,  운영하는 구간은 외부로부터의 공격뿐 아니라 내부로부터의 위협에도 노출될 수 있기 때문입니다.



2. 보안 방법


다양한 사용자를 수용하는 클라우드 컴퓨팅을 활용하는 빅데이터는 다양한 공격자에게 노출될 수 있습니다.  따라서 인가된 사용자를 식별하기 위한 사용자 인증은 필수 보안 요소입니다. 그리고 최근에는 사용자 중심의  인증방식이 사용되고 있는데 이는 최근 클라우드 컴퓨팅 환경에서 각 시스템마다 반복적으로 인증을 실시하거나  인증을 위함입니다. SSO(Single Sign-On), SAML(Security Assertion Markup Languege) 등의 인증방식이 있습니다.

 

데이터 운영의 안정성을 보장하기 위해, 접근제어(AC) 및 침입차단시스템(IDS), 침임탐지시스템(IPS)  방화벽 등 네트워크 보안 및 웹 보안을 구축해야 합니다. 분산, 병렬 처리되는 클라우드 컴퓨팅의 특성상 주로  웹 기반 인터페이스를 통해 데이터가 전송되므로 SSL/TLS 기반의 https 등의 활용과 알려진 공격 이외의  공격까지 탐지하기 위해 애플리케이션 단위의 트래픽 탐지가 가능한 침입차단 시스템 또는 침입탐지시스템을  도입할 필요가 있습니다.

데이터의 기밀성을 확보하기 위해 데이터는 반드시 암호화해야 합니다. 고의적인 내부 공격이나 외부공격을 통해  데이터가 노출되더라도 암호를 해독하지 않는 이상 원본데이터를 얻을 수 없도록 하여 노출에 대한 위험을  낮출 수 있습니다. 하지만 모든 데이터의 암호화는 많은 시간과 자원을 요구하므로 기업에서 비효율적인 면이  없지 않습니다. 따라서 기업 내부의 보안 정책 및 데이터의 중요도에 따라 차별을 두어 적용하는 것이 좋습니다.   분산된 데이터의 무결성을 보장해야 합니다. 이는 빅데이터는 하둡과 같은 맵 리듀스분산처리 프레임워크를 통해  여러 개의 데이터로 분산처리되고 연산 효율을 위해 병렬 저장되며 이후 분산 저장된 데이터를 분석하여  2차 데이터를 생성할 때, 빅데이터로부터 생성된 2차 데이터에 대해 신뢰성을 제공하기 때문입니다.


데이터의 가용성 및 복구에 대한 대책이 있어야 합니다. 인가된 사용자는 언제든지 원하는 데이터에 접근할 수  있어야 하는데 이는 실시간으로 대량 생산되는 데이터를 처리하기 위해 분산된 시스템을 이용하는 빅데이터의   저장과 운영 때문입니다. 그리고 재해나 물리적 침입으로부터 안전하고 서비스가 지속될 수 있도록 백업 및  복구에 대한 물리적 보안도 제공되어야 합니다.  빅데이터 분석 과정은 중요한데 빅데이터를 산업별, 부서별 각 필요와 요구에 따라 분석하는 과정은 빅데이터  서비스를 위해 반드시 거쳐야 하는 절차입니다. 이 과정에서 이전의 암호화 등을 통해 데이터의 기밀성과  익명화 과정을 거쳤다고 해도 사용자가 원하는 데이터를 추출하기 위해 데이터의 복호화 등 데이터 복구 과정을  수행하여야 합니다. 

따라서 분석 및 2차 데이터에서도 프라이버시 침해 및 데이터의 기밀성이 노출될 위험이  있습니다. 즉, 2차 데이터 생성시 반드시 프라이버시 보호를 위해 익명화 및 암호화기법 등이 도입되어야 합니다.  기업의 입장에서 많은 데이터 분석을 위해 암호화 및 복호화 작업을 거치는 것은 비능률적이므로 이를 보다  효율적으로 처리하기 위해 최근 암호화된 상태에서 키워드를 통한 검색을 할 수 있는 키워드기반 검색기법  (Keyword Search), 프라이버시를 보호하면서 데이터를 분석하는 PPDM(Privacy Preserving Data Mining)기법 등이   연구되고 있습니다.

클라우드 형태로 분산, 병렬 운영되는 데이터 웨어하우스로부터 정책을 결정하거나 분석결과를 통해 서비스를  제공받는 사용자의 입장에서 데이터의 무결성 및 가용성은 반드시 고려되어야 하는 중요한 요소입니다.  따라서 빅데이터 자체에 대한 신뢰성 및 가용성 확보를 위해 산업별, 기업별 주요 데이터에 대한 별도의  보안기법 적용 및 위험관리가 필요합니다. 이 밖에도 분석 및 처리 과정을 통해 얻어진 2차 생성 데이터의  소유에 관한 이슈가 있습니다.