[의료 · 통신 산업에서의 빅데이터 활용과 사례연구 ]


최근 의료 산업에서 빅데이터의 필요성이 부각되고 있는 이유에 대해 살펴본 후 구체적인 의료 산업에서의  빅데이터 활용 사례에 대해 알아보겠습니다. 그리고 모빌리티의 확산으로 통신 빅데이터의 활용도가  높아짐으로써 통신 업계가 어떻게 빅데이터를 활용하고 있는지 사례를 통해 살펴 보도록 하겠습니다. 



1. 의료 산업에서의 빅데이터 활용과 사례연구


의료 산업이 기존의 치료 중심에서 예방, 건강관리 중심으로 이행됨에 따라 질병발생 가능성 예측과  개인 맞춤형 의료 서비스의 중요성이 점차 증대되고 있습니다.  한편으로는 건강검진 자료, 질병 자료, 기존에 종이 차트에 기록했던 인적사항, 병력, 건강상태, 진찰,  입/퇴원기록 등 환자의 모든 정보를 전산화하여 입력, 관리, 저장하는 형태인 전지의무기록, 유전체 분석  데이터 등의 바이오 센싱, 의료 영상 등을 중심으로 데이터가 급증하고 있는 추세입니다.   높은 잠재력을 지닌 의료 산업의 빅데이터는 다양한 경로로 수집, 저장되고 있습니다. 또한 기본적인 의무  기록 뿐만 아니라 환자들의 병원 서비스 이용 데이터, 유전자 데이터 등과 같은 수많은 데이터가 모두 높은  활용 가치를 지닌 데이터로 볼 수 있습니다. 특히 생체 신호 감지 기술, 웨어러블 컴퓨터 기술의 상용화 등  의료-IT 융합 기술의 발전으로 인해 데이터의 축적 및 서비스 모델 개발이 가속화되고 있는 추세입니다.  특히 의료 산업에서 빅데이터를 활용함으로써 질병예방에 따른 의료비 절감, 의료기관의 운영비용 절감,  오류 및 부정에 따른 손실비용 절감 등의 경제적 효과를 기대할 수 있으며, 이로 인해 의료 산업에서의  빅데이터 활용이 활발히 진행되고 있습니다.




●  의료 산업의 빅데이터에 대한 니즈와 활용 방안


 인구고령화와 만성질환 유병률이 증가함에 따라 의료비 문제와 의료서비스의 접근성 및 질에 관한 문제가  제기되면서 많은 국가에서 IT와 의료기술을 접목한 헬스케어 서비스를 도입하고 있습니다.  이처럼 헬스케어 서비스를 통해 생산되는 건강정보 관련 빅데이터의 관리와 활용에 대한 논의가 활발하게  진행되고 있는 상황에서 일반인, 의료서비스 전문가, 연구자, 기업, 정책전문가의 보건 의료 빅데이터에 대한   니즈와 주요 관심, 관련 데이터, 활용방안은 어떠한지 살펴보겠습니다.





건강한 삶과 최적의 보건의료 서비스에 주된 관심을 갖는 일반인과 관련된 데이터는 건강검진자료와 개인건강기록 등이 있으며, 이러한 데이터는  전염 예방과 관리 및 맞춤형 의료 서비스 제공을 위한 보건 의료 빅데이터 서비스 개발에 활용될 수 있습니다.  의료 서비스의 질적 향상과 의료기관의 생산성 증대 및 비용 절감에 관심을 갖는 의료기관과 관련된 데이터로는  환자 임상 진료자료, 건강검진자료, 기관 의료 데이터 등이 있으며, 이러한 데이터들은 의료기관 간 데이터 및  서비스의 연계와 통합을 위해 활용될 수 있습니다. 질병의 원인 규명과 진단, 그리고 그 치료법의 개발과  맞춤형 의료 연구, 건강 서비스 장비 개발에 관심을 갖는 사업자 및 연구자의 경우 그 관련 데이터들은  환자임상진료데이터나 생체정보측정데이터 등이 되며, 이러한 데이터들은 유전체 데이터를 활용한 질병  예방·진단·처방·관리뿐만 아니라 빅데이터를 활용한 신약 개발을 지원하는데에 활용될 수 있습니다.  마지막으로 보건의료정책전문가의 주된 관심은 예방중심의 의료, 만성질환 관리, 치료 보장성 강화 등이며,  이들과 관련된 데이터는 지역사회 건강조사, 건강보험청구자료, 개인소득자료 등입니다. 이러한 데이터들을  활용하여 질병예방관리 시스템 개발을 지원할 수 있습니다.




의료 산업에서 빅데이터를 어떻게 활용할 수 있는지 좀 더 구체적으로 알아 보겠습니다. 
빅데이터를 통해 의약품의 부작용 및 오남용에 조기 대응 할 수 있습니다.  즉, 빅데이터는 의약폼의 부작용 및 오남용 사례를 수집하고 분석하여, 국민 복지와 건강을 위협하는 의약품  오남용과 부작용을 조기에 발견하고, 또 이에 조기 대응할 수 있도록 정보를 제공해 주고 있습니다.

빅데이터 활용을 통해 성장할 수 있는 의료 분야로 u-Health와 관련된 실시간 모니터링과 진료지원시스템 이  있습니다. 즉, 원격 모니터링을 통해 개별 환자들의 심전도, 혈당, 보호자 피드백을 실시간으로 수집,  전송하고 통합적으로 분석하여 환자들의 입원일수와 응급실 방문 횟수를 감소시킬 수 있습니다.  예를 들어 센서를 통해 지속적으로 환자의 움직임을 관찰하여 혼자 사는 환자들이 평소와 다른 움직임을  보이거나 움직임을 보이지 않을 경우와 같은 응급상황에 대비할 수 있게 됩니다.  현재의 진료지원시스템은 의사들이 처방한 검사와 치료 절차에 대한 분석을 바탕으로 정해진 가이드라인에 따라  의약품의 부작용을 권고하는 수준입니다. 그러나 향후 진료지원시스템에 빅데이터를 좀 더 활발히 활용한다면  의약품을 처방 받은 환자들의 치료 효능이 지속적으로 관찰, 기록, 분석될 수 있습니다.  또한 환자 개개인의 의료기록에 기반을 둔 의학 관련 문헌 검색이 가능하며, 환자 특성에 맞는 치료 옵션이  추천될 수도 있습니다. 뿐만 아니라 의료 이미지들의 픽셀 분석을 통해 육안으로 찾아내기 힘든 정도로  작은 크기의 특이 정보들을 찾아내 제공할 수도 있습니다. 

    

유전자 연구 및 생명공학



유전자 연구와 생명공학은 방대한 데이터 분석이 필요하기 때문에 대표적인 빅데이터 연구 분야로 언급되어 왔습니다.  한 사람의 DNA 염색체 하나를 이미지 파일로 바꾸면 약 750MB[메가바이트]에 이르고 유전자 변이까지 감안하면  약 1GB[기가바이트]가 됩니다. 이를 전세계 68억 인구로 환산하면 6억 8000만PB[페타바이트]에 달하는  분량입니다.  이처럼 방대한 데이터 분석이 필요한 유전자 연구 및 생명공학 분야에 하둡이 표준 도구로 자리매김하였습니다.  하둡을 이용하면 각 데이터를 쪼개서 처리한 뒤 다시 합치는 과정을 거치기 때문에 비용을 낮추면서도  효과적인 연구 수행이 가능합니다. 하둡의 이용으로 정보 수집 속도가 2009년에 비해 10배 이상 빨라졌고,  분석 시간도 수 년에서 수 주 정도로 급속히 단축되었습니다. 이는 분산병렬처리가 가능한 하둡을 분석 과정에  최대 95% 수준까지 적용함으로써 가능해진 것입니다. 



● 활용 사례 :  뇌경색증과 동반되는 질환의 연관성 분석

의료 산업에서 빅데이터를 실제 어떻게 활용하고 있는지 좀 더 구체적인 사례를 통해  알아 보겠습니다. 뇌경색증과 동반되는 질환의 연관성 분석을 위해 2000년에서 2007년 사이에 국내 A의료원에  입원한 환자 중 주진단이 뇌경색증인 만 18세 이상의 2,267명의 환자 진단 데이터를 가지고 데이터 마이닝  분석을 수행한 사례입니다. 이 사례에서는 실증적 임상 자료 분석을 통하여 뇌경색증과 흔히 동반되는 질환을  파악하였고, 연관 규칙 마이닝을 활용하여 셋 이상의 여러 질환들 간의 연관성을 분석하였습니다.  
분석의 목적은 뇌경색증과 함께 다른 질환이 동반된 경우의 대상자에게 적절한 물리치료를 제공하는데 필요한  기초 자료를 제공하는 것이었습니다. 

분석 절차를 좀 더 상세히 설명하자면, 먼저 뇌경색증 환자가 진단받은 동반 질환을 모두 추출한 후,  데이터 정제 과정을 거쳐 연관 규칙 마이닝 기법 중 Apriori 모델링을 적용하여 연관 규칙을 생성하고  그 중에서 의미 있는 규칙을 찾아내는 과정을 거쳤습니다.


Apriori 모델링


Apriori 모델링을 적용한 결과 지지도 10% 이상, 신뢰도 95% 이상인 연관규칙은 총 7가지로 나타났습니다.  그 중에서 지지도가 높은 다섯 가지의 동반 질환에 대해 살펴 보면, 뇌경색증과 함께 본태성 고혈압이 동반되는  경우가 45.9%의 지지도로 모든 규칙 중 가장 높게 나타났습니다. 인슐린-비의존성 당뇨병과 지단백질 대사  장애 및 기타 지혈증이 뇌경색증과 동반된 경우는 지지도가 각각 20% 이상으로 나타났고, 본태성 고혈압과  인슐린-비의존성 당뇨병이 함께 뇌경색증과 동반된 경우는 13,7%, 본태성 고혈압과 지단백질 대사 장애 및  기타 지혈증이 복합적으로 뇌경색증과 동반된 경우는 그 지지도가 13.2%로 나타났습니다.  모든 규칙에서 신뢰도는 99∼100%로 매우 높게 나타났습니다.  뇌경색증과 동반되는 질환 사이의 연관성을 시각화하기 위해 웹노드를 이용하여 그래프를 생성한 결과입니다.




뇌경색증은 본태성 고혈압, 전정기능의 장애, 편마비, 대뇌혈관 질환에서의 뇌혈관 증후군, 지단백질 대사  장애 및 기타 지혈증, 인슐린-비의존 당뇨병, 위염 및 십이지장염, 뇌혈관 질환의 후유증과 연관되는 것으로  나타났으며 그 중에서 본태성 고혈압과 연관성이 가장 높았습니다. 뇌경색증, 인슐린-비의존 당뇨명,  지단백질 대사 장애 및 기타 지혈증, 본태성 고혈압은 서로 연결되어 상호 연관되는 질환인 것으로  나타났습니다.






2. 통신 산업에서의 빅데이터 활용과 사례연구



● 통신산업에서의 빅데이터 활용


모빌리티의 확산

스마트폰을 필두로 한 모빌리티의 확산은 이동 통신 업체들에게 새로운 자산을 제공하고 있습니다.  바로 스마트폰이 쏟아내는 방대한 정보들이 그것입니다. 오늘날 개개인들은 정부, 기업 등이 의도적으로  유도하지 않아도 자발적으로 스마트폰을 소지하고 다니며 위치정보 등 다양한 데이터들을 쏟아내고 있습니다.  이러한 데이터를 분석, 활용하면 개인 및 지자체의 삶과 질을 윤택하게 할 수 있는 서비스들을 개발하거나,  공공기관과 협력하여 빅데이터 프로젝트 수행 시 보다 합리적인 의사 결정을 내릴 수 있습니다. 통신 산업에서의 빅데이터 확산에 스마트폰과 소셜네트워크서비스(SNS)의 활성화가 상당한 기여를 했다고  볼 수 있습니다. 이를 통해 통신 산업의 빅데이터가 급속히 발달하였고 최근에는 관광 산업, 공공부문까지  통신 빅데이터의 활용도가 확장되고 있는 걸로 보아 통신 업계가 향후 빅데이터 시장을 선도할 수 있을지  주목되고 있습니다.




국내 통신 업계의 빅데이터 활용



국내 통신업계의 빅데이터 활용은 우리나라의 3대 이동통신사 SK텔레콤, KT, LG U+가 선두하고 있습니다.  국내 3대 통신사들은 각기 3社 3色을 가지고 차별화를 꾀하며 빅데이터를 다방면으로 활용하고 있습니다.  예를 들면, SK텔레콤은 빅데이터가 주목받기 전부터 빅데이터를 활용했던 빅데이터 활용의 ‘원조'라  할 수 있으며, KT는 공공부문과의 협업을 통해 기업의 문제뿐만 아니라 나아가 사회적 문제까지 해결하고  있고, LG U+는 고객 데이터 분석을 통해 고객이 원하는 편익을 정확하게 제공하는 것을 목표로 하고 있습니다.


● 활용사례 : 국내 이동 통신 업체의 고객분류를 위한 예측

통신 사업에서 실제로 빅데이터를 어떻게 활용하고 있는지를 구체적인 사례를 통해 살펴보겠습니다.  여기서는 사례 연구로 국내 이동 통신 업체의 고객분류를 위한 예측 모델 설계 사례를 소개해 드리겠습니다.  이 사례에서는 국내 이동 통신 업체의 고객 2000명을 우수 고객과 비우수 고객으로 분류하였습니다.  즉 월 150회 이상 통화하는 고객 그룹을 '우수 고객'으로, 월 150회 이하로 통화하는 고객그룹을  '비우수 고객'으로 분류한 것입니다. 그리고 이들 고객의 기본 정보 및 통화 관련 정보 20개를 분석에 변수로  고려하였습니다. 주요 변수로는 성별, 나이, 네트워크 사이즈, 인터넷 서비스 사용호수, M to M 발신호수,  M to L 발신호수, 일반호수, 총기간, 주중총 기간, 주말총 기간, 기본요금, 월 데이터 요금, EZI 호수,  마일리지 등이 있습니다. 

이 연구에서는 고객분류 예측 모형 설계를 위해 인공신경망과 로지스틱 회귀분석 모형을 고려하였고,  전체 고객의 자료를 1000개의 훈련 집합과 1000개의 검증 집합으로 구분하였습니다.  이러한 분석 모형을 적용한 결과, 인공신경망을 이용할 경우 최대 93.1%의 적중률을 보였으며 로지스틱  회귀분석의 경우 최대 88.4%의 적중률을 보였습니다. 이를 통해, 다수의 변수 중에서 고객의 특정 속성을  인공신경망에 적용함으로써 우수, 비우수 고객의 유형을 추출할 수 있었으며, 우수 고객과 비우수 고객을 구 분함으로써 마케팅 표적을 세분화하여 효율적인 마케팅 전략수립이 가능해졌습니다.





[공공부문에서의 빅데이터 활용과 사례연구 ]


1. 공공부문에서의 빅데이터 활용


최근 국가 안전 및 위험관리, 치안, 의료, 교육, 복지, 환경 등 공공부문에서의 빅데이터 분석과 활용에 대한  실제 수요가 크게 증가하고 있습니다.  국내 공공기관의 경우 기상청의 웨비게이션(Weavigation), 서울시의 올빼미버스와 민원 정보 분석 시스템,  한국석유공사의 오피넷 등 여러 공공기관에서 빅데이터를 활용하고 있습니다. 또한, 미국의 Pillbox, FBI의  범인 검거 체계, 탈세 및 사기 범죄 예방 시스템, 샌프란시스코의 범죄 예방 시스템, 밀라노의 지능형 교통  정보 시스템, 싱가포르의 출입국관리소 정보 분석 시스템 등 세계 각국의 공공기관에서도 다양한 방법으로  빅데이터를 활용하고 있습니다. 

빅데이터는 소규모 데이터가 발견하거나 예측하기 힘든 상황을 예측하는데 큰 도움을 줍니다. 예컨대,  공공부문에서 '흔하게 일어나지 않는' 사건이나 상황, 또는 낮은 분포를 갖는 인구집단이 겪게 되는 상황을  예측하는데 도움을 줄 수 있습니다. 뿐만 아니라 공공관리, 정책결정, 정보공개, 부패방지, 범죄예방,  군사 및 안보, 질병관리, 기상예측 등과 같은 다양한 분야에서 기본적인 공적 가치를 증진시키는 데에  기여할 수 있습니다.


향후 공공부문에서 빅데이터 활용 이 어떠한 방향으로 이루어져야 하는지 알아 봅시다. 첫째, 국민 삶의 질  향상을 위해 과거 및 현재의 데이터 분석을 통하여 국가 사회 전 분야의 미래 트렌드를 예상하고 이에 맞는  국가 정책 수립을 지원할 수 있어야 합니다. 또한, 다양한 데이터 분석을 통해 자연재해, 안보, 치안,  의료 산업 등에서 스마트한 대민 서비스 개발이 이루어질 수 있도록 활용되어야 합니다. 예를 들어,  검색 데이터를 통한 구글의 독감 이동 분석, 약 검색 데이터를 통해 질병의 분포 및 증가 현황 등을 분석하는  Pillbox 등은 빅데이터 분석을 통해 생각지 못한 대민 서비스 개발이 가능하다는 것을 보여주고 있습니다. 

즉, 향후 공공부문에서의 빅데이터 활용을 통해 기술 중심의 대민 서비스가 아닌, 데이터를 통한 국민이  중심이 되는 대민 서비스 개발이 가능해야 합니다.  셋째, 데이터에 기반한 과학적인 정책 방향제시를 통해 미래를 대비하는 선제적 국가정책 수립을 지원할 수  있어야 합니다. 마지막으로 국가안전을 위협하는 테러 등과 같은 글로벌 요인뿐만 아니라 전 지구적으로  발생하는 재난 재해 등을 예방할 수 있는 잠재된 정보까지 도출할 수 있어야 합니다. 



공공부문에서의 빅데이터 활용은 공적 가치를 증진시키는 데에 기여할 수 있으며 향후 활발한 역할이  기대되고 있지만 긍정적인 측면만 가지고 있는 것이 아니라 부정적인 측면 도 가지고 있음을 유의해야 합니다.  공공부문에서의 빅데이터 활용 시 가장 큰 문제로 생각되는 것 중 하나는 개인정보의 보호 문제입니다.   빅데이터의 편익이 개인의 특성을 고려하는 맞춤형 서비스의 제공에서 도출되는 만큼 개인에 대한 상세한  정보가 유출될 위험성은 동시에 증대될 수밖에 없습니다. 개인의 사생활 침해 문제에 대한 해결 방안으로는  개인의 사생활을 감시하는 결과를 초래하는 위치정보 등의 목적 외 활용을 엄격히 규제하고, 이미 제공된  정보가 추후에 상업적으로 이용되는 경우 언제든지 파기하도록 할 수 있는 법적 규제가 필요합니다

이 때문에 개인정보를 담고 있는 각종 데이터를 익명화하는 빅데이터 정보보호법 제정이 요구되고 있습니다.  공공부문에서의 빅데이터 활용 시 또 다른 문제는 잘못된 정보가 범람할 수 있다는 점입니다.  빅데이터는 그 자체로서 정확성과 객관성을 보장해 줄 수 없고, 규모가 큰 데이터라고 해서 좋은 데이터가  될 수는 없습니다. 특히 질병과 관련된 많은 정보들은 그 진위나 효과가 가려지지 않는 상황에서 활용되는  경우 큰 위험을 유발할 가능성이 있습니다. 이러한 측면을 예방하기 위해 데이터를 악용하거나 오용하는 것을  감시하고 감독하는 기구나 시스템을 개발하고, 통계분석의 절차와 결과를 공론화하며, 자료의 구조와  분석방법 등의 공개를 의무화하여 신뢰성과 타당성을 제고하고, 데이터 분석가의 분석역량을 강화하는 등의  대책 마련이 필요합니다.



2. 활용사례 :  도로 안전 시설물의 효과 분석


도로 안전 시설물의 효과 분석을 위해,  시설물 설치 전과 설치 후의 1년치 사고 자료를 입수하여 데이터 마이닝 분석을 수행한 사례입니다.  이러한 분석을 하게 된 이유는 도로의 안전성에 대한 관심과 투자가 늘면서 도로안전시설물의 설치가  확대되었고 시설물 설치 타당성에 대한 근거를 마련하기 위한 시설물 설치효과 평가방법의 개발에 대한  필요성이 증가하고 있기 때문이었습니다. 그러나 지금까지의 시설물 설치 효과는 주로 설치 전과 후의  사고건수를 단순히 비교하여 제시되어 왔지만 한계가 있었습니다. 

따라서 개선지점의 교통환경적 특성, 교통안전 개선사업이 실행된 지역적 특성과 설치된 시설물 특성에 따라  사고 감소의 변화를 확인하고자 데이터 마이닝 분석을 수행하였습니다.  또한 1,044개 지점의 시설물 설치 전과 후의 1년 사고 자료를 입수하여, 지역 구분, 도로형태, 신호 유·무,  개선시설, 개선 전후의 사고율 변화 데이터를 산출하여 의사결정나무 분석인 CART 분석을 수행하였습니다.


분석결과, 수도권과 서울시는 안전사업 개선에 의한 효과(사고감소율)가 비슷한 동질성 지역으로 나타났으며,  6대 광역시는 사고감소율이 수도권과 서울시보다 크게 나타난 지역임을 확인하였습니다.  지역 내 도로형태에 따라 사고감소율이 다르게 나타났고 수도권의 경우에는 교차로의 형태에 따라 시설물  개선효과가 다르게 나타났습니다. 그리고 광역시의 경우에는 신호교차로, 비신호교차로에 따라 시설 개선  효과가 다르게 나타난 것을 확인하였습니다. 





●  유사사례 : 심야버스 노선 서울시 '이번엔 택시'


지난 해 빅데이터를 활용해 심야버스 노선 최적화에  성공한 서울시가 이번에는 빅데이터를 활용해 택시와 승객을 연결하는 시스템을 개발하고 있는 것으로  알려졌습니다. 택시 서비스의 낮은 품질은 서울시민의 가장 큰 불만 중 하나라는 판단 때문입니다.  서울시는 이 문제를 해결하기 위해 빅데이터를 활용하기로 했습니다. 택시에 승객이 많이 있는 위치를  안내해 공차율을 줄이고, 승차거부 등의 문제를 해결하겠다는 의지입니다. 승객에게는 택시가 많이 있는  위치를 안내해줍니다.  이를 위해 서울시는 모든 택시에 탑재돼 있는 운행기록계(Digital Telegragh, DTG) 데이터 분석을  시도했습니다. 연간 1300억건에 달하는 방대한 데이터다. 이를 날씨, 지역, 시간 등의 각종 변수와  종합 분석해 패턴을 찾아내는 목이 목표입니다. 분석이 성공하면 승객들은 조금 더 쉽게 택시를 타고, 택시기사는 공차율을 줄일 수 있을 것으로 서울시는 전망하고 있습니다.