[전략적 기업경영을 위한 빅데이터 분석 활용사례 ]


1. 빅데이터 분석 사례


전략적 기업경영을 위해  다양한 기업들이 빅데이터를 어떻게 분석, 활용하고 있는지를 살펴본 후, 좀 더 구체적인 사례를 통해 빅데이터  분석이 전략적 기업경영을 위해 어떻게 활용될 수 있는지를 알아보도록 하겠습니다. 지금부터 실제 기업이  빅데이터를 분석한 몇 가지 사례에 대해 살펴보도록 하겠습니다. 먼저 미국의 물류업체 UPS가 있습니다. 미국의  물류업체인 UPS는 빅데이터 분석을 통해 차량 및 물품 위치에 기반한 배송 경로 및 시간을 관리하였습니다. 이를  통해 최단 거리, 최소 시간 운행 경로 관리를 할 수 있었으며, 5년간 트럭배송 경로를 1억 6천만 km감소할 수  있었습니다. 다음은 독일의 IT 기업 T Mobile의 빅데이터 분석 활용 사례입니다. T Mobile은 미국 내 가입자   3천만 명의 일일 통화 및 송수신 데이터 170억 건을 빅데이터 분석 모델인 Tribe Calling Circle Model로  분석하였습니다. 이러한 분석을 바탕으로 이탈 징후를 보이는 영향력이 큰 고객에 맞춤형의 추가 혜택을 제공하여  이탈 방지의 선제적 활동을 수행하였습니다. 그 결과로, 2011년 2사분기에는 1사분기 대비 고객이 50%만 이탈하는  결과가 발생하였습니다. 다음은 미국의 소비재 유통기업인 P&G의 빅데이터 분석 활용 사례입니다. P&G는 실시간  제품 판매 데이터 및 공급망 재고 수준, 광고 지출 정보 등의 데이터를 제공하는 Business Sphere 시스템을  개발하였습니다. 이러한 시스템 개발을 통해 매주 월요일에 CEO 및 글로벌 리더들이 모여 실시간 글로벌 데이터에  기반하여 경영활동을 평가하고 비즈니스 관련 의사결정을 신속하게 수행하고 있습니다. 


스웨덴의 자동차 제조회사인 볼보 역시 빅데이터를 분석하고 활용하고 있습니다. 볼보는 새로 출시된 자동차의  결함 여부를 차량에 부착된 센서 데이터를 분석하여 조기 감지하였습니다. 그래서 기존의 50만대 판매 시점에  발견할 수 있었던 결함을 1천대 판매 시점에 조기에 발견하여 불량발생을 사전에 예방할 수 있었습니다.  마지막으로 살펴볼 사례는 스페인의 패션 의류 유통업체인 ZARA입니다. ZARA는 수요와 관련한 빅데이터 기반의 재고  및 생산의 최적화를 달성하고 있습니다. 과잉생산 및 할인을 지양하고 분석적으로 재고를 관리하는 무재고 운영  정책을 원칙으로 하여 전 세계 매장의 판매 및 재고 데이터를 분석하여 최대 매출을 창출할 수 있는 재고 최적 분배  시스템을 개발했습니다. 최적의 분배시스템을 이용하여 제품별 수요예측, 매장별 판매추이분석, 진열된 상품수가  판매량에 미치는 영향을 분석하여 데이터 기반으로 의사결정을 내리며 82개국 5,572개 이상의 매장을 보유하고  일주일에 2번씩 연간 1만 5천 개 신상품을 출시하는 무재고 운영정책이 시스템의 사용을 통해 가능해졌습니다.





2. 사례 연구


전략적 기업경영을 위한 빅데이터 사례연구를 해보도록 합시다. 함께 살펴볼 내용은 기술의 융복합에  대한 체계적인 이해와 발생 가능한 패턴을 예측하기 위해, 대용량의 특허 데이터에 대한 빅데이터 분석을 수행한  활용 사례입니다. 기술융복합은 최근 많은 산업 분야에서 경쟁이 심화되고 시장이 포화되면서 지속적인 성장을 위해  혁신적인 기술이 필요해짐에 따라 날로 그 중요해지고 있습니다.  따라서 기술융복합은 기술혁신과 경제성장에  중요하게 인식되고 있으며, 기술융복합을 체계적으로 이해하고 앞으로 발생 가능한 패턴을 예측하는 것이  중요합니다. 삼극특허는 기술융복합의 이해와 예측을 위해서 유럽특허청(European Patent Office, EPO), 일본특허청 (Japan Patent Office, JPO), 미국특허청(United States Patent and Trademark Office,USPTO)에 동시에 출원된  특허로 이를 분석하였습니다. 그리고 삼극 특허는 다른 특허보다 가치가 높은 것으로 알려져 있습니다. 삼극특허는  특허와 인용, IPC, 청구항, 그리고 출원인 정보 등 다양한 정보가 제공되고 이들 정보가 연결되어 처리될 경우에는  그 양이 급속히 증가할 수 있기 때문에 여전히 일반적인 환경에서는 쉽게 분석하기 어려운 대용량 데이터로 고려될  수 있습니다. 분석에 이용된 삼극특허는 OECD에서 제공하는 2013년 1월 기준의 데이터로 889,709건이며, 각 특허는  다수의 IPC 즉, 국제특허분류를 가질 수 있어서 삼극특허가 갖는 전체 IPC는 18,902,800건에 달합니다. 이러한  IPC 데이터에는 유럽특허청, 일본특허청, 미국특허청 등의 데이터가 혼재되어 있지만 전체 특허 및 전 영역의 기술간  융복합 패턴을 보고자 했기 때문에 별도의 구분 없이 분석을 진행했습니다. 이때 IPC의 해석을 위해서 WIPO에서  제공하는 2013년 1월 기준의 IPC 정의를 사용하였습니다. 분석에 사용된 데이터는 최초 우선권 신청 연도 기준으로,  1955년부터 2011년까지의 특허를 포함하고 있습니다. 분석을 위하여 전체 특허데이터를 1990년대 이전, 2000년대  이전, 그 이후로 나누어 기술융복합 패턴의 변화를 살펴 보았습니다.

대용량의 특허 데이터에 대 빅데이터 분석
분석은 총 3 단계로 진행되었습니다. 1단계에서는 Raw Data인 대용량 특허데이터를 오픈소스 빅데이터 기술을  활용하여 가공하였고, 2단계에서는 기술융복합패턴 추출을 위해 연관분석을 활용하였습니다. 최종적으로 3단계에서는  이전 단계의 결과를 바탕으로 기술융복합 네트워크를 구축하여 기술융복합 패턴을 이해하고 동시에 기술융복합  패턴을 예측하였습니다. 분석환경으로 사용되는 오픈소스 분석 플랫폼은 하둡 클러스터를 사용하였으며,  64bit CentOS 6.3이 설치된 네임노드 1대, 데이터노드 3대로 이뤄져 있습니다. 각 서버에는 아파치 하둡 1.0.4와  피그 0.10.1을 설치하였으며, 그리고 분석을 위한 오픈소스 통계 소프트웨어 프로그램인 R 3.0.1 64 bit와 필요  패키지들을 설치하였습니다. 하둡과 맵리듀스 프레임워크 기반의 오픈소스 분석 플랫폼에서, 하둡은 대용량  삼극특허데이터가 일반적인 환경의 단일 컴퓨터에서 계산이 어렵기 때문에 사용되었으며, 맵리듀스 프레임워크는  다수의 컴퓨터를 연결한 클러스터에서의 데이터처리를 위해 사용되었습니다. 

분석도구
사용된 분석도구로는 피그 라틴, R, FP-growth 등이 있습니다. IPC 동시발생과 같은 관계 데이터 처리에 효과적인  맵리듀스 기반의 고급수준 데이터처리언어인 피그 라틴을 사용하여 특허데이터를 전처리를 하고자 했습니다. 또한  처리된 데이터의 분석을 위해서는 오픈소스 통계분석도구인 R을 사용했습니다. 대용량 IPC 동시발생 데이터에서  빈번하게 발생하는 패턴을 발견하기 위해서는 연관성 규칙을 활용하고자 하였습니다. 이는 대용량 데이터에 적합한   FP-tree 구조로 데이터를 생성하여 FP-growth 알고리즘을 사용하였으며, 오픈소스로 공개된 FP-growth라는  프로그램을 별도로 사용하였습니다. 연관분석에는 Apriori 알고리즘과 FP-Growth(Frequent Pattern-Growth)  알고리즘을 사용할 수 있는데, 큰 규모의 데이터에는 FP-Growth 알고리즘이 더 효율적인 것으로 알려져 있습니다.  데이터 처리를 통하여 각 기간별로 얻어진 각 특허가 갖는 IPC 동시발생 데이터에 FP-growth 알고리즘을  적용하였습니다. 한 특허에 동시에 출현하는 IPC의 패턴을 관찰하는데 사용되었으며, 분석의 편의를 위하여 아이템을  2개로만 한정했습니다. 

각 기간별 분석결과를 바탕으로 연관분석 결과를 하였습니다. 이때 보다 효과적으로 기술융복합 패턴을 관찰하기  위하여 패턴의 Item이 네트워크의 Node가 되고, 패턴의 Support가 Node 간 Link의 Weight가 되도록 하여  IPC 동시발생 네트워크를 만들어 각 기간별 패턴을 살펴보았습니다. 그리고, 각 기간별 패턴을 아래 그림과 같이  하나의 네트워크로 표현하는 것이 필요하기 때문에, 각 기간별 노드들의 Link에 다른 가중치를 적용한 후 얻어지는  조정된 Link의 Weight을 사용하였습니다. 연관분석 결과 기반 IPC 동시발생 네트워크는 다음과 같습니다. 연관분석을  통해 발견된 IPC 동시발생 네트워크를 바탕으로, 향후 발생할 수 있는 기술융복합 패턴을 예측하기 위해서   Link Prediction을 사용하였습니다. Link Prediction이란, 관측된 네트워크에서 노드 간 연결 정보를 바탕으로 향후  발생할 수 있는 연결을 예측하는 방법입니다. Link Prediction을 위해서, 만들어진 네트워크의 노드 간 유사도를  측정하여 잠재적인 연결을 발견하였습니다. 결과 보기 버튼을 클릭하여 네트워크에 나타난 각각의 Link로 예측된  기술융복합 패턴을 살펴보시기 바랍니다.






지금까지 살펴본 네트워크를 분석한 결과, 주로 의약품 관련 기술을 중심으로 호흡기, 혈액, 감각기관 장애와  유전자공학, 펩티드, 헤테로고리화합물 관련 기술들의 융복합이 예측되었습니다. 또한 근육장애, 성적장애와  항감염약, 헤테로고리화합물, 펩티드를 포함한 의료제제 관련 기술들의 융복합이 예측되었습니다. 그리고 항종양제제  관련 기술로 유전자치료법, 항원과 항체를 포함하는 의료제제 관련 기술 융복합이 예측되었습니다. 이러한 결과를  R&D 경영에 활용하여, 기술혁신과 경제성장에 기여할 수 있을 것으로 기대됩니다.