비정형 데이터 마이닝의 이해

2016. 1. 3. 19:51

[비정형 데이터 마이닝의 개념]

1. 개요

비정형 데이터란 무엇일까요? 비정형 데이터란 그림이나 영상, 음성, 문서처럼 구조화되지 않은 데이터입니다. 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 형태와 구조가 다른 데이터들을 말하는 것입니다. 비정형 데이터는 크게 두 가지 종류로 생각하시면 되는데요. 책, 잡지, 문서, 의료기록과 같은 텍스트 정보, 음성 정보, 영상 정보와 같은 전통적인 데이터 외에 이메일, 트위터, 블로그처럼 모바일 기기와 온라인에서 생성되는 데이터가 있습니다. 기존의 컴퓨터 시스템은 연산과 처리절차가 숫자 데이터 중심으로 설계되어 있기 때문에 이름이나 성별과 같은 문자변수는 숫자로 변환해 처리하는 방법을 주로 사용했습니다. 문자, 숫자, 도표, 그림 등이 포함된 비정형 데이터에 들어있는 정보는 숫자로 변환하는 방법 적용이 어렵습니다. 정보의 관점에서 보면 유형이 불규칙하고 의미를 파악하기 모호해서 기존의 컴퓨터 처리 방식을 적용하기 어려운데요. 그래서 트위터나 블로그처럼 모바일과 온라인에서 생성되는 비정형 데이터에 기존의 컴퓨터 처리 방식을 적용 것은 불가능합니다.

2. 정형 데이터 마이닝과 비정형 데이터 마이닝

데이터 관리 및 분석과 의미 도출

데이터는 어떻게 관리할까요? 데이터는 사전에 정의된 규칙에 따라 편집되어 데이터베이스에 저장되는 방식으로 관리되어 왔습니다. 그리고 데이터 분석과 의미도출은 규격화된 데이터베이스에 입력된 정제된 데이터의 존재를 전제로 하였습니다. 그래서 비정형 데이터는 아직 규격화되지 않아 분석이 불가능하고 의미를 읽어낼 수 없는 데이터로 판단할 수 있습니다. 그래서 정형 데이터와 달리 비정형 데이터는 데이터의 의미를 분석하는 단계에서 실무자의 관점에서 맥락을 고려한 해석을 거쳐야 했습니다. 비정형 데이터는 저장하는 법도 정형 데이터와 달라 관리자가 다르게 관리해야 했습니다. 정형 데이터에 비해 데이터베이스 관리시스템에서 차지하는 저장 공간이 넓고, 각각의 비정형 데이터를 구분하기 위해서 별도의 태그 정보를 추가해야 했기 때문에 데이터 관리자 입장에서는 정형 데이터에 비해 비정형 데이터를 번거롭게 여겨왔습니다. 그러나 기업 데이터의 80% 이상이 비정형 데이터라는 조사 결과를 감안할 때, 기업 경영에 시사점을 줄 수 있는 주요한 사업 정보와 고객 정보 등이 그 동안 상당 수 제대로 활용되지 못하고 방치되어 왔다고 볼 수 있습니다.

비정형 데이터 분석기법

데이터 마이닝은 상식적인 예측을 벗어나지 못하는 한계가 있습니다. 데이터베이스에 쌓인 정보는 데이터 관리자의 일정한 시각에 따라 정제된 데이터입니다. 이 데이터의 정제 과정에서 작업자의 일정한 판단 기준이 작용하는데요. 전수 조사가 불가능한 데이터베이스의 태생적 한계로 볼 수도 있습니다. 또한 데이터마이닝으로 분석한 데이터는 데이터 생산자의 숨은 의도를 파악하지 못할 가능성이 높다는 단점이 있는데요 이는 데이터베이스를 구축하는 과정에서 데이터의 맥락이 불가피하게 제거되면서 데이터를 분석하는 과정에서 왜곡이 발생할 수도 있음을 의미합니다. 전수조사와 데이터의 맥락이라는 단어가 낯설 수 있는데요. 전수조사란 표본조사와 반대되는 개념으로 조사 대상 전부를 다 조사하는 것을 의미합니다. 데이터의 맥락이란 데이터가 실제 상황에 따라 가지고 있는 의미를 맥락으로 해석할 수 있기에 나온 단어입니다. 비정형 데이터 분석 기법은 정형 데이터 분석 기법인 데이터 마이닝의 한계를 극복하기 위한 방편으로 꾸준히 발전해 왔는데요. 비정형 데이터를 대상으로 분석하는 기법에는 텍스트 마이닝(Text Mining), 오피니언 마이닝(Opinion Mining), 웹 마이닝(Web mining) 등의 유형이 있습니다.

[비정형 데이터 마이닝의 유형]

1. 텍스트 마이닝(Text Mining)

개요

텍스트 마이닝(Text Mining)은 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용하여 정보를 추출하는 기법입니다. 텍스트 마이닝(Text Mining)을 활용하면 비정형화된 문서에서 정보를 얻을 수 있다는 장점이 있는데요. 예를 들어 텍스트 정보에서 문맥을 파악하거나 텍스트 간 연계를 분석할 수 있습니다. 그리고 텍스트 마이닝(Text Mining)은 텍스트 프로세싱(Text-processing) 기술 및 처리 과정을 포함합니다. 이는 텍스트 기반의 데이터로부터 새로운 정보를 발견할 수 있도록 하며, 정보 검색, 추출, 체계화, 분석 과정을 모두 포함합니다.

자연어 처리 (Natural Language Processing)

그럼 자연어 처리 방식이란 무엇일까요? 자연어란 우리가 하는 말과 같이 인간이 이해할 수 있는 언어입니다. 이를 기계가 이해할 수 있게 하는 기술을 자연어 처리라고 하는데요. 자연어 처리는 Natural Language Processing을 줄여 NLP라고도 합니다. 다음 그림은 음성인식 및 음성 발화와 연관된 자연어 처리 과정을 나타낸 것인데요. 우선 기계와 인간이 소리로 의사소통을 하기 위해 인간의 음성을 텍스트로 바꾸는 '음성 인식' 기술이 선행됩니다. 음성인식을 통해 인간의 음성을 텍스트로 변환하고 나면 입력된 텍스트를 여러 형태로 분석합니다. 그리고 인간의 음성이 무엇을 나타내는지, 어떠한 의도를 가지고 있는지를 분석한 뒤 사용자가 어떤 대상에 대해 질문을 한 것이라면 검색 등을 활용해 사용자가 원하는 대답을 찾습니다. 이 후 최종적으로 사용자 질문에 대한 답을 문장형태로 만드는 언어 생성과정을 거친 뒤 음성인식과 반대되는 발화기술을 통해 사용자에게 음성으로 전달 됩니다. 이것이 자연어 처리입니다.

수행단계

텍스트 마이닝(Text Mining)의 수행단계를 알아보겠습니다. 크게 6단계 로 나누는데요. 첫번째는 텍스트 문서 선정 단계입니다. 텍스트 마이닝에서는 데이터베이스 콘텐츠 혹은 텍스트 기반의 문서들이 고려됩니다. 데이터베이스 콘텐츠란 텍스트 마이닝에 주로 사용되는 텍스트 문서를 말합니다. 두번째는 텍스트 전처리 단계입니다. 이 단계에서는 문서 내에 표현되어 있는 단어/구/절에 해당하는 내용을 언어 분석 처리 과정을 통해 가공할 수 있는 데이터로 표현합니다. 세 번째는 의미정보 변환 단계입니다. 이 단계에서는 전처리된 데이터 중 의미 있는 정보를 선별하여 저장합니다. 네 번째 의미정보 추출 단계에서는 복잡한 의미정보의 표현을 단순화하고, 도메인에 적합한 정보를 문서의 의미 데이터로 저장합니다. 다섯번째 단계는 패턴 및 경향 분석 단계입니다. 이 단계에서는 의미 데이터를 기반으로 문서를 자동으로 군집화하거나, 분류하는 등 정보를 재생산합니다. 마지막 여섯번째는 정보표현 및 평가단계입니다. 이 단계는 새롭게 생성된 정보를 사용자에게 시각화 툴로 효과적으로 표현하며, 평가과정을 통해 텍스트 마이닝의 처리과정 중 문제가 되는 부분을 수정 및 보완하여 품질 및 성능을 높이는데 활용됩니다.

2. 오피니언 마이닝(Opinion Mining)

개요

오피니언 마이닝(Opinion Mining)은 텍스트 마이닝(Text Mining)에서 발전된 분석 기법입니다. 오피니언(Opinion)은 상품평이나 영화 감상평 또는 정치인에 대한 호감도와 같이 특정 주제나 대상에서 보인 사람들의 주관적이고 감정적인 의견인데요.

오피니언 마이닝(Opinion Mining)은 이런 오피니언이 포함된 빅데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 이용하여 특정 주제에 보인 의견이 긍정(Positive) 인지, 부정(Negative)인지, 중립(Neutral)인지를 찾아냅니다. 이를 통해 선호도를 판별하는 기술이 오피니언 마이닝(Opinion Mining)입니다.

수행단계

일반적으로 오피니언 마이닝(Opinion Mining)은 특징 추출, 의견 분류, 요약 및 전달 3단계로 진행합니다. 특징 추출 단계에서는 데이터에서 의미 있는 요소나 정보로 판단되는 특징들을 추출합니다. 의견 분류 단계에서는 특징 추출 단계에서 추출된 특징과 의견을 표현하는 단어가 데이터에서 어떠한 의미로 사용되었는지를 분석합니다. 요약 및 전달 단계에서는 성향이나 선호도가 밝혀진 오피니언 정보들을 요약하여 사용자에게 전달합니다. 그럼 오피니언 마이닝(Opinion Mining)에서 긍정이나 부정 또는 중립의 의견을 분류하는 과정을 좀 더 구체적으로 살펴볼까요? 먼저 긍정, 부정, 중립을 표현하는 단어 정보를 추출합니다. 다음으로 세부 평가 요소와 그것이 가리키는 오피니언의 연결 관계를 포함한 문장을 인식합니다. 마지막으로 긍정, 부정, 중립 표현의 수 및 유용한 문장을 추출하여 리뷰 요약을 생성하면 선호도를 분류할 수있습니다.

활용

오피니언 마이닝(Opinion Mining)은 여론 향방을 추적하는 데 사용되는 기술입니다. 주로 블로고스피어 (Blogosphere)나 소셜 네트워크 서비스(Social Network Service)의 데이터를 활용하는데요. 블로고스피어(Blogosphere)는 블로그를 통해 커뮤니티나 소셜 네트워크처럼 서로 연결되어 있는 모든 블로그들의 집합을 의미합니다. 인터넷에 형성된 가상 세계의 총칭하는 것입니다. 그리고 소셜 네트워크 서비스(Social Network Service)는 웹상에서 이용자들이 인적 네트워크를 형성할 수 있게 해주는 서비스를 통칭합니다. 트위터, 페이스북 등이 대표적이죠. 이들에는 주제나 대상, 인물이 특정 부분에 국한되지 않고 다양하기 때문에 오피니언 마이닝 기술을 많이 활용합니다.

텍스트 마이닝과 오피니언 마이닝

텍스트 마이닝이 특정단어와 문맥의 연관성을 분석하는데 비해, 오피니언 마이닝은 문맥과 연계된 감성분석(Sentiment Analysis)을 활용하여 특정 텍스트의 어조와 감정을 파악합니다. 그리고 신문 기사나 잡지처럼 어떤 사안이든지 객관적이고자 노력하는 것이 아니라 블로고스피어(Blogosphere)나 소셜 네트워크 서비스 (Social Network Service)의 텍스트는 특정 사안에 대해 감정적인 경우가 많습니다. 이 점에 착안하여 오피니언 마이닝(Opinion Mining)은 분석 대상인 키워드와 함께 나오는 긍정, 부정 등 감성적 언어의 빈도수를 추적하여 일반적인 여론의 향방을 추적합니다.

오피니언 마이닝(Opinion Mining)은 문맥과 연계된 감성분석(Sentiment Analysis)을 활용하여 특정 텍스트의 어조와 감정을 파악한다고 했는데요. 감성분석(Sentiment Analysis)이란 무엇인지 알아보겠습니다. 이는 소비자의 감성과 관련된 텍스트 정보를 자동으로 추출하는 텍스트 마이닝(Text Mining) 기술의 한 영역으로 문서를 작성한 사람의 감정을 추출해 내는 기술입니다. 문서의 주제보다 어떠한 감정을 가지고 있는가를 판단하여 분석하는데요. 예를 들면 온라인 쇼핑몰에서 사용자의 상품평에 대한 분석을 하는 것이 있습니다. 하나의 상품에 대해 사용자의 좋고 나쁨에 대한 감정을 분석하는 것이지요.

오피니언 마이닝시 유의점

여론 추정의 근거가 되는 감성사전의 구축을 소홀히 하지 말아야 한다는 것입니다. 감성사전이 제대로 구축되지 않는다면 데이터 분석 결과에 오류가 발생할 수 있기 때문입니다. 그리고 단어의 맥락을 잘못 파악할 수 있다는 특정 단어는 맥락에 따라 긍정과 부정이 반어적으로 사용될 수 있기 때문입니다. 감성사전은 문서의 내용을 주제어와 속성, 긍정 · 부정도 등으로 분류하고 정밀한 언어처리 및 분석과정을 거쳐 주관적인 감정 표현의 정도를 계량화할 수 있도록 한 것입니다. 감성사전은 특정 주제에 대한 통합적인 속성을 도출하여 정확한 분석자료를 제공합니다.

3. 웹 마이닝(Web Mining)

개요

먼저 웹(Web)이 무엇인지 개념을 살펴보겠습니다. 보통 WWW, 월드 와이드 웹(World Wide Web)이라고 불리는 웹(Web)은 텍스트만 지원했던 기존의 것과는 다르게 텍스트, 그림, 동영상, 소리 등을 지원하는 정보 검색 서비스입니다. 하이퍼텍스트 개념을 도입하여 쉽게 원하는 정보와 관련된 정보를 찾아볼 수 있는 특징을 갖고 있고 그래픽 환경으로 사용법이 쉬워 현재 인터넷이 급부상하게 된 하나의 원인이기도 합니다. 그리고 웹로그(Weblog)란 매일 또는 수시로 특정 주제나 일반적인 주제 정보의 일별 운용 기록 형식을 사용하는 개인 또는 비영리 기관의 웹 사이트를 가리킨다는 것을 참고하세요. 자, 그럼 이제 웹 마이닝(Web mining)에 대해서 살펴보겠습니다. 웹 마이닝(Web mining)은 웹을 대상으로 한 데이터 마이닝입니다. 인터넷을 이용하는 과정에서 생성되는 웹 로그 정보나 검색어로부터 추출되는 유용한 정보를 대상으로 한 데이터 마이닝인 것입니다. 웹 마이닝의 속성은 반정형 혹은 비정형이고, 링크 구조를 형성하고 있기 때문에 전통적인 데이터 마이닝의 분석 방법론을 사용하기도 하지만 별도의 분석기법이 필요합니다. 어떤 분석 기법이 있을까요?

분석대상에 따른 웹 마이닝 구분

분석기법에 대해서 학습하기 전에 먼저 하이퍼텍스트가 무엇인지 살펴보겠습니다. 우리는 웹이 하이퍼텍스트 개념을 도입하여 원하는 정보와 관련된 정보를 쉽게 찾아볼 수 있게 되었다고 알고 있는데요. 하이퍼텍스트란 컴퓨터를 통하여 저장된 정보를 학습자가 자신의 필요와 관심 및 인지 스타일에 따라 자유롭게 검색하도록 도와주는 비순차적 텍스트의 전개원리를 말합니다. 좀 더 쉽게 이해하기 위해서 책을 읽을 때를 떠올려 봅시다. 텍스트를 어떻게 읽나요? 첫째 페이지를 읽고, 둘째 페이지를 읽는 식으로 순차적으로 읽어나가지요? 이전에는 컴퓨터도 모두 이렇게 텍스트를 순차적으로 읽어왔습니다. 하지만 하이퍼텍스트는 비순차적입니다. A의 특정 부분을 읽다가 B로 가거나 D로 가거나 E로 가거나 할 수 있도록 연결되어 있습니다. 읽히는 순서가 결정되어 있지 않은 것이죠. 한 개의 페이지처럼 보이는 정보단위를 노드라고 하고, 점으로 서로 연결하고 있는 것처럼 보이는 연결점을 링크라고 합니다. 웹 마이닝은 분석 대상에 따라 웹 구조 마이닝과 웹 사용 마이닝, 웹 콘텐츠 마이닝으로 구분할 수 있습니다. 먼저 웹 구조 마이닝은 웹 사이트의 노드와 연결구조를 분석하는 기법으로 하이퍼링크로부터 패턴을 찾아내거나 웹 페이지 구조를 분석하는 것입니다. 하이퍼링크는 웹 페이지가 연결된 구조를 의미합니다. 웹 사용 마이닝은 웹 서버 로그 파일을 분석하여 웹 사이트 개선이나 고객 특성을 반영한 맞춤형 서비스를 지향합니다. 웹 서버 로그 파일이란 인터넷 이용자의 이용경로에 대한 파일입니다. 마지막으로 웹 콘텐츠 마이닝은 웹 페이지에 저장된 콘텐츠로부터 웹 사용자가 원하는 정보를 빠르게 찾는 기법으로 검색엔진에 사용됩니다.

예를 들면, 웹 페이지를 다루고 있는 주제에 따라 자동적으로 분류할 수 있습니다.

저작자표시 비영리 변경금지

'빅데이터분석개론' 카테고리의 다른 글

오피니언 마이닝의 이해 (7)	2016.01.03
텍스트 마이닝의 이해 (12)	2016.01.03
R을 활용한 데이터 마이닝 분석 (9)	2016.01.03
데이터 마이닝 분석 패키지 - R (8)	2016.01.03
웨카(WEKA)를 활용한 데이터 마이닝 분석 (13)	2016.01.02

justdoit

비정형 데이터 마이닝의 이해

'빅데이터분석개론' 카테고리의 다른 글

티스토리툴바