[비정형 데이터 마이닝의 개념]
1. 개요
비정형 데이터란 무엇일까요? 비정형 데이터란 그림이나 영상, 음성, 문서처럼 구조화되지 않은 데이터입니다. 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 형태와 구조가 다른 데이터들을 말하는 것입니다. 비정형 데이터는 크게 두 가지 종류로 생각하시면 되는데요. 책, 잡지, 문서, 의료기록과 같은 텍스트 정보, 음성 정보, 영상 정보와 같은 전통적인 데이터 외에 이메일, 트위터, 블로그처럼 모바일 기기와 온라인에서 생성되는 데이터가 있습니다. 기존의 컴퓨터 시스템은 연산과 처리절차가 숫자 데이터 중심으로 설계되어 있기 때문에 이름이나 성별과 같은 문자변수는 숫자로 변환해 처리하는 방법을 주로 사용했습니다. 문자, 숫자, 도표, 그림 등이 포함된 비정형 데이터에 들어있는 정보는 숫자로 변환하는 방법 적용이 어렵습니다. 정보의 관점에서 보면 유형이 불규칙하고 의미를 파악하기 모호해서 기존의 컴퓨터 처리 방식을 적용하기 어려운데요. 그래서 트위터나 블로그처럼 모바일과 온라인에서 생성되는 비정형 데이터에 기존의 컴퓨터 처리 방식을 적용 것은 불가능합니다.
2. 정형 데이터 마이닝과 비정형 데이터 마이닝
데이터 관리 및 분석과 의미 도출
데이터는 어떻게 관리할까요? 데이터는 사전에 정의된 규칙에 따라 편집되어 데이터베이스에 저장되는 방식으로 관리되어 왔습니다. 그리고 데이터 분석과 의미도출은 규격화된 데이터베이스에 입력된 정제된 데이터의 존재를 전제로 하였습니다. 그래서 비정형 데이터는 아직 규격화되지 않아 분석이 불가능하고 의미를 읽어낼 수 없는 데이터로 판단할 수 있습니다. 그래서 정형 데이터와 달리 비정형 데이터는 데이터의 의미를 분석하는 단계에서 실무자의 관점에서 맥락을 고려한 해석을 거쳐야 했습니다. 비정형 데이터는 저장하는 법도 정형 데이터와 달라 관리자가 다르게 관리해야 했습니다. 정형 데이터에 비해 데이터베이스 관리시스템에서 차지하는 저장 공간이 넓고, 각각의 비정형 데이터를 구분하기 위해서 별도의 태그 정보를 추가해야 했기 때문에 데이터 관리자 입장에서는 정형 데이터에 비해 비정형 데이터를 번거롭게 여겨왔습니다. 그러나 기업 데이터의 80% 이상이 비정형 데이터라는 조사 결과를 감안할 때, 기업 경영에 시사점을 줄 수 있는 주요한 사업 정보와 고객 정보 등이 그 동안 상당 수 제대로 활용되지 못하고 방치되어 왔다고 볼 수 있습니다.
[비정형 데이터 마이닝의 유형]
1. 텍스트 마이닝(Text Mining)
개요
텍스트 마이닝(Text Mining)은 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용하여 정보를 추출하는 기법입니다. 텍스트 마이닝(Text Mining)을 활용하면 비정형화된 문서에서 정보를 얻을 수 있다는 장점이 있는데요. 예를 들어 텍스트 정보에서 문맥을 파악하거나 텍스트 간 연계를 분석할 수 있습니다. 그리고 텍스트 마이닝(Text Mining)은 텍스트 프로세싱(Text-processing) 기술 및 처리 과정을 포함합니다. 이는 텍스트 기반의 데이터로부터 새로운 정보를 발견할 수 있도록 하며, 정보 검색, 추출, 체계화, 분석 과정을 모두 포함합니다.
자연어 처리 (Natural Language Processing)
그럼 자연어 처리 방식이란 무엇일까요? 자연어란 우리가 하는 말과 같이 인간이 이해할 수 있는 언어입니다. 이를 기계가 이해할 수 있게 하는 기술을 자연어 처리라고 하는데요. 자연어 처리는 Natural Language Processing을 줄여 NLP라고도 합니다. 다음 그림은 음성인식 및 음성 발화와 연관된 자연어 처리 과정을 나타낸 것인데요. 우선 기계와 인간이 소리로 의사소통을 하기 위해 인간의 음성을 텍스트로 바꾸는 '음성 인식' 기술이 선행됩니다. 음성인식을 통해 인간의 음성을 텍스트로 변환하고 나면 입력된 텍스트를 여러 형태로 분석합니다. 그리고 인간의 음성이 무엇을 나타내는지, 어떠한 의도를 가지고 있는지를 분석한 뒤 사용자가 어떤 대상에 대해 질문을 한 것이라면 검색 등을 활용해 사용자가 원하는 대답을 찾습니다. 이 후 최종적으로 사용자 질문에 대한 답을 문장형태로 만드는 언어 생성과정을 거친 뒤 음성인식과 반대되는 발화기술을 통해 사용자에게 음성으로 전달 됩니다. 이것이 자연어 처리입니다.
수행단계
텍스트 마이닝(Text Mining)의 수행단계를 알아보겠습니다. 크게 6단계 로 나누는데요. 첫번째는 텍스트 문서 선정 단계입니다. 텍스트 마이닝에서는 데이터베이스 콘텐츠 혹은 텍스트 기반의 문서들이 고려됩니다. 데이터베이스 콘텐츠란 텍스트 마이닝에 주로 사용되는 텍스트 문서를 말합니다. 두번째는 텍스트 전처리 단계입니다. 이 단계에서는 문서 내에 표현되어 있는 단어/구/절에 해당하는 내용을 언어 분석 처리 과정을 통해 가공할 수 있는 데이터로 표현합니다. 세 번째는 의미정보 변환 단계입니다. 이 단계에서는 전처리된 데이터 중 의미 있는 정보를 선별하여 저장합니다. 네 번째 의미정보 추출 단계에서는 복잡한 의미정보의 표현을 단순화하고, 도메인에 적합한 정보를 문서의 의미 데이터로 저장합니다. 다섯번째 단계는 패턴 및 경향 분석 단계입니다. 이 단계에서는 의미 데이터를 기반으로 문서를 자동으로 군집화하거나, 분류하는 등 정보를 재생산합니다. 마지막 여섯번째는 정보표현 및 평가단계입니다. 이 단계는 새롭게 생성된 정보를 사용자에게 시각화 툴로 효과적으로 표현하며, 평가과정을 통해 텍스트 마이닝의 처리과정 중 문제가 되는 부분을 수정 및 보완하여 품질 및 성능을 높이는데 활용됩니다.
2. 오피니언 마이닝(Opinion Mining)
개요
오피니언 마이닝(Opinion Mining)은 텍스트 마이닝(Text Mining)에서 발전된 분석 기법입니다. 오피니언(Opinion)은 상품평이나 영화 감상평 또는 정치인에 대한 호감도와 같이 특정 주제나 대상에서 보인 사람들의 주관적이고 감정적인 의견인데요.
오피니언 마이닝(Opinion Mining)은 이런 오피니언이 포함된 빅데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 이용하여 특정 주제에 보인 의견이 긍정(Positive) 인지, 부정(Negative)인지, 중립(Neutral)인지를 찾아냅니다. 이를 통해 선호도를 판별하는 기술이 오피니언 마이닝(Opinion Mining)입니다.
수행단계
일반적으로 오피니언 마이닝(Opinion Mining)은 특징 추출, 의견 분류, 요약 및 전달 3단계로 진행합니다. 특징 추출 단계에서는 데이터에서 의미 있는 요소나 정보로 판단되는 특징들을 추출합니다. 의견 분류 단계에서는 특징 추출 단계에서 추출된 특징과 의견을 표현하는 단어가 데이터에서 어떠한 의미로 사용되었는지를 분석합니다. 요약 및 전달 단계에서는 성향이나 선호도가 밝혀진 오피니언 정보들을 요약하여 사용자에게 전달합니다. 그럼 오피니언 마이닝(Opinion Mining)에서 긍정이나 부정 또는 중립의 의견을 분류하는 과정을 좀 더 구체적으로 살펴볼까요? 먼저 긍정, 부정, 중립을 표현하는 단어 정보를 추출합니다. 다음으로 세부 평가 요소와 그것이 가리키는 오피니언의 연결 관계를 포함한 문장을 인식합니다. 마지막으로 긍정, 부정, 중립 표현의 수 및 유용한 문장을 추출하여 리뷰 요약을 생성하면 선호도를 분류할 수있습니다.
활용
오피니언 마이닝(Opinion Mining)은 여론 향방을 추적하는 데 사용되는 기술입니다. 주로 블로고스피어 (Blogosphere)나 소셜 네트워크 서비스(Social Network Service)의 데이터를 활용하는데요. 블로고스피어(Blogosphere)는 블로그를 통해 커뮤니티나 소셜 네트워크처럼 서로 연결되어 있는 모든 블로그들의 집합을 의미합니다. 인터넷에 형성된 가상 세계의 총칭하는 것입니다. 그리고 소셜 네트워크 서비스(Social Network Service)는 웹상에서 이용자들이 인적 네트워크를 형성할 수 있게 해주는 서비스를 통칭합니다. 트위터, 페이스북 등이 대표적이죠. 이들에는 주제나 대상, 인물이 특정 부분에 국한되지 않고 다양하기 때문에 오피니언 마이닝 기술을 많이 활용합니다.
텍스트 마이닝과 오피니언 마이닝
텍스트 마이닝이 특정단어와 문맥의 연관성을 분석하는데 비해, 오피니언 마이닝은 문맥과 연계된 감성분석(Sentiment Analysis)을 활용하여 특정 텍스트의 어조와 감정을 파악합니다. 그리고 신문 기사나 잡지처럼 어떤 사안이든지 객관적이고자 노력하는 것이 아니라 블로고스피어(Blogosphere)나 소셜 네트워크 서비스 (Social Network Service)의 텍스트는 특정 사안에 대해 감정적인 경우가 많습니다. 이 점에 착안하여 오피니언 마이닝(Opinion Mining)은 분석 대상인 키워드와 함께 나오는 긍정, 부정 등 감성적 언어의 빈도수를 추적하여 일반적인 여론의 향방을 추적합니다.
오피니언 마이닝(Opinion Mining)은 문맥과 연계된 감성분석(Sentiment Analysis)을 활용하여 특정 텍스트의 어조와 감정을 파악한다고 했는데요. 감성분석(Sentiment Analysis)이란 무엇인지 알아보겠습니다. 이는 소비자의 감성과 관련된 텍스트 정보를 자동으로 추출하는 텍스트 마이닝(Text Mining) 기술의 한 영역으로 문서를 작성한 사람의 감정을 추출해 내는 기술입니다. 문서의 주제보다 어떠한 감정을 가지고 있는가를 판단하여 분석하는데요. 예를 들면 온라인 쇼핑몰에서 사용자의 상품평에 대한 분석을 하는 것이 있습니다. 하나의 상품에 대해 사용자의 좋고 나쁨에 대한 감정을 분석하는 것이지요.
오피니언 마이닝시 유의점
여론 추정의 근거가 되는 감성사전의 구축을 소홀히 하지 말아야 한다는 것입니다. 감성사전이 제대로 구축되지 않는다면 데이터 분석 결과에 오류가 발생할 수 있기 때문입니다. 그리고 단어의 맥락을 잘못 파악할 수 있다는 특정 단어는 맥락에 따라 긍정과 부정이 반어적으로 사용될 수 있기 때문입니다. 감성사전은 문서의 내용을 주제어와 속성, 긍정 · 부정도 등으로 분류하고 정밀한 언어처리 및 분석과정을 거쳐 주관적인 감정 표현의 정도를 계량화할 수 있도록 한 것입니다. 감성사전은 특정 주제에 대한 통합적인 속성을 도출하여 정확한 분석자료를 제공합니다.
3. 웹 마이닝(Web Mining)
'빅데이터분석개론' 카테고리의 다른 글
오피니언 마이닝의 이해 (7) | 2016.01.03 |
---|---|
텍스트 마이닝의 이해 (12) | 2016.01.03 |
R을 활용한 데이터 마이닝 분석 (9) | 2016.01.03 |
데이터 마이닝 분석 패키지 - R (8) | 2016.01.03 |
웨카(WEKA)를 활용한 데이터 마이닝 분석 (13) | 2016.01.02 |