[하둡설치]


하둡은 여러 컴퓨터로 구성된 클러스터를 이용하여 방대한 양의 데이터를 처리하는 분산 처리  프레임워크입니다. 그래서 대용량의 스팸 메일을 처리하거나, 아주 빠른 속도로 비디오 트랜스코딩을 하거나,  생명과학에서 다중 염기 서열 정렬을 돕거나, 검색을 쉽게 도와줄 대량의 디지털 음원 자료들을 저장하고  관리할 수 있도록 내용 기반 음악 검색을 설계하는 등 다양한 분야에서의 하둡 활용을 생각해 볼 수 있습니다.


 이 같은 활용을 위해 이번 회차에서는 하둡 패키지를 설치하는 방법을 알아보겠습니다. 

 



1. 설치


하둡 설치 모드에는 완전분산모드, 독립실행모드, 가상분산모드라는 총 3가지 설치 모드가 존재합니다.

완전분산모드는 단일컴퓨터로는 설치가 불가능하기 때문에 독립실행모드 설치 과정과 가상분산모드를 통한  설치 과정을 살펴보도록 하겠습니다.  모드별로 설치해보기 전에 각 하둡 설치 모드에 대해서 좀 더 자세히 살펴보겠습니다. 완전분산모드란 모든 기능이  갖추어진 컴퓨터 클러스터를 구성할 수 있는 모드이며, 설치를 통해 분산 저장과 분산 연산의 장점을 누릴 수  있습니다. 독립실행모드란 다른 노드와 통신할 필요 없이 독립적으로 맵리듀스 프로그램의 로직을 개발하고 오류를  수정하고자 할 때의 모드입니다. 가상분산모드란 컴퓨터 클러스터가 한 대로 구성되어 있고,  이 한 대의 컴퓨터에서 실행되는 모드입니다. 이 모드는 코드 오류 수정 시 독립실행 모드에서의 기능을 보완할 수  있는데 메모리 사용 정도, 하둡 분산파일시스템 입출력 관련 문제 등을 검사할 수 있습니다.  각 모드에 대해 이해가 되셨나요? 독립실행모드와 가상분산모드는 모두 개발이나 오류 수정 목적으로 사용됩니다.   그리고 실제 하둡 클러스터는 완전분산 모드에서 실행되지만 완전분산모드는 단일컴퓨터로는 설치가 불가능합니다.   따라서 독립실행모드 설치 과정과 가상분산모드를 통한 설치 과정을 살펴보도록 하겠습니다. 



독립실행모드 설치

우분투내에 하둡을 설치해 보도록 하겠습니다. 파일접속화면의 왼쪽에 나열된  아이콘들 중 세번째에 위치한 파이어폭스는 모질라 재단에서 만든 웹브라우저로서, 빠르고 안정적이지만  액티브 X 지원이 부족하다는 단점이 있습니다. 이를 클릭하면 다음과 같은 화면이 나오는데, hadoop-2.7.1.tar.gz  파일을 다운받고 설치합니다.  그 다음 터미널(Terminal)을 실행해주고 cd Downloads 명령어를 이용하여 하둡설치 파일이 다운로드 된 폴더로  이동합니다. 그 후 cp hadoop-2.7.1.tar.gz /usr/local 명령어를 이용하여 하둡파일을 설정된 경로로 복사합니다.  그리고 tar zxvf hadoop-2.7.1.tar.gz 명령어를 이용해 압축을 풀어 하둡을 설치합니다. [이때 권한이 없다고 나오는데 루트계정으로 로그인한 후 설치하거나, 권한설청후 진행]


  



그 다음 경로를 설정해 주기 위해, apt-get install vim이란 명령어를 입력해 vim을 설치합니다.  이번에는 명령어를 이용해 profile을 열어보도록 하겠습니다. cd ~을 치고 엔터 후  다음 줄에 vim .profile 명령어를 입력하면 profile이 열립니다.  열린 profile에 다음의 명령어를 입력한 후 저장합니다. 


그 후 터미널(Terminal)을 이용해 source .profile 명령을 통해 profile을 등록합니다.  그리고 터미널(Terminal)에서 hadoop을 입력하여 다음의 결과가 출력된다면 정상적으로 수행된 것입니다.


마지막으로 터미널(Terminal)에서 vim /usr/local/hadoop-2.7.1/etc/hadoop/hadoop-env.sh 파일을 엽니다. 그리고 제일 하단에 제시된 명령어를 추가한 다음 저장하면 독립실행모드 설치가 마무리 됩니다.




가상분산모드 설치

하둡의 가상분산모드의 설치 과정을 알아보겠습니다. 이는 기본적으로 독립실행모드 설치 과정이 완료되어  있어야 하는데, 그 이유는 가상분산모드의 경우 독립실행모드에서의 기능을 보완할 수 있기 때문입니다.  가상분산모드를 설치하기 위해서는 먼저 ssh를 설치해야 합니다. ssh란 원격지 시스템에 접근하여 암호화된  메시지를 전송할 수 있는 프로그램으로 하둡은 ssh프로토콜을 사용해 클러스터간에 내부통신을 하기 때문에  ssh서버를 설치해주어야 합니다.  독립실행모드와 마찬가지로 터미널(Terminal)과 다음의 명령어를 이용해 ssh를 설치해줍니다.  /etc/init.d/ssh restart 명령어를 이용해 ssh를 실행시킵니다. netstat -ntl 명령어를 입력해서 결과가 출력되면 성공적으로 설치된 것입니다.


ssh는 키를 생성하고 생성키를 접속할때 사용하도록 복사하는 것입니다.  즉, ssh는 rsa 공개키 암호를 사용하기 때문에 로그인할 때 별도의 키가 필요한 것입니다.  키를 생성하는 명령어는 다음과 같습니다.  그리고 ssh localhost를 입력하여 localhost로 접속하면 다음과 같은 화면이 제시됩니다.  ssh서버로 접속 후 xml설정 및 마스터 슬레이브 설정을 해 주면 설치가 끝납니다. 


 

▼ SSH 설치시 에러 


E: Could not get lock /var/lib/dpkg/lock - open (11 Resource temporarily unavailable)

E: Unable to lock the administration directory (/var/lib/dpkg/) is another process using it?




'빅데이터분석개론' 카테고리의 다른 글

비즈니스 인텔리전스 (Business Intelligence)  (8) 2015.12.13
빅데이터 분석 방법론  (13) 2015.12.13
HDFS와 MapReduce  (295) 2015.12.13
Hadoop 이해  (305) 2015.12.09
[강의] 빅데이터분석개론  (7) 2015.11.24