본문 바로가기

Programming/Hadoop4

하둡 에코시스템이란? (hadoop ecosystem) 하둡 에코시스템(Hadoop-Ecosystem)이란? 앞선 포스트에서 하둡을 분산 프로그래밍 프레임워크라고 설명했는데, 하둡 에코시스템이 바로 그 프레임워크를 이루고 있는 다양한 서브프로젝트들의 모임이라고 보면 된다. 아래 그림은 하둡 에코시스템을 나타낸 것이다. [그림 출처: 시작하세요! 하둡 프로그래밍(위키북스)] 하둡 코어 프로젝트: HDFS(분산데이터 저장), MapReduce(분산처리) 하둡 서브 프로젝트: 나머지 프로젝트들 -> 데이터 마이닝, 수집, 분석 등을 수행 하둡 에코시스템을 이루고 있는 서브 프로젝트들에 대해 간단히 알아보자. l Zookeeper 분산 환경에서 서버들간에 상호 조정이 필요한 다양한 서비스를 제공하는 시스템입니다. 첫째, 하나의 서버에만 서비스가 집중되지 않도록, 서.. 2018. 4. 24.
hadoop fs 명령어 모음 다음은 알아두면 좋을 하둡 fs 명령어들이다. 1. appendToFile : 로컬 시스템의 파일을 기존에 존재하는 hdfs 파일시스템의 파일에 이어 붙인다.bash$ hadoop fs -appendToFile [로컬 시스템의 파일] [HDFS 파일시스템 디렉토리] /[파일명] 2. cat : [파일명] 의 내용을 출력한다.bash$ hadoop fs -cat /data/[파일명] 3. chgrp : 파일의 소유 그룹을 변경한다. -R 옵션을 추가하면 디렉토리 하위의 모든 디렉토리와 파일의 소유 그룹을 변경한다.bash$ hadoop fs -chgrp [변경할 그룹] [변경할 디렉토리 혹은 파일] 4. chmod : 파일의 모드(drwxrwxrwx)를 변경한다. ‘-R’ 옵션을 사용하면 하위 디렉토리에도.. 2018. 4. 22.
하둡(hadoop) 의 구조(아키텍처), 파일 입출력 프로세스, 맵 리듀스 개념 아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)이란? - 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것이다. 하둡 에코 시스템 특징 1. HDFS는 데이터를 저장하면, 다수의 노드에 복제 데이터도 함께 저장해서 데이터 유실을 방지 2. HDFS에 파일을 저장하거나, 저장된 파.. 2018. 4. 21.
[OLAP] 빅데이터 다차원 분석 솔루션 KYLIN - 설치편 OLAP과 관련해서 kylin을 테스트해 볼 상황이 생겼다그래서 kylin을 올려서 얼마나 데이터 조회에 효율이 좋은지 평가해보고자 설치를 하게 되었다.아주 간단하다 참고로 키린은 하둡 데이터를 hive에 올려놓고 키린 큐브를 만들어서(미리 집계를 해놓고) hbase에 올려놓는다.그리고 사용자는 집계된 hbase 테이블을 select 하게 되는 것이다. 현재 세팅NameNode 2대DataNode 8대HDP(호튼웍스 데이터 플랫폼) 2.4 버전 KYLIN 2.2.0 버전키린의 장점은 구성 측면에서 마스터노드에 파일을 가져와서 실행만 하면 된다는 것이다.(마치 이클립스처럼 따로 설치가 필요하지 않고 바로 데몬이 올라간다.) 1. 먼저 키린을 올리기마스터노드 특정 폴더에 rz 명령어를 사용해서 apache-.. 2018. 4. 15.