직접 해보는 하둡 프로그래밍 -

티스토리 뷰

00. Book

오뉴 2015. 11. 22. 21:27

- Flume : 대용량의 로그 데이터를 웹서버나 애플리케이션 서버에서 효율적으로 수집하고 그걸 모아서 궁극적으로는 HDF(Hadoop Distributed File System)로 이동해주는 분산환경하의 프레임워크

- 기본적으로 Agent라는 모듈을 데이터를 발생하는 서버와 그 데이터를 수집하는 모듈들에 설치하고 그것들 사이를 연결하는 형태로 데이터를 이동

- 빅데이터 처리 과정

데이터 수집 모듈 (Flume, Chukwa, Kafka)->

데이터 저장/처리 모듈 (HDFS, MapReduce) ->

처리데이터 액세스 모듈 (Sqoop(http://sqoop.apache.org)) ->

작업 워크 플로우 관리 정의 모듈 (Cascading, Oozie, Azkaban, Ambrose) ->

데이터 시각화 모듈 (Matlab, R, R-Hadoop (https://github.com/RevolutionAnalytics/RHadoop;wiki) )

- A/B 테스트 : 두 개의 상황 A와 B를 비교하는 방법.

1. 상황 A와 B의 차이점은 단 한 가지뿐이어야 한다.

2. 두 상황을 비교하는 테스트는 같은 시간대에 이루어져야 한다.

- YARN (Yet Another Resource Negotiator) : 하둡 2.0부터 제공되는 차세대 데이터처리 프레임워크

http://archive.apache.org/dist/hadoop/core/hadoop-1.0.3

공유하기 링크

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함