티스토리 뷰
http://book.naver.com/bookdb/book_detail.nhn?bid=7141828
- Flume : 대용량의 로그 데이터를 웹서버나 애플리케이션 서버에서 효율적으로 수집하고 그걸 모아서 궁극적으로는 HDF(Hadoop Distributed File System)로 이동해주는 분산환경하의 프레임워크
- 기본적으로 Agent라는 모듈을 데이터를 발생하는 서버와 그 데이터를 수집하는 모듈들에 설치하고 그것들 사이를 연결하는 형태로 데이터를 이동
- 빅데이터 처리 과정
데이터 수집 모듈 (Flume, Chukwa, Kafka)->
데이터 저장/처리 모듈 (HDFS, MapReduce) ->
처리데이터 액세스 모듈 (Sqoop(http://sqoop.apache.org)) ->
작업 워크 플로우 관리 정의 모듈 (Cascading, Oozie, Azkaban, Ambrose) ->
데이터 시각화 모듈 (Matlab, R, R-Hadoop (https://github.com/RevolutionAnalytics/RHadoop;wiki) )
- A/B 테스트 : 두 개의 상황 A와 B를 비교하는 방법.
1. 상황 A와 B의 차이점은 단 한 가지뿐이어야 한다.
2. 두 상황을 비교하는 테스트는 같은 시간대에 이루어져야 한다.
- 클라우데라 배포판 : http://www.cloudera.com/hadoop/
- 홀튼웍스 배포판 : http://hortonworks.com/products/hortonworksdataplatform/
- 하둡 : http://hadoop.apache.org
- YARN (Yet Another Resource Negotiator) : 하둡 2.0부터 제공되는 차세대 데이터처리 프레임워크
http://wiki.apache.org/hadoop/PoerwedByYarn/
http://archive.apache.org/dist/hadoop/core/hadoop-1.0.3
http://archive.apache.org/dyn/closer.cgi/hadoop/common/