티스토리 뷰

http://book.naver.com/bookdb/book_detail.nhn?bid=7141828


 - Flume : 대용량의 로그 데이터를 웹서버나 애플리케이션 서버에서 효율적으로 수집하고 그걸 모아서 궁극적으로는 HDF(Hadoop Distributed File System)로 이동해주는 분산환경하의 프레임워크 

 - 기본적으로 Agent라는 모듈을 데이터를 발생하는 서버와 그 데이터를 수집하는 모듈들에 설치하고 그것들 사이를 연결하는 형태로 데이터를 이동

 - 빅데이터 처리 과정

 데이터 수집 모듈 (Flume, Chukwa, Kafka)-> 

 데이터 저장/처리 모듈 (HDFS, MapReduce) -> 

 처리데이터 액세스 모듈 (Sqoop(http://sqoop.apache.org)) -> 

 작업 워크 플로우 관리 정의 모듈 (Cascading, Oozie, Azkaban, Ambrose) -> 

 데이터 시각화 모듈 (Matlab, R, R-Hadoop (https://github.com/RevolutionAnalytics/RHadoop;wiki) )


 - A/B 테스트 : 두 개의 상황 A와 B를 비교하는 방법.

  1. 상황 A와 B의 차이점은 단 한 가지뿐이어야 한다. 

  2. 두 상황을 비교하는 테스트는 같은 시간대에 이루어져야 한다. 


 - 클라우데라 배포판 : http://www.cloudera.com/hadoop/

 - 홀튼웍스 배포판 : http://hortonworks.com/products/hortonworksdataplatform/


 - 하둡 : http://hadoop.apache.org

 - YARN (Yet Another Resource Negotiator) : 하둡 2.0부터 제공되는 차세대 데이터처리 프레임워크 

   http://wiki.apache.org/hadoop/PoerwedByYarn/

   http://archive.apache.org/dist/hadoop/core/hadoop-1.0.3

   http://archive.apache.org/dyn/closer.cgi/hadoop/common/



 

댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함