1. 용어정리 Job 잡 : 클라이언트가 수행하는 작업의 기본 단위 입력데이터, 맵리듀스 프로그램, 설정정보로 구성된다. "맵 태스크", "리듀스 태스크"로 나뉜다. 각 태스크는 YARN을 이용해 스케줄링 되고 클러스터의 여러 노드에서 실행된다. 특정 노드의 태스크 하나가 실패하면 자동으로 다른 노드를 재할당하여 다시 실행된다. Input split 입력 스플릿 : 잡의 입력에 해당된다. 입력데이터는 고정 크기 조각인 스플릿으로 분리된다. 스플릿마다 하나의 맵태스크를 생성하고, 스플릿의 각 레코드를 사용자 정의 맵 함수로 처리한다. 스플릿의 크기가 작을 수록 부하 분산에 더 좋은 효과를 낸다. 스플릿의 크기가 너무 작으면 스플릿 관리와 맵태스크 생성을 위한 오버헤드 때문에 잡의 실행시간이 증가하게 된다...
1. 하둡과의 만남 1) 데이터 현재 빅데이터가 주변에 널려있긴 하지만, 그것을 저장하고 분석하는 일은 보통 매우 어렵다. 왜? 하드디스크의 용량은 기본 1TB 까지 저장가능할 정도로 커졌지만 데이터를 읽는 속도는 아직 많이 느리기 때문. seagate st-41600n HDD 사양으로, 1TB 짜리 HDD에 있는 데이터를 모두 읽는데 두시간 반이상이 걸린다. (100MB/s -> 1000000MB/1만초) 어떻게 개선할 수 있을까? 100대의 디스크에 10000MB 씩만 분산 저장한다면 2분안에 1TB 의 데이터를 읽을 수 있다. 이렇게 1TB 의 데이터를 100대로 분산저장했을때 무슨 문제가 생길 수 있을까? 하드웨어 장애. 많은 하드웨어를 사용할수록 장애가 발생활 확률도 높다. -> 데이터 복제로 ..