카테고리 없음

오늘 면접에서 털린 맵리듀스...허

흰색남자 2022. 9. 19. 21:42

https://kadensungbincho.tistory.com/117

빅데이터는 양이 워낙 많기 때문에 처리 프로세스는 최대한 단순하게 만들어야함.

 

Input -> Splitting -> Mapping -> Shuffling -> Reducing -> Final Result

데이터를 삽입하고 << 파일시스템에서 가져옴

데이터를 나눠 맵에 저장함.

해당 맵들은 셔플링 과정을 통해 정렬함.

똑같은 맵들은 리듀싱에 의해 줄어듬.

마지막 결과물이 한곳에 뭉쳐 출력됨

 

 

맵 : 데이터를 담아두는 자료구조 // 키와 밸류라는 두개의 값을 쌍

리듀스 :  맵을 정리해 나가는(줄여나가는) 방법

키를 기준으로 (같은 키 값을 가진 맵들의) 개수를 센다든지, 같은 키를 기준으로 밸류를 모두 더하거나, 평균을 내거나 하는 것