카테고리 없음
오늘 면접에서 털린 맵리듀스...허
흰색남자
2022. 9. 19. 21:42
https://kadensungbincho.tistory.com/117
빅데이터는 양이 워낙 많기 때문에 처리 프로세스는 최대한 단순하게 만들어야함.
Input -> Splitting -> Mapping -> Shuffling -> Reducing -> Final Result
데이터를 삽입하고 << 파일시스템에서 가져옴
데이터를 나눠 맵에 저장함.
해당 맵들은 셔플링 과정을 통해 정렬함.
똑같은 맵들은 리듀싱에 의해 줄어듬.
마지막 결과물이 한곳에 뭉쳐 출력됨
맵 : 데이터를 담아두는 자료구조 // 키와 밸류라는 두개의 값을 쌍
리듀스 : 맵을 정리해 나가는(줄여나가는) 방법
키를 기준으로 (같은 키 값을 가진 맵들의) 개수를 센다든지, 같은 키를 기준으로 밸류를 모두 더하거나, 평균을 내거나 하는 것