hadoop2 [Hadoop] MapReduce, Apache Spark MapReduce 맵리듀스 과정은 다음과 같다. 1. 문자열 데이터를 라인별 나눈다 2. 라입렬로 문자열 입력 (key, value) 3. 같은 key를 가지는 데이터끼리 분류 4. key별로 빈도수를 합산해서 출력 5. 저장 이러한 맵리듀스의 단점이 있었다. MapReduce 단점 맵리듀스는 데이터를 분산하여 연산하고 다시 합치는 기술이기에 여러번의 디스크 입출력이 발생되며 성능이 저하된다. DBMS와 비교하면 낮은 성능과 불편한 스키마 질의가 단점이다. 이러한 단점을 보완해서 나온 Apache Spark도 있다. Apache Spark 맵리듀스의 입출력 방식을 인메모리로 바꾸고 맵리듀스 보다는 빠른 속도를 가진다. 머신러닝(MLlib)도 지원하고 있다. 하지만 스파크 같은 경우는 분산파일 시스템을 가.. 2021. 12. 15. [Hadoop] 데이터 저장 및 분석 처리 시스템 하둡(Hadoop) -분산처리 가능한 시스템 HDFS와 분산되어 저장된 데이터를 병렬로 처리 가능하게 하는 맴리듀스와 결합한 단어 이 두개로 시작되었지만 확장, 발전 되고 있음 -자바 기반의 오픈 소스 프레임워크 -하둡에서 데이터를 분석 유지 저장관리할 때 필요한 모든 것을 에코시스템이라고 함 -맵리듀스, HDFS말고도 많은 구성요소 포함 -하둡 코어 프로젝트 : HDFS, 맵리듀스 하둡 서브 프로젝트 : 코어를 제외한 나머지 (데이터 마이닝, 수집,분석 등) -에코시스템 버전은 다른 프로그램들이 결합한 것으로 각각 버전이 업그레이드가 다름. 통합관리 되어있는 배포한 사용 -------------------------------------- 작업 흐름도 HDFS → MapReduce → Hbase → P.. 2021. 12. 14. 이전 1 다음