하둡(Hadoop)
-분산처리 가능한 시스템 HDFS와 분산되어 저장된 데이터를 병렬로 처리 가능하게 하는 맴리듀스와 결합한 단어
이 두개로 시작되었지만 확장, 발전 되고 있음
-자바 기반의 오픈 소스 프레임워크
-하둡에서 데이터를 분석 유지 저장관리할 때 필요한 모든 것을 에코시스템이라고 함
-맵리듀스, HDFS말고도 많은 구성요소 포함
-하둡 코어 프로젝트 : HDFS, 맵리듀스
하둡 서브 프로젝트 : 코어를 제외한 나머지 (데이터 마이닝, 수집,분석 등)
-에코시스템 버전은 다른 프로그램들이 결합한 것으로 각각 버전이 업그레이드가 다름. 통합관리 되어있는 배포한 사용
--------------------------------------
작업 흐름도
HDFS → MapReduce → Hbase → Pig, Hive,Mahout,Oozie(데이터분석툴)
--------------------------------------
하둡 코어 프로젝트
HDFS(Haddop Ditributed File System, HDFS)
-분산데이터 저장
-데이터의 양이 많으니 여러 기계에 대용량 파일을 나눠서 저장.
-여러 서버에 중복해서 저장함으로 데이터 안정성 확보, 데이터 유실 방지, 손실시 복구 가능
-한번에 저장한 데이터 수정할 수 없고 읽기만 가능 = 무결성 유지
-이동, 삭제, 복사는 가능
-실시간 데이터와 같은 신속한 작업에서 부적합.
MapReduce
-분산처리
-분산되어 있는 데이터를 분석하려고할 때 분산된 데이터를 굳이 한 곳으로 모아서 분석하면 비효율적. 따라서 특정 데이터를 가지고 있는 데이터 노드만 분석하고 결과만 받는 것이 맵리듀스
-통합분석이 아닌 개별 분석 후 결과를 취합
-Map : 데이터를 key, Value의 형태로 연관성 있는 데이터 분류로 묶는 작업
-Reduce : Map단계의 key를 중심으로 필터링 및 정렬, 중복데이터를 제거하고 원하는 데이터 추출
````````````````````````````````````````
하둡 코어프로젝트 구조
[Master / Slave]
MapReduce: JobTracker / Task Tracker1, 2, 3
HDFS: Name Node / Data Node
--------------------------------------
하둡 서브 프로젝트
-데이터 마이닝, 수집, 분석
-분산데이터를 다루기 위해 만들어진 추가 Project
▶ 하둡과 스파크를 연동해서 자연어처리를 진행하면 되지않을까 생각한다.
'IT > 자연어처리' 카테고리의 다른 글
[Hadoop] MapReduce, Apache Spark (0) | 2021.12.15 |
---|---|
[Elasticsearch] 오픈소스 검색엔진 엘라스틱서치 (0) | 2021.12.02 |
[자연어처리] 한글 형태소 비교 (0) | 2021.11.30 |
댓글