본문 바로가기
IT/자연어처리

[Hadoop] 데이터 저장 및 분석 처리 시스템

by IT손흥민 2021. 12. 14.

하둡(Hadoop)

-분산처리 가능한 시스템 HDFS와 분산되어 저장된 데이터를 병렬로 처리 가능하게 하는 맴리듀스와 결합한 단어
 이 두개로 시작되었지만 확장, 발전 되고 있음
-자바 기반의 오픈 소스 프레임워크

-하둡에서 데이터를 분석 유지 저장관리할 때 필요한 모든 것을 에코시스템이라고 함
-맵리듀스, HDFS말고도 많은 구성요소 포함
-하둡 코어 프로젝트 : HDFS, 맵리듀스
 하둡 서브 프로젝트 : 코어를 제외한 나머지 (데이터 마이닝, 수집,분석 등)
-에코시스템 버전은 다른 프로그램들이 결합한 것으로 각각 버전이 업그레이드가 다름. 통합관리 되어있는 배포한 사용

--------------------------------------
작업 흐름도

HDFS → MapReduce → Hbase → Pig, Hive,Mahout,Oozie(데이터분석툴)

--------------------------------------
하둡 코어 프로젝트

HDFS(Haddop Ditributed File System, HDFS)
-분산데이터 저장
-데이터의 양이 많으니 여러 기계에 대용량 파일을 나눠서 저장. 
-여러 서버에 중복해서 저장함으로 데이터 안정성 확보, 데이터 유실 방지, 손실시 복구 가능
-한번에 저장한 데이터 수정할 수 없고 읽기만 가능 = 무결성 유지
-이동, 삭제, 복사는 가능
-실시간 데이터와 같은 신속한 작업에서 부적합. 


MapReduce
-분산처리
-분산되어 있는 데이터를 분석하려고할 때 분산된 데이터를 굳이 한 곳으로 모아서 분석하면 비효율적. 따라서 특정 데이터를 가지고 있는 데이터 노드만 분석하고 결과만 받는 것이 맵리듀스
-통합분석이 아닌 개별 분석 후 결과를 취합
-Map : 데이터를 key, Value의 형태로 연관성 있는 데이터 분류로 묶는 작업
-Reduce : Map단계의 key를 중심으로 필터링 및 정렬, 중복데이터를 제거하고 원하는 데이터 추출

````````````````````````````````````````
하둡 코어프로젝트 구조
[Master / Slave]
MapReduce:  JobTracker / Task Tracker1, 2, 3 
HDFS:  Name Node / Data Node 
 
--------------------------------------

하둡 서브 프로젝트
-데이터 마이닝, 수집, 분석
-분산데이터를 다루기 위해 만들어진 추가 Project

 

 

▶ 하둡과 스파크를 연동해서 자연어처리를 진행하면 되지않을까 생각한다.

댓글