IT/자연어처리4 [Hadoop] MapReduce, Apache Spark MapReduce 맵리듀스 과정은 다음과 같다. 1. 문자열 데이터를 라인별 나눈다 2. 라입렬로 문자열 입력 (key, value) 3. 같은 key를 가지는 데이터끼리 분류 4. key별로 빈도수를 합산해서 출력 5. 저장 이러한 맵리듀스의 단점이 있었다. MapReduce 단점 맵리듀스는 데이터를 분산하여 연산하고 다시 합치는 기술이기에 여러번의 디스크 입출력이 발생되며 성능이 저하된다. DBMS와 비교하면 낮은 성능과 불편한 스키마 질의가 단점이다. 이러한 단점을 보완해서 나온 Apache Spark도 있다. Apache Spark 맵리듀스의 입출력 방식을 인메모리로 바꾸고 맵리듀스 보다는 빠른 속도를 가진다. 머신러닝(MLlib)도 지원하고 있다. 하지만 스파크 같은 경우는 분산파일 시스템을 가.. 2021. 12. 15. [Hadoop] 데이터 저장 및 분석 처리 시스템 하둡(Hadoop) -분산처리 가능한 시스템 HDFS와 분산되어 저장된 데이터를 병렬로 처리 가능하게 하는 맴리듀스와 결합한 단어 이 두개로 시작되었지만 확장, 발전 되고 있음 -자바 기반의 오픈 소스 프레임워크 -하둡에서 데이터를 분석 유지 저장관리할 때 필요한 모든 것을 에코시스템이라고 함 -맵리듀스, HDFS말고도 많은 구성요소 포함 -하둡 코어 프로젝트 : HDFS, 맵리듀스 하둡 서브 프로젝트 : 코어를 제외한 나머지 (데이터 마이닝, 수집,분석 등) -에코시스템 버전은 다른 프로그램들이 결합한 것으로 각각 버전이 업그레이드가 다름. 통합관리 되어있는 배포한 사용 -------------------------------------- 작업 흐름도 HDFS → MapReduce → Hbase → P.. 2021. 12. 14. [Elasticsearch] 오픈소스 검색엔진 엘라스틱서치 엘라스틱서치 설치 및 사용법 아래 링크를 통해서 확인하시면 됩니다. [ELK] 엘라스틱서치 다운로드 및 사용법 (1) 안녕하세요. 엘라스틱 검색엔진을 다운로드 및 사용 방법에 대해 설명해드리려고 합니다. ELK란? Elasticsearch + Logstash + Kibana의 앞글자를 따서 ELK라고 부릅니다 . 각각의 기능을 크게 말씀드리자면 a-thinker.tistory.com 1. 오픈소스란? 누구나 자유롭게 코드나 그 코드를 통해 구현된 프로그램을 이용할 수 있음 ex) selenium, beautifulSoup 2. 검색엔진이란? 웹에서 정보를 수집해 검색 결과를 제공하는 프로그램. 결과로 제공되는 데이터 특성에 따라 구현 형태가 달라짐 데이터베이서에서 불가능한 비정형 데이터를 색인하고 검색할.. 2021. 12. 2. [자연어처리] 한글 형태소 비교 1. 한글 형태소 속도비교 (konlpy 사이트 기준) ① 로딩시간 : Mecab > Hannanum > Okt > Komoran > Kkma ② 실행시간 : Mecab > Okt > Hannanum > Komoran > Kkma 1-2. 한글 형태소 속도비교2 (khaiii 추가) 1) 로딩속도 분석기 로딩 시간 (초) Khaiii 0.0016 한나눔 0.0001 꼬꼬마 0.0002 KOMORAN 0.9542 Open Korean Text (이하 OKT) 0.0001 Mecab 0.0004 출처 https://iostream.tistory.com/144 → Okt = 한나눔 > 꼬꼬마 > Mecab > Khaiii > KOMORAN 2) 10만 건 실행속도 (꼬꼬마 제외) → Mecab > khaiii.. 2021. 11. 30. 이전 1 다음