1. 한글 형태소 속도비교 (konlpy 사이트 기준)
① 로딩시간 : Mecab > Hannanum > Okt > Komoran > Kkma
② 실행시간 : Mecab > Okt > Hannanum > Komoran > Kkma
1-2. 한글 형태소 속도비교2 (khaiii 추가)
1) 로딩속도
분석기 | 로딩 시간 (초) |
Khaiii | 0.0016 |
한나눔 | 0.0001 |
꼬꼬마 | 0.0002 |
KOMORAN | 0.9542 |
Open Korean Text (이하 OKT) | 0.0001 |
Mecab | 0.0004 |
출처 https://iostream.tistory.com/144
→ Okt = 한나눔 > 꼬꼬마 > Mecab > Khaiii > KOMORAN
2) 10만 건 실행속도 (꼬꼬마 제외)
→ Mecab > khaiii > komoran > Okt > hananum
<결론>
- 연산 속도
mecab이 가장 빠르며, 그 다음이 khaiii.
mecab은 분석능력 또한 우수함.
(중간에 숫자와 영문이 들어갈 때 형태소 분석이 잘 되지 않는 경우가 있음)
- 분석 품질
오탈자에 대해 분석 품질이 보장되어야 한다면 KOMORAN 사용 고려
- 띄어쓰기
Khaiii와 한나눔은 띄어쓰기가 없을 경우 적합하지 않음
'IT > 자연어처리' 카테고리의 다른 글
[Hadoop] MapReduce, Apache Spark (0) | 2021.12.15 |
---|---|
[Hadoop] 데이터 저장 및 분석 처리 시스템 (0) | 2021.12.14 |
[Elasticsearch] 오픈소스 검색엔진 엘라스틱서치 (0) | 2021.12.02 |
댓글