본문 바로가기
IT/자연어처리

[자연어처리] 한글 형태소 비교

by IT손흥민 2021. 11. 30.

 

1. 한글 형태소 속도비교 (konlpy 사이트 기준)

출처 https://konlpy.org/ko/latest/morph/#comparison-between-pos-tagging-classes

    로딩시간 : Mecab > Hannanum > Okt > Komoran > Kkma

    실행시간 : Mecab > Okt > Hannanum > Komoran > Kkma

 

 

 

 

1-2. 한글 형태소 속도비교2 (khaiii 추가)

1) 로딩속도

분석기 로딩 시간 ()
Khaiii 0.0016
한나눔 0.0001
꼬꼬마 0.0002
KOMORAN 0.9542
Open Korean Text (이하 OKT) 0.0001
Mecab 0.0004

출처 https://iostream.tistory.com/144 

 

→  Okt = 한나눔 > 꼬꼬마 > Mecab > Khaiii > KOMORAN

 

 

 

 

2) 10만 건 실행속도 (꼬꼬마 제외)

Mecab > khaiii > komoran > Okt > hananum

 

 

 

<결론>

  •  연산 속도
    mecab이 가장 빠르며, 그 다음이 khaiii.
    mecab은 분석능력 또한 우수함.
    (중간에 숫자와 영문이 들어갈 때 형태소 분석이 잘 되지 않는 경우가 있음)

 

  • 분석 품질
    오탈자에 대해 분석 품질이 보장되어야 한다면 KOMORAN 사용 고려

 

  • 띄어쓰기
    Khaiii와 한나눔은 띄어쓰기가 없을 경우 적합하지 않음

댓글