[NLP] 토크나이저(Tokenizer) 비교 Mecab, Okt, Komoran, Kannanum, Kkma
·
Data Science/NLP
NLP 태스크의 전처리 과정에서, 토큰화(tokenization), 정제(cleaning), 정규화(normalization)와 같은 작업이 수행된다. 토큰화란? (Tokenization) 토큰화는 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업이다.토큰의 단위는 상황에 따라 다르지만, 보통 의미있는 단위를 토큰으로 정의한다.ex) 단어, 형태소 한국어 토큰화 영어는 New York같은 합성어나 There's와 같은 줄임말에 대한 예외처리만 한다면, 띄어쓰기를 기준으로 토큰화를 수행해도 의미를 가지고 있는 단위로 볼 수 있는 단어 토큰화가 잘 작동한다.-> 영어는 대부분 단어 단위로 띄어쓰기가 이루어지기 때문이다. 하지만 한국어에서는 띄어쓰기를 기준으로 토큰화를 하면 제대..
[NLP] 토큰화 및 형태소 분석, Mecab 윈도우에서 사용하기(사용자 사전 추가, 우선순위 변경)
·
Data Science/NLP
토큰화란? 형태소 분석이란? 자연어처리 과정 중에는 토큰화(Tokenize) 과정이 있다.한국어 토큰화를 진행할 때에는 형태소(morpheme)란 기준으로 토큰화 하기 때문에 '형태소 분석'이라고도 불린다. 한국어 토크나이저 및 형태소 분석기는 Mecab, Okt, Komoran, Kkma, Hannanum 등 여러가지가 있다.그 중 오늘은 Mecab을 사용해서 토큰화 및 형태소분석을 해보려고 한다. Mecab Mecab은 원래 일본어 형태소 분석기로 개발되었다. 일본어와 문법 체계가 비슷한 한국어를 위해 '은전한닢'이라는 한국어로 포팅하는 프로젝트를 통해 한국어 자연어 처리에 크게 기여한 형태소 분석기라고 한다. 위에서 말한 여러 형태소 분석기들이 있지만, 일반적으로 그 중 가장 뛰어난 성능을 보인다고..
HaSeon9
'tokenizer' 태그의 글 목록