본문 바로가기
개발/IR_ML_NLP

Stemming vs Lemmatization

by 로그인시러 2017. 4. 5.

Stemming usually refers to a crude heuristic process that chops off the ends of words in the hope of achieving this goal correctly most of the time, and often includes the removal of derivational affixes.Lemmatization usually refers to doing things properly with the use of a vocabulary and morphological analysis of words, normally aiming to remove inflectional endings only and to return the base or dictionary form of a word, which is known as the lemma



출처 : https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html



Lemmatization이란 문장 속에서 다양한 형태로 활용된(inflected) 단어의 표제어(lemma)를 찾는 일을 뜻한다. 여기서 말하는 표제어란 사전에서 단어의 뜻을 찾을 때 쓰는 기본형이라고 생각하면 된다. 예를 들어, ‘아름다운’이 Lemmatization을 거치면 ‘아름답다’가 된다. Stemming과 비슷해 보이지만 중요한 차이가 있다. Stemming은 단어 그 자체만을 고려하지만 Lemmatization은 그 단어가 문장 속에서 어떤 품사(Part-of-speech)로 쓰였는지까지 판단한다.

영어를 예로 들면, (한국어에서는 적절한 예가 떠오르지 않는다.) ‘flies’가 주어졌을 때, Stemming은 단순히 이 단어의 어근을 내놓는데 비해, Lemmatization은 문장 속에서 ‘files’가 동사 ‘날다’ 와 명사 ‘파리’ 중 어떤 뜻으로 쓰였는지까지 결정할 수 있어야 한다. 그렇기 때문에 Lemmatization을 수행하려면 문장 구조 분석 같은 언어적 이해가 필요하고 따라서 Stemming에 비해 복잡한 처리 과정을 거쳐야 한다.

참고자료: http://en.wikipedia.org/wiki/Lemmatisation

'개발 > IR_ML_NLP' 카테고리의 다른 글

Minimum Edit Distance  (0) 2017.06.13
LCS 알고리즘 [펌]  (0) 2017.06.13
Intro to vectorization  (0) 2017.03.08
벡터 공간 모델의 한계  (0) 2017.03.08
페이지랭크[펌]  (0) 2017.02.22

댓글