출처 : https://en.wikipedia.org/wiki/Tf%E2%80%93idf
위키에 소개된 공식들이다. 각 설명은 링크 참조.
난 default 로는 그냥 빨간색을 이용한다.
but, 빨간색 칸의 2번째는 공식이 잘못 표시된듯하다.
idf 의 lower bound 값이 0 을 피하기 위해서 smoothing 하는 건데,
그러려면,
log (N/nt) + 1
or
log (1 + N/nt)
중 하나를 사용하면 된다.
출처 : http://www.cs.pomona.edu/~dkauchak/classes/f09/cs160-f09/lectures/lecture5-tfidf.pdf
조금 다른 내용들도 있다.
'개발 > IR_ML_NLP' 카테고리의 다른 글
벡터 공간 모델의 한계 (0) | 2017.03.08 |
---|---|
페이지랭크[펌] (0) | 2017.02.22 |
KMP 알고리즘 [펌-요약] (0) | 2017.01.13 |
f1 score (0) | 2017.01.13 |
RDBMS vs 검색엔진의 차이 (0) | 2017.01.13 |
댓글