본문 바로가기
개발/IR_ML_NLP

TFiDF 의 다양한 변이

by 로그인시러 2017. 1. 19.


출처 : https://en.wikipedia.org/wiki/Tf%E2%80%93idf


위키에 소개된 공식들이다. 각 설명은 링크 참조.

난 default 로는 그냥 빨간색을 이용한다.


but, 빨간색 칸의 2번째는 공식이 잘못 표시된듯하다.


idf 의 lower bound 값이 0 을 피하기 위해서 smoothing 하는 건데,

그러려면,


log (N/nt) + 1

or

log (1 + N/nt) 


중 하나를 사용하면 된다.






출처 : http://www.cs.pomona.edu/~dkauchak/classes/f09/cs160-f09/lectures/lecture5-tfidf.pdf



조금 다른 내용들도 있다.

'개발 > IR_ML_NLP' 카테고리의 다른 글

벡터 공간 모델의 한계  (0) 2017.03.08
페이지랭크[펌]  (0) 2017.02.22
KMP 알고리즘 [펌-요약]  (0) 2017.01.13
f1 score  (0) 2017.01.13
RDBMS vs 검색엔진의 차이  (0) 2017.01.13

댓글