본문 바로가기

개발/IR_ML_NLP17

Intro to vectorization Intro to Vectorization Concepts - GaTech cse6242 from Josh Patterson 2017. 3. 8.
벡터 공간 모델의 한계 벡터 공간 모델은 다음과 같은 한계를 지닌다. 길이가 긴 문서는 낮은 유사도 값(작은 스칼라곱과 큰 차원)으로 인해 제대로 표현할 수 없다. 검색 키워드는 문서내의 단어와 정확히 일치해야 한다. 부분 일치하는 단어는 거짓 양성 결과를 가져올 수 있다. 의미 유사성 관련 ― 유사한 내용을 담고 있더라도 사용된 단어들 다르다면 그 문서들의 유사성은 매우 낮게 나오며, 이는 거짓 음성 결과에 해당한다. 단어가 나타나는 순서에 관한 정보가 활용되지 못한다. 단어들이 통계적으로 서로 독립적이라는 이론적 가정에 기반하고 있다. 가중치 계산 방식이 직관적이기는 하지만 포멀 한 형식이 아니다. 벡터 공간 모델의 이러한 여러 문제점들은 다양한 방법으로 극복될 수 있다. 여기에는 특이값 분해와 같은 수학적 기법과 워드넷과.. 2017. 3. 8.
페이지랭크[펌] 네이버 검색엔진의 문제점을 처음 지적한 글을 썼던 2년 전부터 이 블로그에 언젠가 한 번 써보고 싶었던 주제가 하나 있었다. 구글의 PageRank 알고리즘을 설명하는 것이다. 원리는 간단하지만 알고리즘을 설명하려고 하면 말이 길어질 것 같고 쉽게 설명할 수 있을까 싶어 블로그에 쓸까 말까 망설였는데, 그냥 한 번 시작해보려고 한다. “Google”이라는 230조원짜리 회사가 처음 시작된 곳이 바로 이 세르게이 브린과 래리 페이지가 쓴 논문(The Anatomy of a Large-Scale Hypertextual Web Search Engine)이었다는 것을 생각하면 한 번 시간을 들여 배워볼 만한 의미가 있지 않을까? 이 논문은 1998년에 쓰여졌으나, 논문에서 소개된 PageRank 알고리즘은 14.. 2017. 2. 22.
TFiDF 의 다양한 변이 출처 : https://en.wikipedia.org/wiki/Tf%E2%80%93idf 위키에 소개된 공식들이다. 각 설명은 링크 참조.난 default 로는 그냥 빨간색을 이용한다. but, 빨간색 칸의 2번째는 공식이 잘못 표시된듯하다. idf 의 lower bound 값이 0 을 피하기 위해서 smoothing 하는 건데,그러려면, log (N/nt) + 1orlog (1 + N/nt) 중 하나를 사용하면 된다. 출처 : http://www.cs.pomona.edu/~dkauchak/classes/f09/cs160-f09/lectures/lecture5-tfidf.pdf 조금 다른 내용들도 있다. 2017. 1. 19.