벡터 공간 모델은 다음과 같은 한계를 지닌다.
- 길이가 긴 문서는 낮은 유사도 값(작은 스칼라곱과 큰 차원)으로 인해 제대로 표현할 수 없다.
- 검색 키워드는 문서내의 단어와 정확히 일치해야 한다. 부분 일치하는 단어는 거짓 양성 결과를 가져올 수 있다.
- 의미 유사성 관련 ― 유사한 내용을 담고 있더라도 사용된 단어들 다르다면 그 문서들의 유사성은 매우 낮게 나오며, 이는 거짓 음성 결과에 해당한다.
- 단어가 나타나는 순서에 관한 정보가 활용되지 못한다.
- 단어들이 통계적으로 서로 독립적이라는 이론적 가정에 기반하고 있다.
- 가중치 계산 방식이 직관적이기는 하지만 포멀 한 형식이 아니다.
벡터 공간 모델의 이러한 여러 문제점들은 다양한 방법으로 극복될 수 있다. 여기에는 특이값 분해와 같은 수학적 기법과 워드넷과 같은 어휘 데이터베이스 활용이 포함된다.
벡터 공간 모델에 기반하거나 이를 확장한 모델에는 다음과 같은 것들이 있다.
- 일반화 벡터 공간 모델
- 잠재 의미 분석
- 단어 식별
- 로치오 분류
- 랜덤 색인
벡터 공간 모델은 불리언 모델에 비해 다음과 같은 장점을 지닌다.
- 선형 대수에 기반한 단순한 모델
- 비(非)이진 단어 가중치
- 문서와 질의간의 유사도를 연속적인 값으로 계산 가능
- 연관도에 의한 문서 순위 결정 가능
- 부분 일치 고려 가능
출처 : https://ko.wikipedia.org/wiki/%EB%B2%A1%ED%84%B0_%EA%B3%B5%EA%B0%84_%EB%AA%A8%EB%8D%B8
'개발 > IR_ML_NLP' 카테고리의 다른 글
Stemming vs Lemmatization (0) | 2017.04.05 |
---|---|
Intro to vectorization (0) | 2017.03.08 |
페이지랭크[펌] (0) | 2017.02.22 |
TFiDF 의 다양한 변이 (0) | 2017.01.19 |
KMP 알고리즘 [펌-요약] (0) | 2017.01.13 |
댓글