본문 바로가기
개발/IR_ML_NLP

벡터 공간 모델의 한계

by 로그인시러 2017. 3. 8.

벡터 공간 모델은 다음과 같은 한계를 지닌다.

 

  1. 길이가 긴 문서는 낮은 유사도 값(작은 스칼라곱과 큰 차원)으로 인해 제대로 표현할 수 없다.
  2. 검색 키워드는 문서내의 단어와 정확히 일치해야 한다. 부분 일치하는 단어는 거짓 양성 결과를 가져올 수 있다.
  3. 의미 유사성 관련 ― 유사한 내용을 담고 있더라도 사용된 단어들 다르다면 그 문서들의 유사성은 매우 낮게 나오며, 이는 거짓 음성 결과에 해당한다.
  4. 단어가 나타나는 순서에 관한 정보가 활용되지 못한다.
  5. 단어들이 통계적으로 서로 독립적이라는 이론적 가정에 기반하고 있다.
  6. 가중치 계산 방식이 직관적이기는 하지만 포멀 한 형식이 아니다.

 

벡터 공간 모델의 이러한 여러 문제점들은 다양한 방법으로 극복될 수 있다. 여기에는 특이값 분해와 같은 수학적 기법과 워드넷과 같은 어휘 데이터베이스 활용이 포함된다.

 

 

벡터 공간 모델에 기반하거나 이를 확장한 모델에는 다음과 같은 것들이 있다.

  • 일반화 벡터 공간 모델
  • 잠재 의미 분석
  • 단어 식별
  • 로치오 분류
  • 랜덤 색인

 

벡터 공간 모델은 불리언 모델에 비해 다음과 같은 장점을 지닌다.

  1. 선형 대수에 기반한 단순한 모델
  2. 비(非)이진 단어 가중치
  3. 문서와 질의간의 유사도를 연속적인 값으로 계산 가능
  4. 연관도에 의한 문서 순위 결정 가능
  5. 부분 일치 고려 가능

 

 

 

출처 : https://ko.wikipedia.org/wiki/%EB%B2%A1%ED%84%B0_%EA%B3%B5%EA%B0%84_%EB%AA%A8%EB%8D%B8

'개발 > IR_ML_NLP' 카테고리의 다른 글

Stemming vs Lemmatization  (0) 2017.04.05
Intro to vectorization  (0) 2017.03.08
페이지랭크[펌]  (0) 2017.02.22
TFiDF 의 다양한 변이  (0) 2017.01.19
KMP 알고리즘 [펌-요약]  (0) 2017.01.13

댓글