평소에 궁금하던점을 재밌게 잘 표현한 글이다.
글쓴분이 나름 인문학적 소양이 있는 듯하다.
정리 및 내 생각을 추가하면,
RDBMS 가 MODERN, HARD, 기업적, 수직적, 딱딱함 이라는 표현이 어울린다면,
검색엔진은 POST-MORDERN, SOFT, INTERNET, 수평적, 유연함 이라는 표현이 어울리는 거 같다.
쉽게 말해, 테이블로 딱딱하게 쪼개서 저장할 수 있는 데이터들은 DMBS 로 다루고,
텍스트 같이 소위 비정형데이터들은 검색엔진이 다룬다.
질의방식도 검색엔진은 자연스러운 자연어 질의가 가능하다면
RDBMS 는 딱딱한 쿼리로 던져야만 한다.
또, 색인과정은 '색인어 추출' 에 의해 유연하게 색인할 수 있다면,
RDBMS 는 마이그레이션이라는 과정을 통해야한다.
또한 검색결과도 다양한 유사도 계산방식(ranking 알고리즘) 에 의해 다양하게 달라질 수 있다면, RDBMS 는 한계가 있다.
-------------------------------------------------------------------------------
출처 : http://www.joinc.co.kr/w/Site/Development/Forum/manager/DbmsSearch
RDBMS는 그냥 감으로 개발하는데 무리없이만 하는 정도이고 검색(:12)쪽도 그냥저냥 하는 정도이지만 이들간의 차이점에 대해서 좀 생각을 해보고자 한다.
이둘의 차이점에 대해서 생각을 하게된 이유는 데이터를 바라보는 시각의 차이를 느꼈기 때문이다. 오랫동안 DB를 다루어왔던 사람들과 검색엔진을 다루어왔던 사람들과의 명백한 시각의 차이 같은 거 말이다.
개인적으로 익숙하다고 생각되는 툴에 대한 선입견이 작용했기 때문이라고 단순히 생각해볼 수도 있겠지만, 곰곰히 (쓸데없는)생각을 해본 결과 문화적 측면에서 이들 시각의 차이에 대해서 설명을 할 수도 있지 않을까라는 생각에 다다르게 되었다. 그래서 지극히 개인적이고도 상대적이며 결코 절대적이지 않은 내 생각을 정리해 보려고 한다.
모던적인 RDBMS
모던문화의 특징은 대중성, 획일성, 매끈한 표면, 몰개성, 구조화로 설명할 수 있다. 모던문화를 가장 잘 보여주는게 현대의 거대도시들이다. 이들 거대도시들은 상업,주거,공업구역으로 구획이 되어 있으며 바둑판 혹은 방사형으로 뻗은 도로들이 이 구획을 가르고 있다. 거의 대부분의 건물들은 직사각형의 매끈한 외모를 가지는 전혀 아무런 문화적 취향이나 개성을 드러내지 않는 모습을 보여주고 있다.
RDBMS에서는 이러한 몰개성, 획일화, 매끈한 표면을 가지는 모던적인 특징을 그대로 보여준다. RDBMS에서는 저장하고자 하는 데이터를 가능한 쪼개고 쪼개고 쪼개어서 원자화를 시키며, 원자화된 데이터의 특징을 정확히 반영할 수 있는 테이블의 특정 필드에 집어 넣는다.
테이블은 매끈한 표면의 고층건물, 필드는 체계적으로 구획되어 있는 각각의 층이라고 할 수 있을 것이다. 테이블들이 모여서 만들게 되는 데이터베이스는 모던적인 도시의 구조화된 은행가 상업가 주택가들의 그러한 모습을 그대로 보여준다.
모더니즘은 모든걸 분류해서 구조화 해야 직성이 풀린다. 서로 다른 문화가 섞여있는걸 용납하지 않는다. 무슨 무슨 거리를 만들어서 구역을 정하고 거기에 몰아넣어서 관리를 해야 마음이 놓인다. 이도 저도 안되면, 박물관을 만들어서 관리를 한다.
몰개성화, 원자화, 획일화, 체계화, 동선을 최소화한 조직적 구성. 모던문화를 바탕으로 한 산업사회에서 RDBMS가 만들어 진것은 필연이라고 할 수 있을 것이다.
자연과 문화를 정복할 수 있는 대상으로 보고 자신의 틀에 끼워맞출려고 하는 모던적인 시각이 RDBMS에 녹아 있다.
attachment:titancitysmall.jpg
포스트 모던적인 검색엔진
포스트 모던의 전형적인 모습은 아직까지는 영화에서나 찾아볼 수 있다. 영화 브레이드러너(:12)를 보자. 브레이드 러너인 데커드가 살아가는 도시는 전혀 모던적이지 않다. 획일화 되지도 않고, 매끈하지도 않으며, 조직적이고 효율적으로 만들어져 있지도 않다. 이집트 풍의 건물, 그리스 로마 시대의 건축양식, 일본우동, 챠이나 타운, 첨단을 달리는 마천루와 하늘을 날아다니는 탈것 낙타가 돌아다니는 지저분한 시장, 과거와 현재와 미래, 동양과 서양문화, 시대와 국적을 알 수 없는 문화가 영역의 구분 없이 서로 얽혀 있다.
모던한 시대의 구조주의에 반발작용으로 시작된 포스트모더니즘은 일률적, 획일적, 대중적 모습을 지양하고 대신 개성, 자율, 다양함을 지향한다. 문화와 시대의 벽을 무너트린다고나 할까..
검색엔진은 이러한 포스트모던적인 입장에서 데이터를 바라본다. 데이터를 세밀하게 분석해서 원자화 하고, 다시 이를 구조화 하는 등의 작업을 하지 않는다. 데이터는 그냥 데이터 그대로 둔다. 데이터가 웹문서라면, 어떤 내용을 가지고 있건간에 상관을 하지 않는다. 다만 데이터를 은유할 수 있는 단어들의 모음을 만들고, 여기에 빠르게 접근할 수 있는 인터페이스를 제공할 뿐이다.
보편성
인터넷은 보편성을 추구한다. 보편적이다는 것은 획일적,전체주의적이지 않다는 걸 의미한다. 인터넷에 중심이 있던가 ? 혹은 인터넷을 이끄는 어떤 획일적인 힘 혹은 구조가 있던가 ?
DBMS는 획일적이며 전체주의적이고 중앙집중적이다. 보편적인 인터넷세계의 정보를 검색함에 있어서 DBMS는 애초부터 사상이 맞지 않았는지도 모른다. 그러하기 때문에 인터넷이 보편화 되면서 검색엔진 또한 그 대안으로써 발전한 것이라 생각된다.
보편적이지 않다는 것은 관리비용이 들어가게 됨을 의미한다. 구조화된 도시는 높은 엔트로피를 가지며 높은 엔트로피를 유지하는데에는 필연적으로 많은 에너지가 소비된다. 도시가 넓어지면 넓어질 수록 구조에 들어 맞지 않는 더 많은 예외사항들이 생기고 이 예외사항들을 관리하기 위한 더 많은 관리비용이 추가된다.
물론 세계는 인터넷만 있는게 아니다. 기업전산망이라는 것도 있다. 기업전산망은 획일적이며, 중앙집중적이며, 하향식이며 보편화된 세계가 아니다. 이러한 곳에서는 여전히 DBMS가 주요하게 사용될 것이다.
그러나 인터넷세계의 정보를 처리해야 한다면, DBMS보다는 검색엔진이 더 주요할 것이다.
데이터 마이그레이션
검색엔진을 데이터를 있는 그대로 보기 때문에 마이그레이션이라는 용어는 그다지 사용되지 않는다. 정보를 새로운 시각으로 봐야할 필요가 생기면, 색인을 한번 더 돌리면 된다. 색인을 만들기 위한 CPU자원과 얼마간의 시간이 소비되는 것 외에는 마이그레이션 비용이 소비되지 않는다. 색인비용보다는 정보를 어떤시각으로 볼것인지를 결정하는데 더 많은 시간을 들인다.
DBMS는 마이그레이션 자체가 하나의 거대한 프로젝트가 되는 경우가 많다. 때때로 이게 마이그레이션 작업인지 아니면 데이터베이스를 통째로 새로 만드는 것인지 헷갈리는 경우도 생긴다.
커뮤니케이션 방식의 차이
만약 검색시스템을 구축하려고 하는 와중에 RDBMS와 검색엔진의 선택에 대한 입장의 차이가 생긴다면, 이것은 단지 툴에 익숙한지가 아닌 세계를 바라보는 시각의 차이 때문 일 것이다. 내가 관찰한 결과 이 두 그룹의 사람들은 정보를 바라보는 입장, 일을처리하는 과정, 커뮤니케이션의 방법에서 상당한 차이를 보인다.
예컨데, 검색쪽일을 하는 사람들의 커뮤니케이션을 보면 그게 대화이든지 간에 문서이든지 정형화 되어 있지 않고 자신의 개성이 나타나는 경우가 많은것 같다. 반면 DB를 선호하는 사람들은 문서의 구조, 형식 - 보통 표로 표현된다 - 사용되는 텍스트의 선택에 좀더 민감한 경우가 많은 것 같다. 흔히 하는 말로 한눈에 쏙들어와서 이해되는 문서를 좋아한다고나 할까.
흔히 툴은 가치중립적이라고 하지만 그렇지 않은 것같다. 툴은 자신의 가치가 반영되며, 또한 자신의 가치를 바꾸기도 한다.
'개발 > IR_ML_NLP' 카테고리의 다른 글
KMP 알고리즘 [펌-요약] (0) | 2017.01.13 |
---|---|
f1 score (0) | 2017.01.13 |
spyder 사용법 (0) | 2017.01.08 |
검색개론 (0) | 2016.12.13 |
elasticsearch vs solr (0) | 2016.12.02 |
댓글