복습 역색인의 구축에 필요한 단계 1. 색인대상 문헌을 수집한다. 2. 텍스트를 토큰화한다. 3. 토큰에 언어학적 전처리를 수행한다. 4. 각 용어가 출현한 문헌을 색인한다. 2장의 내용 1. 문헌의 기본 단위를 어떻게 정의할 것인지, 문헌을 구성하는 문자열을 어떻게 판별해야 하는지를 설명 2. 토큰화및 전처리에 관해 몇가지 중요한 언어학적 이슈 검토 -> 어휘집이 결정된다. 3. 빠른질의 처리를 위한 포스팅 목록의 확장형 자료구조를 살펴본다. 4. 구절과 근접 질의 처리에 적합하여 확장형 Boolean 모델과 웹에서 모두 공통적으로 사용되는 종류의 포스팅 자료구조 구축방법을 다룬다. 1. 문헌 식별과 문자열 복호화 - 바이트 열을 선형의 문자열로 변환한다. : ascii , utf-8 처리 - doc,..
정보검색이란? Information Retrieval [정의] 대규모 정보군으로부터 정보 요구를 충족시키는 비구조적인 속성을 지닌 자료를 찾아내는 것 [쉬운 말] 일반적으로 컴퓨터에 있는 많은 데이터로부터 나의 요구사항에 부합되는 자료를 찾아내는 것 1. 정보 검색 문제 예시 Q. Shakespeare 전집에서 Brutus와 Caesar 라는 단어가 포함되고 Calpurnia라는 단어는 포함되지 않는 희곡을 찾고싶다. 어떻게 하는게 가장 좋을까? 방법 1 : 텍스트 정규 표현식 처리 - 컴퓨터가 문헌을 차례로 훑으면서 찾는다. - 유닉스 명령어 "grep"을 입력해서 찾는 방법 - 컴퓨터 성능이 좋으면 이 방법이 매우 효과적이다. - 정규표현식을 사용함으로써 와일드카드 패턴 매칭에 유용하다. - 개인용 ..