fnm, fdx, fdt 이 세개 파일엔 특별한 알고리즘이 없다.
필드를 저장할때 제일 앞에 필드 갯수 그리고 그 다음엔 필드 길이 필드 데이터 순으로 저장한다.
따라서 별도로 공부할 필요가 없을 것 같다.
tis 파일에는 term text가 저장되고, frequence와 position정보의 pointer가 저장된다.
frq 파일에는 frequence 정보만 저장된다.
prx 파일에는 position정보만 저장된다.
뭐 어려운건 아닌데..
예를 들면 Title 필드에 "test test" 데이터를 색인할때 fnm,fdx,fdt 파일에 Title 필드에 대한 정보가 들어가고
tis 파일에 term에 대한 정보가 들어간다. 기본적으로 tis에도 frequence 정보가 들어가는데 16이상일 경우 offset값이 따로 저장된다. 내가 보기엔 속도때문에 frequence정보를 따로 저장도 하면서 tis에 같이 넣는 것같다. 그 임계치가 16정도면 적당한 것 같다.
저장구조는 특별한게 없는것 같다.
그런데 이렇게 나열하는 형식으로 저장하게 되면 나중에 검색은 어떻게 하는지 궁금하다. 별도 인덱스가 있을까?
필드를 저장할때 제일 앞에 필드 갯수 그리고 그 다음엔 필드 길이 필드 데이터 순으로 저장한다.
따라서 별도로 공부할 필요가 없을 것 같다.
tis 파일에는 term text가 저장되고, frequence와 position정보의 pointer가 저장된다.
frq 파일에는 frequence 정보만 저장된다.
prx 파일에는 position정보만 저장된다.
뭐 어려운건 아닌데..
예를 들면 Title 필드에 "test test" 데이터를 색인할때 fnm,fdx,fdt 파일에 Title 필드에 대한 정보가 들어가고
tis 파일에 term에 대한 정보가 들어간다. 기본적으로 tis에도 frequence 정보가 들어가는데 16이상일 경우 offset값이 따로 저장된다. 내가 보기엔 속도때문에 frequence정보를 따로 저장도 하면서 tis에 같이 넣는 것같다. 그 임계치가 16정도면 적당한 것 같다.
저장구조는 특별한게 없는것 같다.
그런데 이렇게 나열하는 형식으로 저장하게 되면 나중에 검색은 어떻게 하는지 궁금하다. 별도 인덱스가 있을까?
'IT-Consultant' 카테고리의 다른 글
Lucene에서 TF, IDF 구하는 소스 (0) | 2007.06.11 |
---|---|
Lucene에서 TF, IDF 구하는 소스 (0) | 2007.06.11 |
Title 필드에 test란 데이터를 색인시 6개 파일에 어떻게 저장될까? (0) | 2007.06.10 |
루씬 색인 파일 종류 (0) | 2007.06.10 |
루씬 색인 파일 종류 (0) | 2007.06.10 |