본문 바로가기

IT-Consultant

다중파일 vs 복합파일

K2로 색인을 만들면 6만 5천개 단위로 segment를 만들게 된다. 이 숫자는 정해져 있기 때문에 바꿀수는 없다. 
Lucene의 경우 사용자가 지정한 수치에 따라서 segment가 만들어진다. 
K2와 Lucene 모두 데이터가 늘어나면 색인 파일 갯수도 비례해서 늘어나게 된다. 만약 6억건의 데이터라면 어떻게 될까? K2는 1만개의 파일을 열어야지 검색할 수 있다. 파일 오픈하는데 소요되는 비용이 검색비용보다 더 클수도 있다. 
이런 문제를 Lucene에서는 복합파일구조로 해결했다. 논리적으로 기존과 같은 구조이지만 모든 파티션 파일을 하나에 넣는 것이다. 이런 방식이 효율적일 것 같다. 
기본적으로 복합파일 구조이나 만약 다중파일구조를 쓰고 싶다면 소스코드에 setUseCompoundFile(false)를 추가하면 된다.