본문 바로가기

IT-Consultant

Nutch를 한글 검색엔진으로 활용

Lucene으로 검색 사이트를 구축하기엔 시간과 노력이 많이 필요할 것 같아서 이미 어느정도 패키지로 만들어진 Nutch를 활용해서 검색사이트를 만들어보려고 했다. 
그러나 내 의도와 반대의 결과가 나왔다. 

거의 1주일 동안 Nutch를 살펴본 결과 Nutch로 한글 검색 사이트를 만드는 것보다 차라리 따로 검색 사이트를 만드는 것이 시간과 노력이 덜 든다. 
우선적으로 한글 웹페이지 색인하는 것에는 성공했다. 그러나 검색이 문제였다. 검색할때 org.apache.nutch.analysis 패키지의 NutchAnalysis 클래스의 parse()함수에서 너무 복잡하게 처리한다. 
그래서 이 부분을 위해서 따로 공부를 더 하거나 내 마음에 맞는 함수를 만들어줘야하는데 이 작업이 생각처럼 쉽지 않다. 

따라서 Nutch를 이용해서 한글 검색엔진으로 활용하기엔 부족한게 많다. 

결국 Lucene core부터 다시 시작해야 겠다.