본문 바로가기

nutch

Nutch를 한글 검색엔진으로 활용 Lucene으로 검색 사이트를 구축하기엔 시간과 노력이 많이 필요할 것 같아서 이미 어느정도 패키지로 만들어진 Nutch를 활용해서 검색사이트를 만들어보려고 했다. 그러나 내 의도와 반대의 결과가 나왔다. 거의 1주일 동안 Nutch를 살펴본 결과 Nutch로 한글 검색 사이트를 만드는 것보다 차라리 따로 검색 사이트를 만드는 것이 시간과 노력이 덜 든다. 우선적으로 한글 웹페이지 색인하는 것에는 성공했다. 그러나 검색이 문제였다. 검색할때 org.apache.nutch.analysis 패키지의 NutchAnalysis 클래스의 parse()함수에서 너무 복잡하게 처리한다. 그래서 이 부분을 위해서 따로 공부를 더 하거나 내 마음에 맞는 함수를 만들어줘야하는데 이 작업이 생각처럼 쉽지 않다. 따라서 Nu.. 더보기
검색 엔진을 만들어 보자, Nutch 사용자가 간단하게 검색 엔진을 만들 수 있는 오픈소스 도구로 Nutch가 있다. Nutch는 Apache Lucene 인덱싱 API 위에서 동작하는데, Lucene을 편하게 쓸 수 있도록 여러 가지 도구를 추가해서 사용자가 쉽게 검색엔진을 만들 수 있게 해 준다. Nutch에 대한 전반적인 내용 여기 에서 볼 수 있다. 글을 쓰는 지금 안정적인 릴리즈는 0.8.x 이므로, 0.8.x를 어떻게 쓰는지 살펴 보자. 간단하게 한글로 설명하지만, 여기에 있는 내용은 Nutch 0.8.x Tutorial 을 기반으로 하고 있다. Requirements Java 1.4.x, either from Sun or IBM on Linux is preferred. Set NUTCH_JAVA_HOME to the root o.. 더보기