먼저 내가 어디까지 만들지 그 범위를 정하자. 작년에 형태소 분석기 만들려고 했는데 관련된 책보다가 시간 다 갔다.
현재 형태소 분석기를 만드는 이유는 루씬 검색엔진에 붙이기 위함이다. Parser, Analyzer쪽 소스를 보니 어렵게 보이지는 않았다. 문제는 형태소 분석기를 만드는 것이다.
크게 사전방식과 통계적 방식이 있는데 통계적 방식은 준비해야할 것이 너무 많기 때문에 사전방식으로 만들생각이다. 사전방식이라면 돈주고 사야하겠지만 전 회사에서 사용하던 사전을 사용하자 그 사전에 각 품사별로 잘 정리가 되어 있으니 잘 추려서 사용하면 되겠다. 나중에 이 일이 잘되면 사전 튜닝을 하겠지만 현재로썬 사전튜닝에 시간을 들이고 싶지 않다.
그럼 가장 단시간안에 만들려면 어떻게 해야할까? 역시 동영상 강좌다. 비트캠퍼스에 형태소분석기관련 동영상강좌가 올라온 것이 있다. 전체를 다 볼필요는 없고 구조와 구현부분만 보면 된다. 그럼 여기까지 1주일이면 충분하다.
그 담엔 루씬의 Parser와 Analyzer를 체계적으로 분석해야 한다. 다행히 IR Seminar에서 검색엔진을 전체적으로 다뤄주기 때문에 검색엔진 자체에 대한 공부를 별도로 하지 않아도 된다. 여기까지 1주일정도면 된다.
자 그럼 처녀버전을 만들어볼까? 4월이 가기전에 간단한 형태로 형태소 분석기를 만들수 있다.
그래도 예전에 버클리DB를 구현해봐서 다행이다. 자체 파일구조를 만들기엔 아직 내 실력이 역부족이고 만들수 있다고해도 성능을 못따라 갈것 같다. 그럼 다 준비가 된 것 같은데 열심히 해보자구.