본문 바로가기

IT-Consultant

웹 크롤러 구현 방법 정의

1. IE 컨트롤을 사용해서 특정 영역에 있는 것을 추출하는 방법

2. 정규식을 이용하는 방법  


1번을 열심히 찾아보았으나, 속도도 느리고 안전성도 문제가 있다. 

URL만 입력하면 자동으로 인식하는 크롤러가 있었으면 좋겠다. 
기존 크롤러처럼 만드는 것은 인력이 많이 들어가기 때문에 자동으로 수집할 수 있는 것을 만들어 보자. 

가령.. 
정규식 리스트를 많이 만들어 놓고 사용자가 입력한 URL을 각각 분석한 후 분석한 데이터를 화면에서 선택할 수 있도록 한다. 이렇게 정규식으로 수집을 제대로 할 수 있다면, 속도도 빠르고 인건비도 많이 줄일 수 있다. 
그래도 안되는 것이 있다면 직접 정규식을 만들지 뭐... 

우선 집에 가서 함 보자.  

'IT-Consultant' 카테고리의 다른 글

10월의 어느 멋진날에  (0) 2009.07.20
좁을수록 절제하라.  (0) 2009.07.17
Internet Explorer Architecture  (0) 2009.07.16
The Java Browser Component  (0) 2009.07.16
취연 이수점 8.6 오픈  (0) 2009.07.10