IT-Consultant 썸네일형 리스트형 There are many weakness for using sqlite by search engine sqlite is very good dbms, but it has many weakness. Firstly it can't provide distribution, also it can store until 2TB. 2TB is very big size, but these days it is small size. World was changed gradually, but we didn't recognized. Today, we found many changes. Anyway, SQLite didn't work at distribution environment. Secondly It didn't provide highlight function. So user have to implement this func.. 더보기 Cisco Social Media Customer Care vs tweetus ㅇ 기본적인기능은 tweetus와 비슷한것 같다. 하지만 실시간으로 관련글들을 보여주는 것이 조금 달라보였다. ㅇ 그리고 무엇보다도 해당 유저에게 맞는 제품을 추천해주는 기능이 있다. 이 기능이 잘 동작하는지 궁금하지만, 요새 아마존이나 기타 서비스에서 추천해주는 것을 보면 도움되는 정보를 추천해줄 것 같다. 아래 youtube 사이트에서 확인할 수 있다. http://www.youtube.com/watch?v=9ERTkPSkEEU 더보기 홈페이지 검색에 맞게 루씬을 패키징해보자. 홈페이지 검색에 필요한 기능을 정의해보자. 1. 기본검색 형태소 분석이냐 n-gram이냐 이것이 문제로다. 우선 n-gram 방식으로 가는것이 좋을듯 하다. 2. 검색어 자동완성 기능 3. 카테고리별 검색기능 4. 결과내 재검색 기능 5. DB 수집기능(JDBC 사용해서 우선 oracle과 mysql에서 작동하도록 개발한다.) 위 5가지 정도만 패키징해서 배포를 해봐야겠다. 개발일정은 올해가 가기전까지. 12월까지 3개월남았는데, 시간은 충분하다고 생각된다. key-point는 xxx.jar 파일 하나면 있으면 개발할 수 있도록 만들 생각이다. 별도 WAS가 필요없고, 실행만 하면 웹에서 색인을 할 수 있고 그 결과도 같이 확인할 수 있도록 한다. 더보기 What is Apache Mahout? 국내서 판매되고 있는 분류기의 대부분 기능을 Mahout에서 가지고 있네요. 게다가 분산처리까지 되니, 정말 괜잖네요. 한글 부분만 손을 보면 바로 판매를 해도 문제가 없을 것 같네요.하지만... 역시 분류 품질은 안무리 좋은 엔진을 도입해도 거기서 거기 일듯.. 이왕이면 오픈소스를 도입해서 제품 도입비용으로 커스터마이징을 확실하게 하는게 좋을 듯 하네요. Mahout currently has Collaborative Filtering User and Item based recommenders K-Means, Fuzzy K-Means clustering Mean Shift clustering Dirichlet process clustering Latent Dirichlet Allocation Singul.. 더보기 검색엔진에서 Group By는 안되나요? 검색 프로젝트를 나가면 Group By에 대한 이야기를 많이 듣는다. 예전에는 검색엔진들이 이런 기능을 제공하지 않다가, 외산 검색엔진에서 이런 기능을 제공하니 따라서 제공을 했습니다. Autonomy K2 엔진에서는 Parametirc Index를 사용해서 Group By를 구현합니다. 아니 Group By보다 더 큰 개념의 제공합니다. 요새 국산 검색엔진에서도 경쟁을 위해서 Group By 기능을 추가했습니다. 하지만 그 작동 방식이 좀 다르더군요. 외산 검색엔진을 미리 Group By의 대상이 되는 Key값을 별도의 색인을 만들어서 검색결과를 재가공합니다. 그래서 속도가 빠르죠. 국산검색엔진에서는 검색결과를 내부적으로 카운트합니다. 그 후 결과를 보여줍니다. 2개 모두 속도는 빠르게 나타납니다. 하.. 더보기 트위터의 대용량 서비스 기술을 분석해 본다. 작년에는 MemCache를 사용했지만 올해 NoSQL로 변경했다고 하네요. 트위터가 어떻게 개발되었을 까? 아래는 타임지에 실린 트위터의 기사이다. 타임지에서 트위터가 우리의 삶을 어떻게 바꾸어 놓을 것인가 에 대한 기사를 실었다. 이처럼 현재 트위터같은 실시간 웹은 온-오프라인을 넘나들면서 새로운 문화를 만들어 가고 있다. 개인적으로도 맥장비에는 Twitterrific 을 설치하고 윈도우의 FireFoX에는 Twitter Extension을 설치하여 사용하고 있다. 분명한 것은 트위터가 폭발적으로 성장하고 있고 앞으로도 성장할 것이라는 것이다. 개인적으로는 무선 환경 특히 , SMS 서비스로 길들여진 실시간 정보 교환 문화가 140개의 문자로 소통하는 트위터를 성장시킨 밑거름이 아닐까 싶다. 지금도 인.. 더보기 검색엔진에서 인기검색어의 비밀 포털 인기검색어 순위는 기계적으로 뽑고 그 다음에 사람이 약간의 작업을 한다고 합니다. (제가 모두 확인해보지 않았으니, 이 부분은 그냥 넘어가죠 ^.^) 그럼 기업용 검색엔진에서 인기검색어는 어떻게 동작할까요? 초기에 기업용 검색엔진 회사에서도 인기검색어 모듈을 만들었으나, 웃지못할 문제 때문에 관리자가 직접 인기검색어를 정해주도록 변경했습니다. 그 웃지못할 문제는 바로 낮은 검색엔진 사용율입니다. 인기검색어가 나올려면 검색을 많이해서 많은 키워드 중에서 몇개를 추려야하는데, 사용자가 많지 않다보니 몇몇의 사용자가 임의로 검색을 많이하면 그 검색어가 의미가 없어도 1순위 올라갑니다. 이러한 문제를 격은 고객들은 100% 관리자가 수정할 수 있도록 반들어 달라고 했습니다. 결국 순위 조작이죠. ㅎㅎ 순위.. 더보기 bulk 파일을 여러 디렉토리에 균등하게 나누고 싶다면! bulk 디렉토리에 있는 bif 파일을 순차대로 특정 디렉토리에 나누어서 넣는다. count=1 for file in /bulk/*.bif do mv $file ./bulk0$count/ count=$(($count+1)) if [ "$count" -eq 5 ] then count=1 fi done 더보기 대용량 데이터를 색인하려면... 먼저 이것부터 해결하세요. 대부분의 검색엔진이 이제는 색인 속도면에서 뒤지지 않는다. 각 회사마다 나름 튜닝을 많이 한것 같다. 하지만 아직도 그리고 미래에도 해결하기 힘든 문제가 있다. 바로 bulk 파일을 DB로 부터 내려하는데, 이 때 무진장 시간이 오래걸린다. 이 경우 DBA의 도움을 받으면 되는데, 똘똘한 DBA가 프로젝트 현장에 많이 없다. 첫번째 느린 이유는 테이블에 특정 조건을 걸고 데이터를 내리는 경우이다. 이 경우 파티셔닝을 통해서 해결할 수 있다. 다행히 그 조건이 지역처럼 딱 맞아 떨어지는 경우만 참 좋다. 기간일 경우 월별로 파티셔닝을 해서 bulk 파일을 내리면 된다. 속도를 비교하자면 최소 3배 이상 날 것이다. 두번째 Join을 하는 경우가 있다. 이 경우 어떠한 방법을 사용하더라도 느리다. 그래서 획.. 더보기 검색엔진은 왜 Join이 안되나요? 고객 : 검색엔진은 왜 Join이 안되나요? 개발자 : 네 이러 이러한 이유때문에 안됩니다. 사실 검색엔진의 내부 구조를 알면 바로 알 수 있습니다. 하지만 내부적인 구조를 모르시는 분이 많죠. 그런데 참 신기한 일이 있었습니다. K모모 기업의 D모모 제품이 Join이 되더군요. Join이 되면 검색 구현하는데 참 편하거든요. 역시나 DB처럼 Join을 걸면 속도가 느려집니다. 어찌되었든 참 신기한 일이었습니다. 더보기 이전 1 ··· 19 20 21 22 23 24 25 ··· 128 다음