본문 바로가기

IT-Consultant

예측 분석 BI 필수 기술 ‘텍스트 마이닝’

수만 건의 '고객의 소리' Web 게시판에서 자동으로 특정 불만을 지닌 고객의 게시물을 찾아내는 등 과거에는 생각할 수 없었던 기술이 텍스트 마이닝이라는 이름으로 주목 받고 있다. 예측 분석으로 진화하고 있는 BI 플랫폼의 필수 기술인 텍스트 마이닝을 살펴본다. 
 
글·SAS코리아 PSD 부문 신용원 이사
 
 
오늘날 기업 정보는 다양한 채널을 통해 수집이 가능하며, 그 형태 또한 매우 다양하다. 이러한 다양한 정보를 비즈니스 인텔리전스(BI)화 하기 위해서는 이전에는 일정한 형식과 조건을 만족해야 하는 구조화된 데이터의 형태로 이루어져야만 했다. 전혀 다른 형태의 데이터를 구조화된 데이터로 처리하는 데 따르는 어려움은 많은 시간과 비용을 필요로 한다. 하지만 실제로 지속적인 혁신 및 속도의 이점을 깨달은 기업 등의 조직들이 더욱 더 증가함에 그 노력과 욕구는 지속되고 있다. 이렇게 수집된 데이터의 증가는 기업 또는 조직의 의사 결정을 내리는 데 아주 중요한 기반이 될 수 있다. 기업이 고품질 분석을 위해 더 많은 노력을 기울인다면, 비즈니스 전략 개발에 필요한 의미 있는 아이디어들이 샘솟듯 솟아날 것이다.
 
 
텍스트 마이닝의 작동 원리
 
 
텍스트 마이닝은 구조화되지 않은 데이터, 즉 일상에 나타날 수 있는 문장 또는 단어들의 조합들을 처리해 구조화된 데이터로 생성한다. 이를 통해 의미 있는 현상 또는 패턴을 발견하기 위해 활용된다. 따라서 텍스트 마이닝은 시간과 비용을 줄이면서 비 구조화된 데이터로부터 비즈니스 현상을 더 빨리 파악하고 대응하도록 해 업체간의 경쟁에서 훨씬 앞서 나갈 수 있도록 도와준다.
 
아메리칸 혼다(American Honda), 호주 세무서(Australian Taxation Office) 및 HP는 미래를 먼저 내다보고 첨단 텍스트 마이닝 기술의 가치를 인식한 여러 조직 중 일부다.
 
데이터 스토리지 시스템의 효율성 증대 및 메모리 가격 하락에 힘입어 대부분의 조직들은 엄청난 양의 데이터를 확보했다. 그렇지만 안타깝게 처리 속도 및 분석 기법의 진보에도 불구하고 이러한 데이터는 발견되지 않은 거대한 미지의 대륙처럼 대부분 사장되고 있다. 데이터베이스 중 일부는 고객들의 욕구, 의견 및 관심을 반영한 내용을 담고 있다. 게다가 원유나 금 같은 천연 자원과는 달리, 묻혀진 정보는 추출도 비교적 용이하다.
 
이렇듯 사장된 정보는 다양한 언어 및 문장의 구조로 되어 있으며 단어 또는 텍스트의 형태로 저장되어 있다. 텍스트 마이닝 기술이 개발되기 전에는 이 같은 정보에 숨겨진 패턴이나 경향을 파악하기 위해 전문적인 교육을 받은 언어학자들이 투입됐다. 그들은 장시간 모든 내용을 파악하고 분류해야만 했었다. 즉, 이러한 정보를 사용 가능한 비즈니스 인텔리전스로 전환하는 작업은 매우 어려웠고 때로는 불가능한 경우도 많이 있었다.
 
 
고객 정보에 대한 폭 넓은 이해
 
 
오늘날, 광범위한 고객 관계 관리팀을 보유한 대형 제조업체를 비롯해 다국적 조직들은 e-mail·고객 여론조사·품질 보증 청구 내역 양식·통화 보고서·기술 보고서 및 대리점 피드백 등 셀 수 없이 많은 텍스트 홍수 속에 허덕이고 있다. 가령, HP의 콜 센터 데이터베이스에만 30만 건의 기록이 보관되어 있으며, 그 양 역시 하루가 다르게 증가하는 추세다.
 
과거에는 이렇게 유입되는 데이터를 의미 있는 데이터로 바꿀 수 없었다. 데이터 양을 고려할 때 누군가가 각각의 데이터 기록을 읽고 수동으로 자유 형식으로 된 텍스트의 설명 문자열을 구조화된 필드로 전환했다. 이를 통해 데이터 마이닝 및 통계적 분석 프로젝트를 진행한다는 것은 불가능했다. 현실적으로 어느 누구도 그 일을 할 수가 없었던 것이 사실인 것이다.
 
그러나 지금은 텍스트 마이닝을 통해 대규모 문서에 담긴 주제 또는 개념과 패턴을 파악하여 비지니스에 활용할 수 있게 되었다. 텍스트 마이닝 알고리즘이 문서를 자동으로 주제 군집으로 묶고 미리 정해진 범주로 분류하기도 한다. 텍스트 데이터와 구조화된 데이터를 결합함으로써 더 이상 경험 많은 직원들의 직감에만 의존하지 않고 예측 모델링 경험과 고객 정보에 기반하여 비즈니스 결정을 내릴 수도 있다.
 
기존의 데이터 마이닝 분석 대상에 텍스트를 추가함으로써 기업들은 데이터 속에 숨어 있는 원인과 관련된 여러 정보를 이용하여 기업의 의사결정을 위한 답을 도출할 수 있다. 또한 현 정보와 대량의 문서 더미 속에 방치된 과거 파일들을 비교하여 문제의 핵심을 파악할 수도 있다.
 
텍스트 마이닝은 또한 전술적 이점도 제공한다. 예를 들어 HP는 전 세계에 흩어져 있는 소비자, 기업 및 기관들을 대상으로 솔루션을 제공한다. HP의 서비스는 IT인프라, 국제 서비스, 비즈니스 및 홈 컴퓨팅, 이미징 및 출력 등 매우 다양하다. 고객 계좌의 세부 내용을 담은 정보는 세계 전역의 여러 장소에 다양한 형태로 저장되어 있는 것이다. 
 
최근까지만 해도 HP는 고객 데이터 웨어하우스로부터 얻은 수익 및 제품 데이터를 콜 센터를 통해 수신한 텍스트 정보와 결합할 수 없었지만, 이제 텍스트 마이닝 기술을 통해 서로 이질적인 데이터와 구조화되지 않은 데이터를 이용하여 HP의 고객 관계 관리 서비스를 전혀 새로운 수준으로 끌어올릴 수 있다.
 
 
생명 과학 및 의료 서비스 분야에도 활용
 
 
텍스트 마이닝은 학문적이고 비영리적인 부문에서도 가치를 지닌다. 다음은 켄터키주 루이스빌 대학(University of Louisville) 연구진들이 텍스트 마이닝을 활용하여 비용 절감이 가능한 영역을 파악하고 새로운 환자 치료 방법을 찾아낸 사례다.
 
패트리샤 서티오(Patricia Cerrito) 박사 및 연구팀은 텍스트 마이닝을 통해 병원 청구서, 약물 처방전 및 차트 기입 사항 등의 텍스트를 정량화하고 분석하여 암·유전병·심장 질환 및 환경 보건에 대한 연구 지원에 활용하고 있다.
 
텍스트 마이닝이 생사가 걸린 상황에 활용되지 않더라도 즉각적인 이점을 기대할 수 있다. 텍스트 마이닝을 통해 기존 프로그램의 유효성을 입증하는 것은 물론, 드러나지 않는 어려움을 부각시킬 수 있기 때문이다. 예를 들어, 텍스트 마이닝 기술을 보유한 자동차 제조업체가 뒷문 손잡이 또는 변속기 불량 등의 불만 접수 건수가 갑자기 늘어난 것을 눈치챌 경우, 합리적인 정확성을 바탕으로 고객 기반 전반에 걸쳐 문제가 얼마나 확산되었는지를 예측하고, 이 문제가 공론화되기 전에 적절한 대응책을 신속히 마련할 수 있다. 
 
텍스트 마이닝의 이점이 속속 드러남에 따라, 정기적으로 구조 및 비 구조화된 데이터 모두를 분석하려는 조직은 더욱 더 늘어날 것으로 보인다. 여러 다국적 기업들의 지사에 있는 관리자들은 설문 조사 분석가, 행동 분석 전문가, 심리학자 또는 언어학자의 도움을 얻어 숨은 텍스트의 의미를 해독하지 않고도 텍스트 결과를 즉시 시각화할 수 있다.
 
데이터 마이닝이 강력한 예측 모델링 기술을 통해 기업들에게 경쟁 우위를 제공한다는 점은 이미 입증된 바 있다. 텍스트 마이닝 애플리케이션의 성공 사례가 늘어남에 따라 기업들은 앞다퉈 이 기술을 활용해 숨은 기회를 포착하고 보다 나은 창의적 정책 수립에 몰두할 것이다. 구조 및 비구조화된 데이터를 동시에 분석하는 텍스트 마이닝 기술이 전 세계 모든 곳에서 건전한 조직의 필수 요소로 자리잡게 되는 것은 시간 문제다.
 
3년전에 이 글을 읽었다면 그냥 지나가는 이야기로 생각했을 것인데, 지금은 마음에 와 닿는다.