빅데이터 시대를 맞이하며

학술 - 다양하게 접목되는 데이터마이닝

빅데이터 그리고 데이터마이닝
최근 데이터마이닝에 관련된 사회적 관심도가 증가하고 있다. 거대한 데이터로부터 추출되어 나오는 지식의 유용성에 사람들이 열광하기 시작했다. 사람들은 한 발 더 나아가, 더 큰 사이즈의 데이터를 분석하고 더 다양한 데이터의 융합을 논의하기 시작했다. 이것이 바로 최근 불어닥치는 빅데이터 열풍이다. 빅 데이터라 불리는 조류의 핵심 목적은 초고용량의 데이터를 기반으로 초고단위의 데이터마이닝을 위한 프레임워크를 마련하고, 이를 활용하여 최종적으로 얻어내는 데이터마이닝 결과물의 유용성을 극대화하는 것이다.
그렇다면 데이터마이닝은 무엇일까? 어떻게 데이터로부터 유용한 정보들을 발견(mining) 하는 것일까? 위키피디아를 참조하면 데이터마이닝은 ‘대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 것’으로 정의된다. 이러한 목적을 달성하기 위해서, 데이터 마이닝은 대규모의 데이터를 다루기 위해 데이터베이스와 밀접한 연관관계를 맺을 수밖에 없다. 또한, 통계적 추론을 바탕으로 데이터로부터 규칙이나 패턴을 찾아내기 위하여 기계학습과도 긴밀한 관계를 가지고 있는 융합적 성격을 가지는 학문이다. 데이터마이닝은 데이터베이스와 기계학습 이외에도 자연어처리, 정보검색등 다양한 분야의 결과를 아우르고 기존의 분야들이 현실과 유리되어 가지는 문제점이나, 기술융합 시에 발생하는 문제들을 해결해 나가는 통합적 성격을 가지는 폭넓은 분야이다.

전통적인 데이터마이닝 기법
대표적인 데이터마이닝 문제로는 1) 예측(Prediction), 2) 연관 규칙 마이닝(Association rule mining), 3) 군집(Classification), 4) 이상치 탐지(Anomaly detection) 등을 꼽을 수 있다.
예측문제는 데이터의 다양한 속성 값들을 기반으로 하여 특정 속성 값을 예측하는 문제이다. 예측문제는 크게 분류(Classification)문제와 회귀(Regression)문제로 나눌 수 있는데, 이는 예측하고자 하는 속성 값이 명칭이나 구분을 위한 목적의 이산 값(구매여부, 색상, 품종 등)을 가지는지, 아니면 측정 가능한 양을 나태내기 위한 연속적인 값을 가지는 지를 기준(키, 몸무게 등)으로 나눌 수 있다. 분류 문제의 예로는, 사용자의 개인정보나 구매패턴을 속성 값으로 하여 새로운 아이템(영화, 책 등)의 구매여부(0 또는 1로 표현 가능한 속성 값)를 예측하는 문제가 있을 수 있다. 그리고 회귀문제로는 특정 지역의 속성 값들을 기반으로 하여 해당 지역의 향후 온도나 습도 등을 예측하는 문제를 생각해볼 수 있다.
연관 규칙 마이닝은 데이터에 강하게 연관된 특징을 설명하는 패턴을 발견하는 것이 그 주요 목적이다. 예를 들어 보면, 대형마트의 구매목록으로부터 ‘기저귀를 구매한 사람들이 일반적으로 맥주를 함께 구매하더라’와 같은 종류의 패턴(Pattern)적 결론을 내리는 것이 연관규칙 마이닝의 최종 목표이다. 이렇게 대용량의 데이터로부터 발견된 정보를 사용하여, 함께 구매되는 품목들을 가까운 위치에 배치한다든가 아니면 손님들의 동선에 적합하게 배치하든가 하는 방법으로 마트의 매출을 향상시키도록 적용할 수가 있다.
군집문제는 주어진 데이터로부터 특징에 따라 그룹화 하기 위한 기법이다. 다시 말하면, 유사한 특징을 가지는 데이터들을 같은 군집에 서로 다른 특징을 가지는 데이터들은 다른 군집에 속하도록 데이터를 나누는 작업이다. 군집문제의 예로는 대량의 문서들을 유사한 단어집합을 가지는 문서들 혹은 유사한 주제를 가지는 문서들로 구분하는 문서군집화가 있다. 또 다른 예로는 고객관리시스템에서 고객군을 탐색하기 위한 목적으로 고객데이터를 대상으로 군집화를 하기도 한다.
마지막으로 이상치 탐지는 특징이 다른 나머지 데이터들과 현저하게 다른 데이터를 식별하는 문제이다. 이러한 데이터는 이상치(anomaly) 혹은 국외자(outlier)로 불리기도 한다. 이상치 탐지의 대표적인 예로는 신용카드 소지자의 거래 정보나 개인정보를 바탕으로 사기 거래를 식별하는 신용카드 사기 탐지 문제가 있다.

확대되는 데이터마이닝의 외연
최근 데이터마이닝이 다양한 도메인에 적용되면서 다양한 주제들이 등장하고 있다. 최근에 주목받고 있는 데이터마이닝 기법들을 정리하면 아래와 같다.
△개인화/다양성을 보장하는 새로운 추천 시스템 - 수많은 정보 속에서 사용자에게 적합한 콘텐트를 제공하는 추천 시스템은 현대인에게 유용한 시스템이라고 말할 수 있다. 대표적인 추천시스템의 방법론에는 내용 기반 추천(Contents based recommendation)과 협업 필터링 추천(Collaborative filtering recommendation)이 있다. 내용 기반 추천 시스템은 아이템간의 유사도를 기반으로 하여 각 유저가 높은 선호도를 가지는 아이템과 유사한 아이템을 추천하는 방식으로 동작하며, 협업 필터링 기반 추천 시스템은 사용자 간의 네트워크 정보를 바탕으로 하여 개별 사용자의 부족한 정보를 보충하고 추천의 정확도를 높이는 방법이다. 최근의 추천 시스템들은 주로 협업 필터링을 기반으로 하고 있으며, 이는 높은 정확도를 보장하지만 대중적이고 잘 알려진 아이템들을 위주로 추천하기 때문에 잘 알려져 있지 않은 새로운 아이템들을 추천하지 못하는 문제 (콜드스타트 문제, cold-start problem)를 가지고 있다. 우리대학 유환조(컴공) 교수 연구실에서는 이 문제를 해결하기 위해 사용자의 별점 패턴을 분석하고, 사용자의 개별 패턴을 만족시키는 아이템 집합을 추천하는 방법론을 개발하였으며, 최근에는 영화의 시놉시스를 기반으로 하여 사용자의 별점 패턴을 예측하는 방법론을 개발 중에 있다.
△소셜 네트워크상의 영향력 최대화 연구 - 소셜 네트워크는 현대인의 일상생활에 있어 정보를 수집하고 전달하는데 큰 기여를 하고 있다. 소셜 네트워크상의 영향력 최대화(Influence Maximization, IM) 연구는 수천만의 소셜 네트워크 이용자들 중에서 누가 가장 영향력이 있는 인물인지를 판별하고, 제한된 인원을 이용해 네트워크상의 최대한의 영향력 확장을 빠른 시간 안에 수행해 나가는 것을 목표로 하고 있다. 이는 전파 가능한 매체 속에서 소비자의 입에서 입으로 전해지는 새로운 광고기법인 바이럴 마케팅(Viral Marketing)과 깊게 연관되어 있어 활발하게 연구되고 있는 분야이기도 하다. 유환조 교수 연구실에서는 영향력 계산을 병렬화 하여 수행속도를 크게 단축시킴으로써 영향력 최대화 연구에 큰 기여를 하였다. 최근에는 기존의 영향력 최대화 연구들의 문제점이었던 막대한 초기 영향력 계산량을 줄이는 연구를 진행 중에 있다.

맺음말
데이터마이닝은 결과물의 유용성에 기인하여 최근 빠른 속도로 그 외연을 확대해 나가고 있다. 최근에는 이러한 유용성을 극대화하고자 초고용량의 데이터를 기반으로 통합적 지식 추출 및 추출 지식 활용을 위한 빅데이터라는 새로운 이슈가 등장했다. 빅데이터 시대에 그 기반기술인 데이터마이닝의 중요성을 나날이 증대되어갈 것임이 자명하며 향후 수십년 간 데이터마이닝 전문가에 대한 수요는 크게 증가할 것으로 기대된다. 이러한 시대적 요구에 부응하여 많은 학생들이 데이터마이닝에 관심을 가지고 공부를 이어나갔으면 하는 바람으로 이 글을 끝맺는다.

오진오 / 미래IT융합연구원 박사후연구원 다른기사 보기