초록 |
연구의 목적 및 내용: 기존의 구글로 대표되는 키워드기반 인터넷 검색 서비스 시장은 이미 포화상태에 이르렀다. 정보 검색에 대한 사용자들의 새로운 요구가 커지면서 사용자의 검색 의도를 파악하고 그에 따른 심층적 분석을 통해 다양한 형태의 대용량 데이터로부터 사용자가 원하는 결과를 빠르게 보여주는 심층 정보 분석 및 검색의 패러다임이 필요하게 되었다. 따라서 본 연구팀은 이를 위한 다양한 접근을 시도하여 사용자의 의도를 파악하고 빅데이터를 효율적으로 처리할 수 있는 심층 정보 검색 기술을 개발하는 것을 목표로 하였다. 본연구의 내용은 다음과 같다. 우선 (1) 멀티미디어 데이터에 대한 분석 및 검색 기술 연구를 수행하고 (2)텍스트 마이닝을 이용해 웹상의 문서들을 분석, 추천, 검색하는 연구를 수행하였다. 또한 (3) 웹문서들을 자동으로 잘 분류할 수 있는 연구와 (4) 개인정보 유출방지를 위한 프라이버시 보호기술 연구를 수행하였다. 이러한 연구들의 (5) 빅데이터 처리를 위한 맵리듀스 프레임워크를 이용한 분산 병렬 알고리즘의 개발에 대한 연구를 수행하였고 마지막으로 (6) 모바일 환경에서의 효율적인 검색을 제공하는 기술에 대한 연구를 수행하였다. 연구결과: (1) 멀티미디어 데이터에 대한 분석 및 검색 기술 연구에서는 스트리밍 동영상 시청 환경에서 관심이 있는 동영상과 유사한 동영상을 찾는데 특화된 알고리즘에 대한 연구를 수행하였다. 이를 통해 실시간으로 질의를 수행할 수 있을 정도로 속도향상을 이뤘고 기존 알고리즘들과 달리 자막 등의 노이즈가 있어도 유사 동영상으로 검색이 가능하도록 했다. 다음으로 (2) 컨텐츠를 추천하고 검색해주는 연구에서는 확률 모델을 통해 각각의 사용자가 관심을 가질 컨텐츠를 추천하는 알고리즘과 최근 관심을 끌고 있는 주제를 찾고 이 주제에 대한 컨텐츠 중 각 사용자에게 적합한 컨텐츠를 추천하는 알고리즘을 개발하였다. 이를 통해 사용자나 컨텐츠의 숨은 주제를 파악하여 더 정교한 추천과 검색을 지원할 수 있었다. 그리고 (3) 웹문서들의 자동 분류 연구에서는 유사한 컨텐츠들을 찾기 위한 유사도 조인 연구를 수행하였고 실제 데이터베이스 시스템에서 이런 질의의 최적 수행 방법을 찾는데 사용할 수 있는 유사도 조인 결과의 크기를 추정하는 연구를 수행하였다. 또한 서로 다른 구조를 가지는 웹문서들에서 자동적으로 템플릿을 추출하는 연구도 수행하였으며 실제 문서들을 클러스터링 할 때 수행 속도를 줄이기 위한 연구도 수행하였다. 이를 통해 검색 엔진 결과에서 관련 컨텐츠를 보여줄 때 더 정확한 결과를 빠르게 보여줄 수 있었다. 다음으로 4) 개인 정보 유출 방지를 위한 프라이버시 보호 기술 연구에서는 구조화된 데이터뿐만 아니라 비정형 데이터를 공개할 때 민감한 개인 정보가 복원되는 일을 막음으로써 개인 정보를 보호하는 데이터 익명화에 대한 연구를 수행하였다. 이를 통해 데이터 익명화 과정에서 정보 손실을 획기적으로 줄일 수 있었다. 앞의 모든 연구가 대규모의 빅데이터를 처리할 수 있도록 (5) 빅데이터 처리를 위한 맵리듀스 프레임워크를 이용한 분산 병렬 알고리즘의 개발에 대한 연구를 수행하였다. 이를 통해 사용하는 컴퓨터 수에 선형적인 속도 향상을 얻을 수 있었다. 마지막으로 (6) 모바일 환경에서의 효율적인 검색을 제공하는 기술에 대한 연구에는 모바일 기기가 통신할 때 필요한 데이터만을 통신하여 기기의 지속 시간을 늘리는 연구� |