기업조회

본문 바로가기 주메뉴 바로가기

논문 기본정보

시드 정제 기술을 이용한 웹 스팸 필터링의 품질 향상

논문 개요

기관명, 저널명, ISSN, ISBN 으로 구성된 논문 개요 표입니다.
기관명 NDSL
저널명 電子工學會論文誌. Journal of the Institute of Electronics Engineers of Korea. CI, 컴퓨터
ISSN 1229-6376,
ISBN

논문저자 및 소속기관 정보

저자, 소속기관, 출판인, 간행물 번호, 발행연도, 초록, 원문UR, 첨부파일 순으로 구성된 논문저자 및 소속기관 정보표입니다
저자(한글) Qureshi, Muhammad Atif,Yun, Tae-Seob,Lee, Jeong-Hoon,Whang, Kyu-Young
저자(영문)
소속기관
소속기관(영문)
출판인
간행물 번호
발행연도 2011-01-01
초록 웹 스팸은 중요하지 않은 웹 페이지들의 중요도를 승격시키기 때문에 웹 검색 결과의 품질에 중대한 영향을 준다. 따라서 웹 검색 엔진은 웹 스팸을 제거할 필요가 있다. 웹 스팸 필터링은 스팸 페이지들, 즉 웹 스팸에 기여하는 웹 페이지들을 식별하는 것이며, 잘 알려진 웹 스팸 필터링 알고리즘으로는 Trust Rank, Anti-Trust Rank, Spam Mass, 그리고 Link Farm Spam이 있다. 이러한 알고리즘들의 결과 품질은 입력 시드(input seed)에 따라 달라진다. 따라서 입력 시드를 정제(refinement) 함으로써, 웹 스팸 필터링의 품질을 향상 시킬 수 있다. 본 논문에서는 잘 알려진 네 가지 알고리즘에 대한 시드를 정제하는 기술을 제안한다. 다음으로, 이러한 기술을 원(original) 알고리즘에 각각 적용하는 방법으로 알고리즘을 수정한다. 이를 수정된 웹 스팸 필터링 알고리즘이라고 부른다. 본 논문에서는 또한, 웹 스팸 필터링을 좀 더 향상시키기 위한 전략을 제안한다. 이 전략에서는 수정된 알고리즘들을 수행 순서상의 적절한 위치에 배치함으로써 알고리즘들의 상호간 지원을 통해 전체적으로 성능을 향상시키는 가능성을 고려한다. 마지막으로, 실험에서는 시드 정제의 효과를 보인다. 이를 위해, 먼저, 수정된 알고리즘의 웹 스팸 필터링 품질이 원 알고리즘의 품질보다 더 우수함을 보인다. 다음으로, 웹 스팸 필터링 알고리즘들이 수행되는 순서의 조합 중 가장 성능이 우수한 조합이 가장 뛰어난 잘 알려진 알고리즘과 비교하여 정확도(precision)를 유지하면서 파라미터의 전형적인 값 범위 내에서 재현율(recall)은 최대 1.38배까지 높게 향상됨을 보인다.
원문URL http://click.ndsl.kr/servlet/OpenAPIDetailView?keyValue=03553784&target=NART&cn=JAKO201106736916840
첨부파일

추가정보

과학기술표준분류, ICT 기술분류,DDC 분류,주제어 (키워드) 순으로 구성된 추가정보표입니다
과학기술표준분류
ICT 기술분류
DDC 분류
주제어 (키워드) 웹 스팸 필터링,입력 시드 정제,링크 스팸,성능