단순 베이즈 분류에서의 범주형 변수의 선택
기관명 | NDSL |
---|---|
저널명 | 응용통계연구 = The Korean journal of applied statistics |
ISSN | 1225-066x, |
ISBN |
저자(한글) | 김민선,최호식,박창이 |
---|---|
저자(영문) | |
소속기관 | |
소속기관(영문) | |
출판인 | |
간행물 번호 | |
발행연도 | 2015-01-01 |
초록 | 단순 베이즈 분류( $Na{ ddot{i}}ve$ Bayes classification)는 출력변수가 주어졌을 때 입력변수들이 조건부 독립이라는 가정에 기반한다. 단순 베이즈 가정은 비현실적이지만 고차원의 확률 추정 문제를 일련의 일차원 확률 추정 문제로 단순화 시킨다는 장점이 있으며, 특히 스팸 메일 필터링, 추천 시스템(recommendation system) 등 방대한 데이터를 다루는 분야야에서 흔히 사용된다. 본 논문에서는 입력변수와 출력변수간의 카이제곱 통계량에 기반한 변수선택법을 제안한다. 이 방법은 단순 베이즈 분류의 장점인 데이터 처리 및 계산의 단순성을 유지하면서도 설명력이 있는 변수를 선택할 수 있으며 SNP(single nucleotide polymorphism)에 의한 질병의 분류 등의 초고차원 혹은 빅데이터에서 유용할 것으로 기대된다. |
원문URL | http://click.ndsl.kr/servlet/OpenAPIDetailView?keyValue=03553784&target=NART&cn=JAKO201521056137938 |
첨부파일 |
과학기술표준분류 | |
---|---|
ICT 기술분류 | |
DDC 분류 | |
주제어 (키워드) | 빅 데이터,카이제곱 통계량,단순 베이즈 가정,big data, lt,TEX gt,${ chi}^2$ lt,/TEX gt,statistic, lt,TEX gt,$Na{ ddot{i}}ve$ lt,/TEX gt,Bayes assumption,SNP |