기계학습에 기초한 자동분류의 성능 요소에 관한 연구
기관명 | NDSL |
---|---|
저널명 | 정보관리학회지 = Journal of the Korean society for information management |
ISSN | 1013-0799, |
ISBN |
저자(한글) | |
---|---|
저자(영문) | |
소속기관 | |
소속기관(영문) | |
출판인 | |
간행물 번호 | |
발행연도 | 2016-01-01 |
초록 | 국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 '한국정보관리학회 학술대회 논문집'의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터( ${ beta}$ , ${ lambda}$ )와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다. |
원문URL | http://click.ndsl.kr/servlet/OpenAPIDetailView?keyValue=03553784&target=NART&cn=JAKO201621650896560 |
첨부파일 |
과학기술표준분류 | |
---|---|
ICT 기술분류 | |
DDC 분류 | |
주제어 (키워드) | 자동분류,텍스트 범주화,성능 요소,학술회의 논문,로치오 알고리즘,복수-범주 분류,기계학습,automatic classification,text categorization,performance factors,conference paper,rocchio algorithm,multi-label classification,machine learning |