빅데이터 처리 및 분석을 위한 Rhipe 플랫폼
기관명 | NDSL |
---|---|
저널명 | 응용통계연구 = The Korean journal of applied statistics |
ISSN | 1225-066x, |
ISBN |
저자(한글) | 정병호,신지은,임동훈 |
---|---|
저자(영문) | |
소속기관 | |
소속기관(영문) | |
출판인 | |
간행물 번호 | |
발행연도 | 2014-01-01 |
초록 | R과 Hadoop의 통합환경인 Rhipe 개발로 인해 분산처리 환경 하에서 대용량 데이터 분석이 가능해졌다. 본 논문에서는 Rhipe을 이용하여 실제 데이터와 모의실험 데이터에서 다양한 데이터 크기에 따라 다중 회귀분석을 구현하였다. Hadoop의 가상분산 모드(pseudo-dstributed mode)와 완전분산 모드(fully-distributed mode) 구축 시스템 비교에서 완전분산 모드 시스템이 가상분산 모드 시스템보다 처리 속도가 빠르고 데이터 노드의 수가 많을수록 계산 시간이 점점 줄어드는 것을 알 수 있었다. 또한, 제안된 Rhipe 플랫폼의 성능을 평가하기 위해 기본 R 패키지인 stats와 bigmemory 상에서 유용한 biglm 패키지와 처리 속도를 비교하였다. 실험결과 Rhipe은 데이터의 크기가 클수록 map task 개수가 증가되고 동시에 병렬 처리로 인해 다른 패키지들보다 빠른 처리속도를 보였다. |
원문URL | http://click.ndsl.kr/servlet/OpenAPIDetailView?keyValue=03553784&target=NART&cn=JAKO201403460492559 |
첨부파일 |
과학기술표준분류 | |
---|---|
ICT 기술분류 | |
DDC 분류 | |
주제어 (키워드) | 빅데이터,다중회귀분석,Big data,R,Hadoop,Rhipe,multiple regression analysis |