초록 |
● 가중되는 슈퍼컴퓨터의 운영비 부담을 줄이기 위해 저전력 프로세서를 활용한 클러스터 구축연구가 활발히 진행 중. ● 프로세서 제조사가 보장하는 운용환경과 슈퍼컴퓨터 운용환경의 차이로 인해 저전력 프로세서기반 슈퍼컴퓨터는 운용 중 컴퓨팅 성능 저하, 물리적, 기계적 고장 등의 신뢰성 문제가 발생할 확률이 높아 본 연구에서는 이들의 신뢰성 평가를 수행. ● 저전력 프로세서기반 슈퍼컴퓨터의 신뢰성 평가를 위해 먼저 신뢰성 평가 산업표준 및 제조사의 신뢰성시험 현황 조사를 실시하고 슈퍼컴퓨터의 운용 환경조건을 도출. ● 문헌조사와 슈퍼컴퓨터 운용환경을 기반으로 총 11개의 프로세서 고장원인을 파악하고, FMMEA 및 고장위험도 분석을 이용하여 온도 사이클에 의한 솔더조인트 손상, 온도 사이클에 의한 다이(die)손상, 고온에 의한 금속배선의 합선 및 단선으로 총 3개 주요 고장모드 들을 도출하고, 치명적 고장원인으로 온도 사이클 확인. ● 저전력 프로세서 제품을 확보하여, 운영환경에 따른 온도변화 측정을 통해, 저전력 프로세서의 온도 사이클이 유발될 수 있음을 확인. ● 온도 사이클에 따른 전자패키지의 물리모델을 이용하여 냉각조건, 부하량에 따른 기대수명을 예측한 결과 비냉각시 기대수명 대비 약 23~29배 증가를 확인. ● 냉각조건, 부하량 분배를 통한 저전력 프로세서 기반 클러스터의 신뢰성 기반 구축 방안 제시. |