기업조회

본문 바로가기 주메뉴 바로가기

동향 기본정보

미국, 미국의 빅데이터 연구개발구상

동향 개요

기관명, 작성자, 작성일자, 내용, 출처, 원문URL, 첨부파일 순으로 구성된 표입니다.
기관명 NDSL
작성자 글로벌 과학기술정책 정보서비스
작성일자 2012-10-29 00:00:00.000
내용 인터넷, 소셜 네트워크 서비스, 센서, 슈퍼컴퓨터 등의 발전으로 데이터의 양이 방대해지면서 빅데이터 문제가 발생. 오바마 대통령은 '12년 3월 빅데이터 활용을 목적으로 한 연구개발구상을 발표. 본 보고서는 lsquo;12년 9월 일본 과학기술정책연구소가 발표한 미국의 빅데이터 연구개발구상의 내용과 시사점을 고찰 1. 빅데이터 출현 배경과 중요성 □ (배경) 인터넷, 소셜 네트워크 서비스(SNS), 센서, 슈퍼컴퓨터 등의 발전으로 데이터의 양이 방대해지면서 빅데이터 문제가 발생 ○ 빅데이터(big data)는 대규모의 디지털 데이터를 일컫는 용어로 기존의 기술로는 관리가 불가능할 정도로 양적으로 방대하며 복잡한 데이터를 의미 ○ 각종 데이터에서 유의미한 정보를 추출하는 기술이 지속적으로 발전해 왔으나, 최근 데이터의 양 #65381;속도 #65381;종류에서 큰 변화가 나타나면서 이에 대응할 수 있는 데이터 저장 #65381;처리 기술 R D 움직임이 가시화 □ (중요성) 빅데이터는 방대하고 복잡한 데이터에서 유의미한 정보를 추출해 새로운 가치를 창출할 수 있다는 점에서 중요 ○ 빅데이터를 통해 만들어낸 가치를 신산업 창출 및 사회적 과제 해결과 어떻게 연결시킬 것인가가 관건 2. 미국 정부의 빅데이터 연구개발구상 □ (개요) '12년 3월 오바마 대통령은 빅데이터 접근 #65381;수집 #65381;관리에 필요한 도구와 기술의 획기적 개선을 목표로 하는 lsquo;빅데이터 연구개발구상(Big Data Research and Development Initiative) rsquo;을 발표 ○ 연구개발구상을 통해 대규모 디지털 데이터에서 지식과 통찰력을 이끌어낼 수 있는 역량을 향상시켜 시급한 국가적 과제 해결에 활용 - 과거 연방정부의 정보기술 R D 투자로 인해 슈퍼컴퓨팅과 인터넷 구축 분야가 발전한 것 같이 빅데이터 연구개발구상이 과학, 환경 #65381; 바이오의료 연구, 교육, 국가 안보에 기여할 것으로 전망 ○ 정부 주도적 빅데이터 정책을 통해 민간 부문의 빅데이터 산업 활성화가 촉진되는 한편, 빅데이터 관련 연구 확대, 인력 확충 등이 이루어질 것으로 예상 ○ 투입 예산은 2억불 이상으로 6개 부처 및 기관이 빅데이터 처리 툴과 기술 향상을 위한 연구 투자를 실시 - 6개 부처 : 국립과학재단(NSF), 국립보건원(NIH), 국방부(DoD), 미국방위 고등연구계획국(DARPA), 에너지부(DOE), 미국지리청(USGS) □ (세부 목표) 혁신 기술 발전, 적극적 기술 활용, 인력 확충이 이루어질 수 있도록 빅데이터 연구개발을 추진 ○ 대량의 데이터를 수집·저장·분석 #65381;관리·공유하는데 필요한 최첨단 혁신 기술의 발전 ○ 빅데이터 관련 최첨단 혁신 기술의 발전 속도를 가속화하고 국가안보 #65381;교육 #65381;학습의 혁신 촉진에 적극적으로 활용 ○ 빅데이터 기술 개발 및 활용에 필요한 인력 확충 □ (추진체계) '11년 초 대통령 산하 과학기술정책국(OSTP)이 lsquo;빅데이터 고위운영그룹(Big Data Senior Steering Group) rsquo;을 구성하고 이를 중심으로 lsquo;빅데이터 연구개발구상 rsquo;을 추진 ○ lsquo;빅데이터 고위운영그룹 rsquo;은 빅데이터 연구개발구상 대상 프로젝트를 선정 #65381;개발 #65381;조정하고, 빅데이터 연구개발구상이 가지는 전체 목표 달성 정도를 점검 ○ lsquo;빅데이터 연구개발구상 rsquo;이 발표되기 이전 빅데이터 고위운영그룹이 출범되었다는 점은 빅데이터가 부처간 협력이 필요한 분야로 부상했음을 시사 3. 미국 연방정부기관의 빅데이터 연구개발 추진 동향 □ (국립과학재단) 데이터로부터의 지식 추출 기술, 데이터 관리 기술, 데이터로부터의 가치 창출을 통해 인프라 #65381;교육 #65381;인재개발에 새롭게 접근하는 기술 등 장기 종합 전략을 추진 ○ 차세대 데이터 과학자 및 공학자 양성을 위한 교육과정을 개발하도록 장려 ○ 기계학습*, 클라우드 컴퓨팅**, 크라우드 소싱*** 등 데이터를 정보로 변환하는 통합적인 접근법 개발을 위해 캘리포니아 대학교 연구 프로젝트에 1천만불을 지원 * 기계학습(machine learning): 인공 지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야 ** 클라우드 컴퓨팅(Cloud Computing): 인터넷 기반(cloud)의 컴퓨팅 기술이라는 의미로, 인터넷 상의 유틸리티 데이터 서버에 프로그램을 두고 필요할 때마다 컴퓨터나 휴대폰 등으로 불러와 사용한는 웹 기반 소프트웨어 서비스 *** 크라우드 소싱(Crowd Sourcing): 군중(crowd)과 외부자원 활용(outsourcing)의 합성어로 제품 #8231;서비스 개발 과정에 외부전문가나 일반 대중의 참여를 개방해 혁신을 이루고자 하는 방법 ○ 현재 실시중인 국립과학재단의 연구들을 기반으로 미국은 빅데이터에서 발생할 새로운 사업기회를 포착함으로써 수 십년 후의 경쟁력 강화 기반을 마련할 수 있을 전망 □ (국립보건원) 클라우드 컴퓨팅으로 이용이 가능한 lsquo;1000 게놈 프로젝트* rsquo;를 추진 * 1000 게놈 프로젝트(1000 Genomes Project): '08년 1월 영국, 미국, 중국이 합작해 3년 내 다양한 인종으로 구성된 최소 인간 1000명의 유전체를 해독하는 국제 협력 프로젝트로, 인간 게놈 프로젝트 이후 가장 큰 규모의 유전체 프로젝트 ○ lsquo;1000 게놈 프로젝트 rsquo;를 통해 생성된 세계 최대의 인간 유전 정보 데이터셋을 민간기업인 아마존의 아마존 웹 서비스(Amazon Web Service) 클라우드를 통해 제공함으로써 누구나 자유롭게 이용이 가능 - lsquo;1000 게놈 프로젝트 rsquo;의 데이터셋 규모는 200 테라바이트로, 표준 DVD 3만장 이상의 데이터 용량에 해당하기 때문에 이 데이터셋을 제대로 활용할 수 있는 컴퓨팅 파워를 갖춘 연구자가 거의 전무한 상태 ※ (참고) 아마존 웹 서비스는 아마존 심플 스토리지 서비스(Amazon Simple Storage Service) 상에 저장된 데이터를 접속 서비스를 통해 제공. 아마존 웹 서비스는 퍼블릭 데이터(public data)와 같은 추가적인 분석 가공을 위해 필요로 하는 데이터는 유료로 운영 □ (국립과학재단 #65381;국립보건원 공동) 빅데이터의 과학 #65381;공학적 발전을 위한 핵심기술을 연구 ○ 다양하고 방대한 데이터셋을 관리 #65381;분석 #65381;시각화*하고 유용한 정보 추출을 할 수 있는 기술 개발을 위해 국립과학재단과 국립보건원이 공동으로 lsquo;빅데이터(Big Data) rsquo; 공모를 시행 * 데이터 시각화(Data Vizualization) : 디지털 상의 정보 등을 조합해 그래픽적 요소로 변환시킨 것으로 복잡하고 방대한 내용을 그림으로 표현함으로써 정보에 대한 즉각적인 통찰력을 제공. 최근 스마트폰의 위치기반서비스에서 제공되는 위치 정보는 데이터 시각화에서 활용되는 대표적인 사례. 위치정보 데이터를 시각적으로 가공하면, 스마트폰 사용자들의 대중교통 사용 패턴을 만들 수 있고 효율적인 교통시스템 설계가 가능 - 국립보건원은 lsquo;빅데이터 rsquo; 공모에서 분자, 세포, 전기생리학, 화학, 임상, 건강 및 질병 등에 관련된 데이터셋 이미징에 관심을 집중 □ (국방부) 군사 관련 빅데이터 사업인 lsquo;데이터 투 디시전(Data to Decision) rsquo;에 2.5억불을 투입 ○ 센싱, 인식, 의사결정 지원 등의 요소를 통합해 대량의 데이터를 기반으로 스스로 조작과 의사결정을 할 수 있는 완전 자율 시스템을 구축 ○ 군사 분석가가 임의의 언어 텍스트에서 정보를 도출하는 능력을 100배 개선하는 등 군사 상황 인식 기능을 제고함으로써 군사 작전을 지원 □ (미국방위고등연구계획국) 정형 데이터와 비정형 데이터로 구성된 대규모 데이터를 해석하는 계산 방법이나 소프트웨어 툴을 개발 ○ 대규모 데이터 처리와 관련해 유연한 소프트웨어 개발 환경을 조성하기 위해 오픈소스 소프트웨어 툴킷을 제공하는 lsquo;XDATA 프로그램 rsquo;에 향후 4년간 매년 2,500만불을 투입 - 분산 데이터 저장소의 불완전 데이터를 처리하는 확장 알고리즘 개발을 중점 추진 - 다양한 미션에 따라 신속하게 시각적 추론을 할 수 있는 인간과 컴퓨터 사이의 효율적인 상호 작용 툴 개발 - 신속한 공동 작업을 위해 워싱턴에 소프트웨어 개발 #65381;통합 #65381;테스트 #65381;평가 시설을 마련하고 사용자와 함께 소통하면서 이용 사례를 발굴할 예정 □ (에너지부) lsquo;첨단 컴퓨팅을 통한 과학적 발견 프로그램* rsquo;을 통해 SDAV (Scalable Data Management Analysis and Visualization) 연구소를 설립 * 첨단 컴퓨팅을 통한 과학적 발견((Scientific Discovery Through Advanced Computing) 프로그램 : 슈퍼컴퓨터를 이용해 청정기술, 신소재, 기후변화 등의 분야에서 새로운 과학적 발견을 이루어내기 위한 소프트웨어 #65381;하드웨어 인프라 개발 프로그램으로 '01년 출범 ○ SDAV 연구소는 데이터 관리 #65381;분석 #65381;시각화 등 3개 영역에서 기술 솔루션을 개발 #65381;활용함으로써 각 분야의 과학자들을 지원 - 6개 국립연구소와 7개 대학의 전문지식을 통합해 과학자의 데이터 관리와 시각화가 용이하도록 툴을 개량 □ (미국지리청) 지구시스템과학 분야에서 기후변화, 지진발생률, 차세대 생물학적 지표와 관련해 빅데이터를 활용 ○ 존 웨슬리 파월 분석통합 센터(John Wesley Powell Center for Analysis and Synthesis)를 통해 최첨단 컴퓨팅 기능과 협력 툴을 지원하는 한편 심층 분석을 위한 연구 공간을 제공 미국 연방정부기관의 빅데이터 연구지원 현황 기관 기술개발 인재육성 데이터 공용 추진 시책 국립과학재단 (NSF) 기계학습, 클라우드 컴퓨팅, 크라우드 소싱(Crowd Sourcing)을 통합해 데이터에서 정보를 추출(1천만불) 데이터 과학자·공학자 양성을 위한 대학원 교육과정 개발 장려 lsquo;EarthCube rsquo;를 통해 지구과학자의 지구 관련 데이터 접속, 분석, 공유 지원 빅데이터를 통한 교육 및 학습 변혁 방법을 연구하는 학제적 연구자 모집 통계학자와 생물학자로 구성된 중점연구 그룹 지원해 단백질 구조 및 생물학적 패스웨이를 구명(140만불) 시각화 기술의 습득 등을 지원하고 학부생을 대상으로 하는 빅데이터 처리 교육을 지원(200만불) 국립 보건원 (NIH) 아마존 AWS 클라우드에 무료 접속해 인간게놈 정보 이용 NSF #65381; NIH 공동 빅데이터의 관리, 분석, 시각화 , 정보추출을 위한 핵심기술 국방부 (DoD) 센싱, 지각, 의사결정 지원을 통합함으로써 빅데이터를 이용한 완전자율적 시스템 구축 전투원과 분석자를 지원할 군사 상황인식 기능 향상(연간 2.5억불) 빅데이터를 통한 혁신을 가속화하기 위해 수개월에 걸쳐 오픈 컨테스트 실시 미국방위고등연구계회국 (DARPA) 빅 데이터를 해석할 계산방법과 소프트웨어 툴 개발 (XDATA 프로그램) 분산 데이터 저장소의 불안전한 데이터 처리용 확장 알고리즘 개발 유연한 소프트웨어 개발 환경 조성을 위해 오픈소스 소프트 웨어 킷툴 제공(4년간 매년 2,500만불) 신속한 공동 작업을 위해 소프트웨어 개발·통합·테스트 #65381;평가 시설 마련 에너지부 (DoE) SDAV 연구소를 설립해 슈퍼 컴퓨터의 데이터 관리, 분석 , 시각화 툴 개발 및 보급 (5년간 2,500만불) 미국 지리청 (USGS) 지구, 환경, 기후 등을 심층 분석할 수 있는 연구 공간 및 첨단 컴퓨팅 기능을 제공 4. 미국 빅데이터 연구개발 구상의 시사 점 □ (시각화 기술) 시각화는 빅데이터를 기반으로 한 가치 창출에서 가장 중요한 기술 포인트 ○ 데이터 처리 #65381;분석 상에서 시각화를 하지 못할 경우 가치 창출로 이어지기가 어려운 상황 ○ 미국 정부는 빅데이터 처리에 있어서 시각화의 중요성을 인식하고 국립과학재단, 미국방위고등연구계획국, 국립보건원, 에너지부의 연구대상에 시각화를 포함 □ (인재육성) 빅데이터를 이용한 가치 창출을 위해서는 수학, 통계학, 법학, 사업 관리와 관련된 지식이 필요하기 때문에 인재육성도 중요 ○ 국립과학재단은 데이터 과학자·공학자 육성을 위한 대학원 교육과정 개발, 통계학자 #65381;생물학자로 구성된 연구프로그램 지원 등을 실시 □ (산 #65381;학 참여) 빅데이터 관련 연구개발을 지속적으로 추진하기 위해서는 민간 기업과 대학의 적극적인 참여가 필요 ○ 연구개발의 문제점 중 하나는 프로젝트가 종료되면 연구가 중단되기 때문에 연구 성과를 사회로 환원할 가능성이 낮아진다는 점 ○ 국립보건원의 lsquo;1000 게놈 프로젝트 rsquo;에서는 아마존社가 참여함으로써 연구개발을 지속 #65381;발전시킬 수 있는 토대를 마련 □ (데이타 공동사용) lsquo;1000 게놈 프로젝트 rsquo;의 사례에서도 알 수 있듯이 빅데이터 연구개발구상은 데이터의 공동 사용 활성화가 강조 ○ 미국은 '09년 5월 정부기관이 보유한 정보와 데이터를 입수할 수 있는 사이트 Data.gov를 개설 - 유럽연합은 유럽 과학연구커뮤니티의 데이터 공동사용 확대를 위해 EUDAT(European Data Infrastructure) 프로젝트를 시행 #8231; 미국과 유럽은 데이터를 공유해 효율적으로 연구할 수 있도록 하고, 이와 관련된 인프라와 툴을 구축하기 위해 노력 중 출처 : 일 과학기술정책연구소 (2012.9)
출처
원문URL http://click.ndsl.kr/servlet/OpenAPIDetailView?keyValue=03553784&target=TREND&cn=IS201200036
첨부파일

추가정보

과학기술표준분류, ICT 기술분류, 주제어 순으로 구성된 표입니다.
과학기술표준분류
ICT 기술분류
주제어 (키워드)