초록 |
중국 우한에서 처음 COVID-19 사례가 보고된 후 12개월이 경과한 2020년 12월 영국에서는 SARS-CoV-2 변이 바이러스가 확인되었으며, 다시 2개월 후에는 전염성과 치명률이 높은 새로운 변이가 캐나다 10개 도시 및 미국을 포함한 전 세계 91개국에서도 검출되었다. 2021년 6월 30일 기준으로 새로운 코로나 변이 바이러스가 전 세계를 순환하고 있으며, 전 세계적으로 COVID-19로 인한 사망자가 400만 명에 달했다(2022년 3월 초 기준으로는 약 600만 명). 비록 코로나바이러스가 대기 중에서는 오래 생존하지 못하지만(3~16시간), 감염자와의 직접 접촉 이외에도 감염성 에어로졸을 통해서도 전염될 수 있다고 알려져 있다. 이러한 우려로 인해 과학계에서는 기상 조건이나 대기오염과 같은 환경 조건이 코로나바이러스의 확산과 연관이 있는지를 조사했다. 예를 들어, 낮은 풍속은 감염성 바이러스 입자의 부유를 촉진하고[2], 대기오염에 노출된 사람들의 면역체계가 손상되어 감염률이 증가할 것[3]이라는 과학적으로 입증되지 않은 추론이 많은 사람들의 입에 오르내리곤 했다.<br /> <br /> 연구자들의 이러한 노력에도 불구하고 다양한 형태의 관측 자료에서 인과관계를 찾고자 하는 데 몇 가지 문제가 있었다. 첫 번째 문제는, 두 가지 용어의 모호한 유사성으로 인해 상관관계(correlation)와 인과관계(causation)를 혼돈하는 것이다. 또 다른 문제는 사전지식(prior knowledge) 없이 Granger 인과 모델과 같은 시계열분석을 부적절하게 사용하는 것이다. 마지막으로 인과 영향(causal effect)을 정량적으로 추정한 연구 중에서 극히 일부만이 인과관계를 증명하는 방법을 적용했다. 인과관계의 증명은 특히 인과적 연결(causal link)이 불확실할 때 반드시 수행해야 한다. 이러한 문제들은 무작위실험을 사용하지 않는 관측 데이터에 기반한 인과관계를 추론하는 환경 연구(예를 들어 어떤 정책의 영향 평가, 기후변화 원인 분석 등)에서 주로 관찰되고 있다.<br /> <br /> 과거 몇 년간 통계 및 인공지능 분야에서 인과추론에 관한 연구가 증가하면서 일부 새롭고 효과적인 인과추론 방법이 개발되었고, 다양한 논의가 이루어짐에 따라 요구되는 특징을 추가한 새로운 인과 체계(causal framework)의 개발이 가능해졌다. 본 리포트에서는 관측 자료를 이용하여 인과추론을 수행하는 방법으로 가장 잘 알려진 구조적 인과 모형(structural causal model; SCM)에 대해 서술하고자 한다. 이 방법은 데이터 생성 과정에 대한 입력값으로 사전지식을 이용하고, 고의적으로 조건을 변경했을 때 결과값의 반응을 확인하기 위한 인위적 조치(intervention, 개입)가 사용된다. 이러한 두 가지 특징으로 인해 SCM으로 관측 자료의 인과추론 수행이 가능하다. 반면, SCM은 빈도가 높은 아웃라이어(outliers)나 비정규분포 형태, 이용 가능한 데이터 수가 적은 환경 데이터에 대해서는 회복탄력성(resilience)이 필요하므로, SCM의 적용성과 적응성을 위해 다음과 같은 일부 기능적 요소들이 포함되어야 한다. (a) 사전지식이 제한적이거나 접근 가능하지 않을 경우를 대비한 예비 사전지식 추출기, (b) 계산 시간을 획기적으로 줄이고 인과추론을 위한 데이터의 이해를 포착할 수 있는 특징 추출 요소, (c) 상관관계가 확인되지 않았을 때 제안된 인과관계의 견고성(robustness)을 평가할 수 있는 검증 모듈.<br /> 본 리포트에서는 환경 데이터의 인과관계를 조사할 수 있는 인과추론 체계에 대해 서술하고, 인과추론 체계를 이용하여 환경요인(6개의 대기오염물질과 4개의 기상학적 인자)과 COVID-19의 확산과의 인과관계에 대해 알아보고자 한다.<br /> |