공익을 위한 구글의 AI 기상 예측 모델…구글 AI 포럼
4일 구글코리아 본사에서 올해 첫 번째 구글 인공지능(AI) 포럼이 열렸습니다. 구글은 2017년부터 AI 포럼을 개최해 이를 활용한 제품과 연구를 소개해왔습니다. 이번 포럼에서는 5~10분 만에 최대 6시간까지 기상을 예측할 수 있는 새로운 기상 예측(Nowcast) 모델을 선보였습니다. ‘공익을 위한 AI’ 프로그램 공동 창립자 칼라 브롬버그(Carla Bromberg)와 전남대학교 해양학과 함유근 부교수가 발표를 맡았습니다.
최근 구글은 “레이더 영상을 활용한 기상 예측 관련 머신러닝” 논문에서 순수 딥러닝 접근 방법을 활용한 강수량 예측 모델을 발표했습니다.
칼라 브롬버그는 “공익을 위한 AI 프로젝트의 목표는 우리가 직면하는 인도주의적 환경 문제에 머신러닝 기법을 적용하는 것이다. 기후와 날씨는 출퇴근 시간이나 경로 같은 일상생활에 많은 영향을 미친다. 홍수, 산불, 장마 같은 재난을 예측할 때도 중요하다. 식량 생산이나 의식주와도 긴밀한 관계가 있다. 구글은 딥러닝 기술을 이용해 1~3시간 이내 기상을 예측할 방법을 고민했다”고 말했습니다.
미국해양대기청(NOAA)에서 수집한 원격 감지 데이터양은 하루 100테라바이트(TB)에 달합니다. 미해양대기청은 50여 년에 걸쳐 개발된 날씨 예측 엔진에 이 데이터 값을 입력해 10일간의 세계 날씨 흐름을 예측합니다. 대기 역학과 열방사, 녹지, 호수, 해양 등의 영향을 분석한 수치를 바탕으로 직접 시뮬레이션합니다. 이 방법은 실행에 많은 시간이 걸리고 지역마다 실행 환경이 다르기 때문에 실시간 기상 예측에 한계가 있습니다(출처 : 구글 AI 블로그).
칼라 브롬버그는 “기후 변화로 인한 허리케인이나 장마는 시시각각 상태가 변한다. 따라서 이상 기후에 대비하고 준비하기 위해 실시간으로 기상을 예측해야 한다. 우리는 머신러닝 기술을 이용해 강수량을 예측한다. 해상도는 1km, 시간은 1~3시간 이내가 목표였다. 기상 정보를 쉽게 이용할 수 있는 미국을 중심으로 프로토타이핑했다. 미국은 너무 커서 단 한 번의 모델링을 통해 이미지를 축적할 수 없다. 미국 전역을 타일 조각으로 구분했다. 타일별 복합 레이더 데이터를 머신러닝 모델에 학습시켰다”고 말하며 기상 예측 관련 접근법을 소개했습니다.
구글은 기상 관측 데이터를 학습시키기 위해 컨볼루션 신경망(CNN)을 활용했습니다. CNN은 음성과 영상에서 좋은 성능을 보이는 딥러닝 알고리즘입니다. 구글은 CNN 모델 중 U-Net을 사용했습니다. U-Net은 다른 모델에 비해 속도가 빠르고 특히 바이오메디컬 이미지 세그멘테이션에 효과적인 모델입니다.
U-Net 아키텍처 맨 왼쪽 그림의 파란 상자는 기본 CNN 레이어를, 핑크색 상자는 다운 샘플 레이어를, 초록색 상자는 업 샘플 레이어를 의미합니다. 실선은 레이어 간 입력 연결을, 파선 화살표는 U-Net의 인코딩과 디코딩 단계를 횡단하는 긴 스킵 커넥션을 의미합니다. 오른쪽 그림 세 개는 차례로 기본 레이어 내 연산, 다운 샘플 레이어 내 연산, 업 샘플 레이어 내 연산을 의미합니다.
데이터는 넥스래드(NEXRAD, Next-Generation Radar)를 이용했습니다. 넥스래드는 미국해양대기청(NOAA)의 기관인 NWS(National Weather Service)에서 운영하는 기상 레이더 네트워크입니다. 넥스래드는 159개의 고해상도 도플러 관측소가 있고, 관측소마다 특정 지역의 강수량을 추측합니다. 안테나 각도를 조정해 지상보다 높은 고도의 강수량을 측정할 수 있다는 장점이 있습니다. 구글은 레이더 데이터에 잡힌 새나 이물질을 처리한 뒤 타일 조각으로 나눠 머신러닝 알고리즘에 투입합니다. 60분 전, 30분 전, 현재 데이터를 바탕으로 현재 시각으로부터 60분 뒤 기상을 예측할 수 있습니다.
구글은 초기 작업을 위해 2017년부터 2019년까지의 미 대륙 기상 관측 자료를 이용했습니다. 4주 기간으로 나눠, 첫 3주는 학습용으로 사용하고 4주 차는 평가용으로 사용했습니다.
칼라 브롬버그는 “신경망을 이용한 기상 예측 결과는 편미분방정식(Partial Differential Equation)을 활용한 기존 기상 예측 기법보다 3시간 정도 정확하다. NOAA에서 사용하는 고해상도 시간 예측 기법(HRRR, High Resolution Rapid Refresh)과 비교하면, 구글의 ML 방식이 단기 기상 예측에 더 효과적이다. 앞으로 구글은 더 다양한 머신러닝 모델 아키텍처를 시도해보고 더 많은 데이터를 접목해 연구할 것이다. 현재 기준으로 1시간이나 실시간 예측뿐 아니라, 장기적인 기상 예측을 위한 연구도 진행할 예정이다. 공익을 위한 AI 프로그램의 일환으로 많은 의미를 가지는 프로젝트를 진행할 것이다”고 말했습니다.
함유근 교수는 엘니뇨 중장기 예측 모형 개발에 대해 발표했습니다.
함 교수는 “엘니뇨는 전 지구에서 열대 동태평양 해수면 온도가 0.5도~1도 상승하는 것을 의미한다. 엘니뇨가 발생하면 인도, 중국, 호주는 강수량이 적어지기 때문에 많은 재해를 유발한다. 반대로 미국 남부 쪽은 홍수가 난다. 엘니뇨가 전 지구적으로 많은 자연재해를 유발하기 때문에, 동태평양에서 지리적으로 먼 나라에서도 엘니뇨를 예측하기 위한 연구를 하고 있다. 전 세계에 예측 모형이 30개 이상 있고, 매 달 엘니뇨 예측을 하고 있다. 하지만 30개 넘는 모형 중 20개 이상이 중장기 예측을 실패한다”고 말하며 엘니뇨 예측의 어려움을 설명했습니다.
함 교수에 따르면, 엘니뇨는 어느 순간 생기는 것이 아니라 온도가 높아진 서태평양 해수면이 동쪽으로 이동하면서 생기기 때문에 통계적으로 예측할 수 있습니다. 이를 위해 CNN 모델을 사용합니다. 3달 치 해수 온도 데이터를 입력으로 사용해 엘니뇨 지수를 예측하는 모델에 학습시킵니다. 그러나 이 방법은 샘플 수가 너무 적어 어려움이 있습니다.
함 교수는 “기상은 하루하루 날씨가 변하는 것이라면 기후는 긴 시간 규모로 나타나는 현상이다. 엘니뇨는 대표적인 기후 현상이다. 기상 예측에 사용할 수 있는 데이터는 1년에 365개 생기지만, 엘니뇨 지수와 해수면 온도는 1년 동안 거의 변하지 않는다. 기후를 예측하기 위한 샘플이 절대적으로 부족하다. 우리는 모형 가상 시뮬레이션 데이터를 함께 이용했다”고 말했습니다.
함유근 교수는 직접 개발한 AI 딥러닝 기법을 이용해 엘니뇨 현상의 발달 여부 및 강도를 최장 18개월 전에 예측할 수 있는 모형을 개발했습니다. 엘니뇨를 사전에 예측하면 옥수수 같은 작물에 미칠 영향을 미리 파악해 이에 따른 가격 변동 등에 선제적으로 대응할 수 있습니다. 또한, 엘니뇨로 인해 발생하는 자연재해를 미리 예측하고 대비할 수 있습니다.