Skip to content

Posts

Data assimilation - filtering

All models are wrong, but some are useful.

어떤 자연 현상의 시간에 대한 변화를 다음과 같은 미분방정식으로 표현했다고 하자.

\[ \frac{du}{dt} = F(u). \]

미분방정식을 유도할 때는, 일반적으로 아주 작은 스케일의 움직임까지 기술하기란 어려운 법이므로, 적당히 평균을 내기 마련이다. 이 과정에서 실제 현상과 모델 사이 오차가 생기게 되고, 시간이 지남에 따라 모델이 예측하는 현상과 실제 현상의 차이는 점점 커진다.

아래 동영상의 왼쪽 패널을 보면, 초기에 생긴 오차가 빠르게 퍼져 시뮬레이션이 잘 되지 않는 것을 볼 수 있다. 반면, 관측자료는 관측 오차가 있을지언정 실제 현상에 대한 정보를 담고 있다. 아래 동영상의 가운데 패널에 오차가 낀 관측자료가 나타내어져 있다.

자료동화에서 filtering이란, 실제 상태의 추정치 \(u_f\)가 있을 때 관측자료 \(y\)에 기반해 추정치를 업데이트 하는 방법이다. 즉, 위 동영상에서 첫번째 패널과 두번째 패널을 합쳐 세번째 패널을 만드는 과정이다.

Python array

지난 10월 7일에 배포된 Python 3.13 업데이트를 보다가, 파이썬에도 array 모듈이 있다는 것을 발견했다. Numpy에만 있는 줄 알았다.

배열 자료형은 list와 비슷하지만 요소들의 type이 모두 똑같다는 특징이 있는데, 이 덕분에 평소에 자주 사용하던 routine의 속도를 향상시킬 수 있지 않을까 싶어서 간단한 실험을 해봤다.

Review: KARINA

KIST에서 KARINA1라는 pure deep learning based climate forecast 모델을 개발했다고 한다.

KARINA

KIST's Atmospheric Rhythm with Integrated Nerual Algorithm의 약자이다.

기존 모델들에 비하여 성능이 떨어지지 않으며 training time을 줄여 efficiency를 확보했다고 한다.

Summary

내가 이해하기로는 두 가지 방법을 제안한 것 같다.

  1. Geocyclic Padding
  2. SENet

Review: Neural general circulation models

Machine Learning accelerated global weather prediction model developed by Google. Written in JAX framework 12 Two advantages over pure ML methods:

  • Uncertainty estimates
  • Long time simulation

24년 7월 22일 (내 28번째 생일), Nature에 “Neural general circulation models for weather and climate” 이라는 제목의 논문이 올라왔다. “Neural” 키워드를 보고 “data 때려 맞추는 모델 아니야?” 라고 생각할 수 있겠지만, 그렇지 않다.

Review: Acceptance Sampling

Abstract

Standards for quality control become higher as technology is miniaturized and advances. It is necessary to develop advanced sampling plans to meet high standards because traditional sampling plans need a relatively big sample size that is not economical. There have been approaches to reduce the sample size while controlling the correctness of a test. This paper includes basic approaches and their implications, such as some principles of sample size reduction. One can understand basic concepts of acceptance sampling plans and how to calculate corresponding probabilities by reading this paper. Anyone who is interested in sampling plans but doesn't know where to start is a potential reader for this paper.

Review: Sample size issues in time series regressions of counts on environmental exposures

Author: Ben G. Armstrong, Antonio Gasparrini, Aurelio Tobias and Francesco Sera

Journal: BMC Medical Research Methodology (2020)

요약

  1. Effect measure에 관련된 검정력을 특정 값 이상으로 보장하기 위해서 얼마나 많은 sample size가 필요한지 알고 싶다.
  2. 이 논문에서 소개된 approximation for Standard error of effect measure를 사용하면, 검정력을 보장하기 위한 count의 수를 알 수 있다. (sample size 대신)

Review: Attributable risk from distributed lag models

Author: Antonio Gasparrini and Michela Leone

Journal: BMC Medical Research Methodology (2014)

Suggested prerequisite: understanding about the DLNM framework.

요약

  1. multi-exposure attributable risk 개념을 응용해 attributable risk가 temporal dimension을 반영하도록 개념을 확장함.
  2. 이 방법은 특정 exposure range에 대해서 attributable risk를 계산할 수 있다는 장점도 가지고 있음.

Review: Multivariate meta-analysis for non-linear and other multi-parameter associations

Author: A. Gasparrini, B. Armstrong, and M. G. Kenward

Journal: Statistics in Medicine (2012)

요약

  1. Multivariate regression을 응용해서, outcome이 다변수 벡터인 경우도 메타분석이 가능하다.
  2. 첫번째 저자가 내용을 정리해 R package "mvmeta"를 만들었으니, 활용하면 된다.
  3. 이후에 나온 패키지 "mixmeta"는 이 모델에서 좀 더 일반화된 모델을 다룬다.