Advanced Girsanov Theorem

Change of Probablity Measure

앞에서 단순한 형태의 stochastic Process에 대한 Girsanov Theorem을 알아보았다. 이번에는 보다 일반적인 형태의 SDE 에서의 Girsanov Theorem을 생각해 보도록 한다.

들어가기전에 간단한 형태의 Random Process에 대하여 생각해보자.
$X_t$$N(\mu_1, \sigma_1)$ 분포를 $P$ Measure 하에서 가진다고 가정할 때 $X_t$$N(\mu_2, \sigma_2)$ 분포를 $P$ Measure 하에서 가지기 위해서는 다음의 관계를 만족해야 한다.

$$ \frac{dQ}{dP}(X_t) = \Lambda(X_t) = \frac{\sigma_1}{\sigma_2}e^{\frac{(x-\mu_1)^2}{2\sigma^2_1}-\frac{(x-\mu_2)^2}{2\sigma^2_2}}$$

이다. 이는 간단히 증명된다. (Since $Q$하에서 $N(\mu_2, \sigma_2)$ 이기 위해서는 $\frac{1}{\sqrt{2\pi} \sigma_2 }e^{-\frac{(x-\mu_2)^2}{2\sigma^2_2}}$ 이어야 하므로 $P$ 의 분포가 역수로 들어가게 된다. 어차피 exp를 미분해도 exp 함수는 남는다.)

PreDefinition

Theorem : General Bayes Formula

Let $\mathcal{G}$ be a sub-$\sigma$-field of $\mathcal{F}$ on which two probablity measure $Q$ and $P$ are defined. If $Q << P$ with $dQ = \Lambda dP$ and $X$ is $Q$-integrable, then $\Lambda X%$ is $P$-integrable and $Q$-a.s.

$$ E_Q(X|\mathcal{G}) = \frac{E_p(X\Lambda|\mathcal{G})}{E_P(X|\mathcal{G})}$$

proof

$$ E_Q(\xi X)= E_Q(\xi E_Q(X|\mathcal{G}))$$

이므로

$$ \begin{align*} E_Q\left( \frac{E_P(X \Lambda | \mathcal{G})}{E_P(\Lambda | \mathcal{G})} \xi \right) &= E_P\left(\Lambda \frac{E_P(X \Lambda | \mathcal{G})}{E_P(\Lambda | \mathcal{G})} \xi \right) \\ &= E_P\left(E_P(\Lambda | \mathcal{G}) \frac{E_P(X \Lambda | \mathcal{G})}{E_P(\Lambda | \mathcal{G})} \xi \right) \\ &=E_P(E_P(X \Lambda | \mathcal{G}) \xi) = E_P(X \Lambda \xi) = E_Q(X\xi) \end{align*}$$

그러므로

$$ E_Q(\xi X)= E_Q(\xi E_Q(X|\mathcal{G})) = E_Q\left( \frac{E_P(X \Lambda | \mathcal{G})}{E_P(\Lambda | \mathcal{G})} \xi \right)$$

관계에서 증명 끝

Theorem 2

$dQ/dP = \Lambda(T)$ 일떄

$$ E_Q(X|\mathcal{F}_s) = E_P \left( X \frac{\Lambda(t)}{\Lambda(s)}|\mathcal{F}_s \right)$$

Theorem : Girsanov Theorem for Brownian Motion

  • Let $B(t), 0 \leq t \leq T$, be a Brownian Motion under probability measure $P$.
  • Consider the process

    $$
    W(t) = B(t) + \mu t$$

  • Define the measure $Q$ by

    $$
    \Lambda = \frac{dQ}{dP}(B_{[0, T]})= \exp (-\mu B(T) – \frac{1}{2} \mu^2 T)$$

    where $B_{[0, T]}$ denotes a path of Brownian motion on $[0,T]$. Then $Q$ is equivalent to $P$ , and $W(t)$ is a $Q$– Brownian motion.

    $$
    \Lambda = \frac{dP}{dQ}(W_{[0, T]})= \exp (-\mu W(T) – \frac{1}{2} \mu^2 T)$$

Theorem : Girsanov Theorem for Removal of Drift

Brownian Motion의 경우 Girsanov Theorem은 이미 앞에서 살펴보았다.
Drift가 없는 경우의 Girsanov Theorem은 다음과 같다.
Let $B(t)$ be a $P$-Brownian motion, and $H(t)$ is such that $X(t)=-\int_0^t H(s)dB(s)$ is defined (it means that $dX_t = H(t)dB_t$) moreover $\mathcal{E}(X)$ is a martingale. Define an equivalent measure $Q$ by

$$ \Lambda = \frac{dQ}{dP}(B) = e^{-\int^T_0 H(s) dB(s) – \frac{1}{2}\int H^2(s)ds} = \mathcal{E}(X)(T).$$

Then the process

$$ W_t = B_t + \int^t_0 H(s) ds$$

is a $Q$-Brownian Motion

위의 결과를 사용하여 간략히 생각해보면 다음과 같다.

Theorem : Simple Concept

Let $M_1(t), 0 \leq t \leq T$ be a continous $P$-martingale. Let $X_t$ be a continuous $P$-martingale such that $\mathcal{E}(X)$ is a martingale. Define a new probablity measure $Q$ by

$$ \frac{dQ}{dP} = \Lambda = \mathcal{E}_T = e^{X_T – \frac{1}{2}[X,X]_T}$$

Then

$$ M_2(t) = M_1(t) – [M, X]_t$$

is a continuous martingale under $Q$

여기에서 일반적인 형태의 Girsanov Theorem을 살펴본다.

Change of Drift in Diffusions

Let $X_t$ be a diffusion, so that with a P-Brownian motion $B_t$, $X_t$ satisfies the following stochastic differential equation wothj $\sigma(x,t) > 0$

$$ dX_t = \mu_1 (X_t, t)dt + \sigma(X_t, t)dB_t$$

Let

$$ H_t = \frac{\mu_1(X_t,t) – \mu_2(X_t, t)}{\sigma(X_t, t)}$$

and define $Q$ by $dQ = \Lambda dP$ with

$$ \Lambda = \frac{dQ}{dP} = \mathcal{E}(-\int^{\cdot}_{0}H_t dB_t ) = e^{-\int^T_0 H_t dB_t – \frac{1}{2}\int^T_0 H^2_t dt}$$

By Girsanov Theorem, provided the process $\mathcal{E}(H \cdot B)$ is a martingale, the process

$$ W_t = B_t + \int^t_0 H_s ds$$

is a $Q$-Brownian motion. But

$$ dW_t = dB_t + H_t dt = dB_t + \frac{\mu_1(X_t,t) – \mu_2(X_t, t)}{\sigma(X_t, t)} dt$$

Rearranging, we obtain the equation for $X_t$

$$ dX_t = \mu_2(X_t, t)dt + \sigma(X_t,t)dW_t$$

with a $Q$-Brownian motion $W_t$

Basic Idea

즉, Girsanov Theorem은 Brownian Motion에 관한 내용이므로 Diffusion Process $X_t$ 가 서로다른 Measure를 가진 Brownian Motion에서 동일하게 나타나야 하므로 다음의 관계를 만족한다.

$$ \mu_1(X_t,t)dt + \sigma(X_t,t)dB_t = \mu_2(X_t,t)dt + \sigma(X_t,t)dW_t$$

그러므로

$$ \begin{align*} (\mu_1(X_t,t) – \mu_2(X_t,t))dt + \sigma(X_t,t)dB_t &= \sigma(X_t,t)dW_t \\ \frac{\mu_1(X_t,t) – \mu_2(X_t,t)}{ \sigma(X_t,t)}dt + dB_t &= dW_t \\ H_t dt + dB_t &= dW_t \\ \end{align*}$$

따라서

$$ W_t = B_t + \int^t_0 H_s ds$$

이로서 Brownian Motion 만의 관계로 정리한다.

Notice

  1. 결국 stochastic differential equation 에서 중요한 것은 Brownian motion $B_t$ 혹은 $W_t$ 가 측도가 변하더라도 계속 그에 맞는 측도에 따라 Brownian motion이 되어야 한다는 것이다.
  2. 따라서 Drift 부분은 Girsanov Theorem의 관심대상이 아니다. $W_t = B_t + \int \theta(t) dt$ 와 같이 되더라도 계속 Brownian motion으로 남아 있도록 $dQ = \Lambda dP$ 가 되도록 하는 $\Lambda$ 가 존재하면 SDE는 결국 똑같은 SDE가 된다.
  3. 앞절에서 살펴본 $X_t = W_t + \theta t $의 형태는 일반적인 형태에서 $X_t = W_t + \int^t_0 H(s) ds$ 의 형태가 되는 것이다. 즉, $dW_t = dB_t + H(s)ds$ 인 것이다. 결국 변형된 Wiener Process에 대한 SDE의 Consistency 조건이 바로 Girsanov Theorem이다.
  4. Drift가 변하는 경우에 대하여 간략히 생각해보면 먼저 $dW_t$에 대한 Drift 변화를 Scaling 해서 $dB_t$에 대한 Drift로 바꾸고 이에 따른 $dW_t$ 항의 변화치를 가지고 Girsanov Theorem을 적용하는 것이다.
    • 결론적으로 Brownian Motion을 다르게 정의하여 Measure가 변화할 경우 Drift가 변하여야 한다. Drift가 변화하지 않는 경우에는 Brownian Motion이 변화할 수 없다.
  5. Wiener Process가 $dB_t$ 에서 $dW_t = dB_t + H_t dt$ 의 형태라고 하면 Girsanov Theorem에 의해

    $$ \frac{dQ}{dP}=\Lambda = e^{-\int^t_0 H_s dB_s – \frac{1}{2}\int^t_0 H^2_s ds}$$

즉, $[B_t H_t] = \int^t_0 H_s dB_s$ process와 Normalized factor $- \frac{1}{2} \int^t_0 H^2_s ds$로 구성된다는 것을 알 수 있다. 즉, Normalized Exponential Process로 측도를 변화시키면 된다는 뜻이다.

이는 앞절에서 $\exp(-\theta W_t – \frac{1}{2} \theta^2 t)$와 동일한 의미이다. $\theta$ 가 함수가 아닌 상수라서 이러한 표현이 나타난 것일 뿐이다.
즉, $\exp(-\int^t_0 \theta(s)dW_s – \frac{1}{2} \int^t_0 \theta^2(s) ds)$ 로 표현해도 같은 것이다.

Likelihood Functions

일반적인 형태의 Girsanov Theorem의 가장 좋은 Application중의 하나는 Likelihood 이다.
이것의 개념은 만일 두 모델 P, Q 가 있고 이것의 Normalized 적합성을 각각 $P, Q$ 라 하면, Radon-Nykodym Derivation에 의한 $\Lambda = dQ/dP $ 를 통해 Likelihood를 계산해 내는 것이다.
The Likelihood is the Radon-Nykodym Derivative $\Lambda = dQ/dP $

Likelihood ratio for Diffusions

SDE with $dB_t, \, P$-Brownian Motion : $dX_t = \mu_1(X_t, t) dt + \sigma(X_t, t) dB_t$
SDE with $dW_t, \, Q$-Brownian Motion : $dX_t = \mu_2(X_t, t) dt + \sigma(X_t, t) dW_t$

Drift가 서로 다르므로 앞에서와 마찬가지로 다음과 같은 Scaling Function을 도입한다.

$$ H_t = \frac{\mu_2(X_t,t) – \mu_1(X_t, t)}{\sigma(X_t, t)}$$

이 경우, Radon-Nykodym Derivative $\Lambda$ 는 다음과 같다.

$$ \Lambda(X_{[0,T]}) = \frac{dQ}{dP} = \exp\left(\int^T_0 H_t dB_t – \frac{1}{2} \int^T_0 H^2_t dt \right)$$

이를 풀어서 쓰면 다음과 같다.

$$ \Lambda(X_{[0,T]}) = \frac{dQ}{dP} = \exp\left(\int^T_0 \frac{\mu_2(X_t,t) – \mu_1(X_t, t)}{\sigma(X_t, t)} dB_t – \frac{1}{2} \int^T_0 \left(\frac{\mu_2(X_t,t) – \mu_1(X_t, t)}{\sigma(X_t, t)}\right)^2 dt \right)$$

그런데 실제로 관측되는 Process는 보통 $X_t$ 이다. ($B_t$는 가상의 프로세스이기는 하다.) 그러므로 실제로 위 값을 계산하기 위해서는 $dB_t$항을 $x_t$항의 적분으로 바꾸어야 한다. 이는 결국

$$ dB_t = \frac{dX_t – \mu_1(X_t,t)dt}{\sigma(X_t, t)}$$

이를 적분항에 대입하여 정리하면

$$ \int^T_0 \frac{\mu_2(X_t,t) – \mu_1(X_t, t)}{\sigma(X_t, t)} \cdot \frac{dX_t – \mu_1(X_t,t)dt}{\sigma(X_t, t)} = \int^T_0 \frac{\mu_2(X_t,t) – \mu_1(X_t, t)}{\sigma^2(X_t, t)}dX_t – \int^T_0 \frac{\mu_1(X_t, t)\mu_2(X_t,t) – \mu^2_1(X_t, t)}{\sigma^2(X_t, t)}dt$$

따라서 Radon-Nykodym Derivative $\Lambda$ 는 다음과 같이 변경된다.

$$ \Lambda(X_{[0,T]}) = \frac{dQ}{dP} = \exp\left(-\int^T_0 \frac{\mu_2(X_t,t) – \mu_1(X_t, t)}{\sigma^2(X_t, t)} dX_t – \frac{1}{2} \int^T_0 \frac{\mu^2_2(X_t,t) – \mu^2_1(X_t, t)}{\sigma^2(X_t, t)} dt \right) \tag{1}$$

이것이 Diffusion 모델의 Likelihood 가 된다. 이를 사용한 응용을 살펴보면 다음과 같다.

Hypotheses Testing

어떤 신호가 White Noise 인지 그렇지 않으면 어떤 Diffusion을 가진 SDE 모델인지를 Test한다고 해보자.
White Noise는 $P$-Measurable 이라고 하고 (혹은 Null Hypothesis), 다른 하나는 $Q$-measurable Hypothesis 라고 하자. 그리고

$H_0$ Noise $dX_t = dB_t$
$H_1$ Noise + Signal $dX_t = h(t)dt + dB_t$

이 경우, $\mu_1(x,t)=0, \mu_2(x,t)=h(t), \sigma(x,t)=1$ 이다. 이를 위의 Diffusion에서의 Likelihood에 대입하면

$$ \Lambda(X)_{T} = \frac{dQ}{dP} = e^{\int^T_0 h(t) dX_t -\frac{1}{2}\int^T_0 h^2 (t) dt}$$

위 값이 어떤 값 보다 크다 즉, $\Lambda(X)_{T} \geq k$ 이면 이는 두 프로세스 $H_0, H_1$ 이 유사하다는 의미 이므로 Noise에 가깝다, 혹은 Noise가 많다 라고 볼 수 있고 확률을 사용하여 다음과 같이 표시할 수도 있다.

$$ P(e^{\int^T_0 h(t) dX_t -\frac{1}{2}\int^T_0 h^2 (t) dt} \geq k) = \alpha$$

k 보다 큰 값이 나올 확률이 $\alpha$ 이면 Noise 다, 라고 테스트 결과를 결정할 수 있다.

Estimation in Ornstein-Uhlenbeck Model

다음의 friction parameter를 갖는 Ornsteign-Uhlenbeck Model 을 생각하자.

$$ dX_t = -\alpha X_t dt + \sigma dB_t$$

이때 $X_t$에 대한 Probality는 $P_{\alpha}$, $\sigma B_t$의 Probablity는 $P_0$라고 할 때
이렇게 되면 방정식 (1)에 따라 Likelihood 함수는 다음과 같다.

$$ \Lambda(X)_{T} = \frac{dP_{\alpha}}{dP_0} = \exp\left(\int^T_0 \frac{-\alpha X_t}{\sigma^2} dX_t -\frac{1}{2}\int^T_0 \frac{\alpha^2 X^2_t}{\sigma^2} dt \right)$$

$exp$ 함수 내부를 미분하여 최대값이 나오는 $\alpha$를 구하면 다음과 같다.

$$ \hat{\alpha} = \frac{\int^T_0 X_t dX_t}{\int^T_0 X^2_t dt}$$

Remark

Likelihood 를 논할 때 비교가 되는 두 모델은 동일한 Wiener Process를 공유하고 있어야 한다. 만일 양 모델이 서로 다른 모델을 공유하고 있다고 하면, 당연하게도 Radon-Dykodym Derivative 값이 Singular가 되어 Likelihood를 계산할 수 없게 된다.

댓글 남기기