코인 토스 예제에 기대 극대화 적용 있습니다 c0씨0c_0 , c1씨1c_1

나는 최근에 Expectation Maximization을 스스로 연구했고 그 과정에서 몇 가지 간단한 예를 들었습니다.

에서 여기에 세 동전이 있습니다 $c_{0}$

씨_{0}

$c_0$ , $c_{1}$

씨_{1}

$c_1$ 과 $c_{2}$

씨_{2}

$c_2$ 와 $p_{0}$

피_{0}

$p_0$ , $p_{1}$

피_{1}

$p_1$ 과 $p_{2}$

피_{2}

$p_2$ 던져 머리에 착륙 각각의 확률. 던 $c_{0}$

씨_{0}

$c_0$ 졌습니다. 결과가 Head이면 $c_{1}$

씨_{1}

$c_1$ 3 번 던지거나 그렇지 않으면 $c_{2}$

씨_{2}

$c_2$ 3 번 던지십시오 . $c_{1}$

씨_{1}

$c_1$ 및 의해 생성 된 관찰 된 데이터는 $c_{2}$

씨_{2}

$c_2$ HHH, TTT, HHH, TTT, HHH와 같습니다. 숨겨진 데이터는 의 결과입니다 $c_{0}$

씨_{0}

$c_0$ . 추정 $p_{0}$

피_{0}

$p_0$ , $p_{1}$

피_{1}

$p_1$ 및 $p_{2}$

피_{2}

$p_2$ .

그리고에서 여기 : 두 개의 동전이 있습니다 $c_{A}$

씨_{ㅏ}

$c_A$ 와 $c_{B}$

c_{B}

$c_B$ 와 $p_{A}$

p_{A}

$p_A$ 및 $p_{B}$

p_{B}

$p_B$ 던져 때 머리에 착륙 각각의 확률 인가. 각 라운드마다 동전 하나를 무작위로 골라 10 번 던집니다. 결과를 기록하십시오. 관찰 된 데이터는이 두 코인이 제공 한 던지기 결과입니다. 그러나 특정 라운드에 어떤 동전이 선택되었는지는 알 수 없습니다. $p_{A}$

p_{A}

$p_A$ 와 추정합니다 $p_{B}$

p_{비}

$p_B$ .

계산을 할 수는 있지만 해결 방법을 원래 EM 이론과 연관시킬 수는 없습니다. 특히, 두 예제의 M-Step 중에는 어떻게 최대화하는지 알 수 없습니다. 매개 변수를 다시 계산하는 것처럼 보이며 어쨌든 새 매개 변수가 이전 매개 변수보다 낫습니다. 더욱이, 두 개의 E- 단계는 원래 이론의 E- 단계를 언급하지 않고 서로 비슷해 보이지 않습니다.

그렇다면이 예제들은 정확히 어떻게 작동합니까?

답변

(이 답변은 귀하가 제공 한 두 번째 링크를 사용합니다.)

$\newcommand{\Like}{\text{L}}\newcommand{\E}{\text{E}}$

L [θ | X] = Pr [X | θ] = \sum_{Z} Pr [X, Z | θ]

$\Like[\theta | X] = \Pr[X| \theta] = \sum_Z \Pr[X, Z | \theta]$ $θ = (θ_{A}, θ_{B})$

θ = (θ_{A}, θ_{B})

$\theta = (\theta_A, \theta_B)$ $X = (X_{1}, \dots, X_{5})$

X = (X_{1}, \dots, X_{5})

$X = (X_1, \dotsc, X_5)$ $X_{i}$

X_{i}

$X_i$ $Z = (Z_{1}, \dots, Z_{5})$

Z = (Z_{1}, \dots, Z_{5})

$Z = (Z_1, \dotsc, Z_5)$

우리는 최대 우도 추정기 찾으려면 . 기대치 – 최대화 (EM) 알고리즘 (최소 발견하는 하나의 이러한 방법 . 조건부 기대 값을 찾아서 작동하며 를 최대화하는 데 사용됩니다 . 아이디어는
각 반복에서 더 가능성이 높은 (즉, 더 가능성이 높은) 를 지속적으로 찾아서 $\hat{θ}$

\hat{θ}

$\hat{\theta}$ $\hat{θ}$

\hat{θ}

$\hat{\theta}$ $θ$

θ

$\theta$ $θ$

θ

$\theta$ 는 우도 함수를 증가시킵니다. EM 기반 알고리즘을 설계하기 전에 수행해야 할 세 가지가 있습니다. $Pr [X, Z | θ]$

홍보 [엑스, 지 | θ]

$\Pr[X,Z|\theta]$

모델 구성
모델 하의 조건부 기대 계산 (E-Step)
현재 추정치를 업데이트하여 가능성을 극대화 (M-Step) $θ$

모델 구성

EM을 계속 진행하기 전에 정확히 그것이 무엇인지 계산해야합니다. E- 단계에서는 . 이 값은 무엇입니까? 그
$\log Pr [X, Z | θ]$

로그 홍보 [엑스, 지 | θ]

$\log \Pr[X,Z|\theta]$

\begin{aligned} 로그 홍보 [엑스, 지 | θ] & = \sum_{나는 = 1}^{5} 로그 \sum_{씨 \in {ㅏ, 비}} 홍보 [{엑스}_{나는}, 지_{나는} = 씨 | θ] \\ = \sum_{나는 = 1}^{5} 로그 \sum_{씨 \in {ㅏ, 비}} 홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ] \cdot \frac{홍보 [{엑스}_{나는}, 지_{나는} = 씨 | θ]}{홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ]} \\ \geq \sum_{나는 = 1}^{5} \sum_{씨 \in {ㅏ, 비}} 홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ] \cdot 로그 \frac{홍보 [{엑스}_{나는}, 지_{나는} = 씨 | θ]}{홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ]} . \end{aligned}

$\begin{align*} \log \Pr[X,Z|\theta] &= \sum_{i=1}^5 \log\sum_{C\in \{A,B\}}\Pr[X_i, Z_i=C| \theta]\\ &=\sum_{i=1}^5 \log\sum_{C\in \{A,B\}} \Pr[Z_i=C | X_i, \theta] \cdot \frac{\Pr[X_i, Z_i=C| \theta]}{\Pr[Z_i=C | X_i, \theta]}\\ &\geq \sum_{i=1}^5 \sum_{C\in \{A,B\}} \Pr[Z_i=C | X_i, \theta] \cdot \log\frac{\Pr[X_i, Z_i=C| \theta]}{\Pr[Z_i=C | X_i, \theta]}. \end{align*}$
그 이유는 5 가지 실험이 있고 각 동전에 어떤 동전이 사용되었는지 모르기 때문입니다. 불평등은 가 오목하고 Jensen의 불평등을 적용 하기 때문 입니다. 하한이 필요한 이유는 원래 방정식에 대한 arg max를 직접 계산할 수 없기 때문입니다. 그러나 최종 하한값을 계산할 수 있습니다. $\log$

로그

$\log$

이제 ? 실험 및 주어지면 코인 볼 확률입니다 . 조건부 확률을 사용하여 $Pr [Z_{i} = C | X_{i}, θ]$

홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ]

$\Pr[Z_i=C|X_i,\theta]$ $C$

씨

$C$ $X_{i}$

{엑스}_{나는}

$X_i$ $θ$

θ

$\theta$

홍보 [지_{나는} = 씨 | {엑스}_{나는}, θ] = \frac{홍보 [{엑스}_{나는}, 지_{나는} = 씨 | θ]}{홍보 [{엑스}_{나는} | θ]} .

$\Pr[Z_i=C| X_i, \theta] = \frac{\Pr[X_i, Z_i = C|\theta]}{\Pr[X_i|\theta]}.$

우리는 약간의 진전을 이루었지만 아직 모델을 완성하지 못했습니다. 주어진 코인이 시퀀스 뒤집었을 확률은 얼마입니까? 시키는 $X_{i}$

{엑스}_{나는}

$X_i$ $h_{i} = # heads in X_{i}$

h_{나는} = # 머리 {엑스}_{나는}

$h_i = \#\text{heads in } X_i$

이제는또는의 두 가지 가능성 모두에서 확률 일뿐입니다. 이후

홍보 [{엑스}_{나는}, 지_{나는} = 씨 | θ] = \frac{1}{2} \cdot θ_{씨}^{h_{나는}} (1 - θ_{씨})^{10 - h_{나는}}, …에 대한 씨 \in {ㅏ, 비} .

$\Pr[X_i, Z_i = C| \theta] = \frac{1}{2} \cdot \theta_C^{h_i} (1 - \theta_C)^{10 - h_i},\ \text{ for } \ C \in \{A, B\}.$ $Pr [X_{i} | θ]$

홍보 [{엑스}_{나는} | θ]

$\Pr[X_i|\theta]$ $Z_{i} = A$

지_{나는} = ㅏ

$Z_i=A$ $Z_{i} = B$

지_{나는} = 비

$Z_i=B$ 우리가,
$Pr [Z_{i} = A] = Pr [Z_{i} = B] = 1 / 2$

홍보 [지_{나는} = ㅏ] = 홍보 [지_{나는} = 비] = 1 / 2

$\Pr[Z_i = A] = \Pr[Z_i = B] = 1/2$

홍보 [{엑스}_{나는} | θ] = 1 / 2 \cdot (홍보 [{엑스}_{나는} | 지_{나는} = ㅏ, θ] + 홍보 [{엑스}_{나는} | 지_{나는} = 비, θ]) .

$\Pr[X_i|\theta] = 1/2 \cdot (\Pr[X_i |Z_i = A, \theta] + \Pr[X_i |Z_i = B, \theta]).$

전자 단계

알았어 .. 재미 있지는 않았지만 이제 EM 작업을 시작할 수 있습니다. EM 알고리즘은 대해 임의의 추측을하는 것으로 시작합니다 . 이 예에서는 입니다. 우리는
$θ$

θ

$\theta$ $θ^{0} = (0.6, 0.5)$

θ^{0} = (0.6, 0.5)

$\theta^0 = (0.6,0.5)$
이 값은 논문의 내용과 일치합니다. 이제동전,
에서에서예상 헤드 수를 계산할 수 있습니다

홍보 [지_{1} = ㅏ | {엑스}_{1}, θ] = \frac{1 / 2 \cdot ({0.6}^{5} \cdot {0.4}^{5})}{1 / 2 \cdot (({0.6}^{5} \cdot {0.4}^{5}) + ({0.5}^{5} \cdot {0.5}^{5}))} \approx 0.45.

$\Pr[Z_1=A|X_1,\theta] = \frac{1/2 \cdot (0.6^5 \cdot 0.4^5)}{1/2 \cdot ((0.6^5 \cdot 0.4^5) + (0.5^5 \cdot 0.5^5))} \approx 0.45.$ $X_{1} = (H, T, T, T, H, H, T, H, T, H)$

{엑스}_{1} = (H, 티, 티, 티, H, H, 티, H, 티, H)

$X_1 = (H,T,T,T,H,H,T,H,T,H)$ $A$

ㅏ

$A$ 우리가 얻는
동전 대해 똑같은 일을한다.

이자형 [# 동전으로 머리 ㅏ | {엑스}_{1}, θ] = h_{1} \cdot 홍보 [지_{1} = ㅏ | {엑스}_{1}, θ] = 5 \cdot 0.45 \approx 2.2.

$\E[\# \text{heads by coin }A | X_1, \theta] = h_1 \cdot \Pr[Z_1=A|X_1,\theta] = 5 \cdot 0.45 \approx 2.2.$ $B$

비

$B$ 을
로 대체하여 꼬리 수에 대해 동일하게 계산할 수 있습니다. 이것은 및 다른 모든 값에 대해 계속됩니다. 기대의 선형성 덕분에 우리는 알아낼 수 있습니다

이자형 [# 동전으로 머리 비 | {엑스}_{1}, θ] = h_{1} \cdot 홍보 [지_{1} = 비 | {엑스}_{1}, θ] = 5 \cdot 0.55 \approx 2.8.

$\E[\# \text{heads by coin }B | X_1, \theta] = h_1 \cdot \Pr[Z_1=B|X_1,\theta] = 5 \cdot 0.55 \approx 2.8.$ $h_{1}$

h_{1}

$h_1$ $10 - h_{1}$

10 - h_{1}

$10 - h_1$ $X_{i}$

{엑스}_{나는}

$X_i$ $h_{i}$

h_{나는}

$h_i$ $1 \leq i \leq 5$

1 \leq 나는 \leq 5

$1 \leq i \leq 5$

이자형 [# 동전으로 머리 ㅏ | 엑스, θ] = \sum_{나는 = 1}^{5} 이자형 [# 동전으로 머리 ㅏ | {엑스}_{나는}, θ]

$\E[\#\text{heads by coin } A|X ,\theta] = \sum_{i=1}^5 \E[\# \text{heads by coin }A | X_i, \theta]$

M 단계

$θ$

θ

$\theta$

θ_{ㅏ}^{1} = \frac{이자형 [# 머리 위로 엑스 동전으로 ㅏ | 엑스, θ]}{이자형 [# 머리와 꼬리 엑스 동전으로 ㅏ | 엑스, θ]} = \frac{21.3}{21.3 + 9.6} \approx 0.71.

$\theta_A^1 = \frac{E[\#\text{heads over } X \text{ by coin } A|X ,\theta]}{E[\#\text{heads and tails over } X \text{ by coin } A|X ,\theta]} = \frac{21.3}{21.3 + 9.6} \approx 0.71.$ $B$

비

$B$ $θ^{1}$

θ^{1}

$\theta^1$ $θ$

θ

$\theta$ $\hat{θ} = θ^{10} = (0.8, 0.52)$

\hat{θ} = θ^{10} = (0.8, 0.52)

$\hat{\theta} = \theta^{10} = (0.8, 0.52)$ $Pr [X, Z | θ]$

홍보 [엑스, 지 | θ]

$\Pr[X,Z|\theta]$ $θ$

θ

$\theta$ .

$\hat{θ}$

\hat{θ}

$\hat{\theta}$

How IT

언제든지 물어보세요.

코인 토스 예제에 기대 극대화 적용 있습니다 c0씨0c_0 , c1씨1c_1

답변

답변