EM Algorithm

I'd like to talk about something about EM algorithm in my understanding.

This post is mainly based on Richard Xu's machine learning course.

Gaussian Mixture Model

Gaussian Mixture Model (GMM) (k-mixture) is defined as: $\begin{matrix} (1) & p (X | Θ) = \sum_{l = 1}^{k} α_{l} N (X | μ_{l}, Σ_{l}) \end{matrix}$

$\begin{matrix} (2) & \sum_{l = 1}^{k} α_{l} = 1 \end{matrix}$

and $\begin{matrix} (3) & Θ = {α_{1}, \dots, α_{k}, μ_{1}, \dots, μ_{k}, Σ_{1}, \dots, Σ_{k}} \end{matrix}$

For data $X = {x_{1}, \dots, x_{n}}$ , we introduce latent variable $Z = {z_{1}, \dots, z_{n}}$ , each $z_{i}$ indicates which mixture components $x_{i}$ belongs to. (The introduction of latent variable should not change the marginal distribution of $p (X)$ .)

Then we can use MLE to estimate $Θ$ : $\begin{matrix} (4) & Θ_{M L E} = \underset{Θ}{\arg max} (\sum_{i = 1}^{N} \log [\sum_{l = 1}^{k} α_{l} N (x_{i} | μ_{l}, Σ_{l})]) \end{matrix}$

This formula is difficult to solve because it is in 'log-of-sum' form. So, we solve this problem in an iterative way, called Expectation Maximization.

Expectation Maximization

Instead of performing $\begin{matrix} (5) & Θ_{M L E} = \arg max Θ (L (Θ)) = \underset{Θ}{\arg max} (\log (p (X | Θ))) \end{matrix}$

we assume some latent variable $Z$ to the model, such that we generate a series of $Θ = {Θ^{(1)}, Θ^{(2)}, \dots, Θ^{(t)}}$ .

For each iteration of the E-M algorithm, we perform: $\begin{matrix} (6) & Θ^{(g + 1)} = \underset{Θ}{\arg max} (\int_{Z} \log (p (X, Z | Θ) p (Z | X, Θ^{(g)}))) d Z \end{matrix}$

We must ensure convergence: $\begin{matrix} (7) & \log p (X | Θ^{(g + 1)}) \geq \log p (X | Θ^{(g)}) \end{matrix}$ Proof : $\begin{matrix} (8) & E_{p (Z | X, Θ^{(g)})} [\log p (X | Θ)] = E_{p (Z | X, Θ^{(g)})} [\log p (X, Z | Θ) - \log p (Z | X, Θ)] \end{matrix}$

$\begin{matrix} (9) & \log p (X | Θ) = \int_{Z} \log p (X, Z | Θ) p (Z | X, Θ^{(g)}) d Z - \int_{Z} \log p (Z | X, Θ) p (Z | X, Θ^{(g)}) d Z \end{matrix}$

denote $Q (Θ, Θ^{(g)}) = \int_{Z} \log p (X, Z | Θ) p (Z | X, Θ^{(g)}) d Z H (Θ, Θ^{(g)}) = \int_{Z} \log p (Z | X, Θ) p (Z | X, Θ^{(g)}) d Z$ then we have $\begin{matrix} (10) & \log p (X | Θ) = Q (Θ, Θ^{(g)}) - H (Θ, Θ^{(g)}) \end{matrix}$ Because $Q (Θ^{(g)}, Θ^{(g)}) \leq Q (Θ^{(g + 1)}, Θ^{(g)}) H (Θ^{(g)}, Θ^{(g)}) \geq H (Θ^{(g + 1)}, Θ^{(g)})$ the second inequality can be derived using Jensen's inequality.

Hence , $\begin{matrix} (11) & \log p (X | Θ^{(g + 1)}) \geq \log p (X | Θ^{(g)}) \end{matrix}$

Using EM algorithm to solve GMM

Put GMM into this frame work. $\begin{matrix} (12) & Θ^{(g + 1)} = \underset{Θ}{\arg max} [Q (Θ, Θ^{(g)})] = \underset{Θ}{\arg max} (\int_{Z} \log (p (X, Z | Θ) p (Z | X, Θ^{(g)}))) d Z \end{matrix}$ E-Step:

Define $p (X, Z |)$ : $\begin{matrix} (13) & p (X, Z | Θ) = Π_{i = 1}^{n} p (x_{i}, z_{i} | Θ) = Π_{i = 1}^{n} p (x_{i} | z_{i}, Θ) p (z_{i} | Θ) = Π_{i = 1}^{n} α_{z_{i}} N (μ_{z_{i}}, Σ_{z_{i}}) \end{matrix}$ Define $p (Z | X, Θ)$ : $\begin{matrix} (14) & p (Z | X, Θ) = Π_{i = 1}^{n} p (z_{i} | x_{i}, Θ) = Π_{i = 1}^{n} \frac{α_{z_{i}} N (μ_{z_{i}}, Σ_{z_{i}})}{\sum_{l = 1}^{k} α_{l} N (μ_{l}, Σ_{l})} \end{matrix}$ Then $Q (Θ, Θ^{(g)}) = \sum_{z_{1} = 1}^{k} \sum_{z_{2} = 1}^{k} \dots \sum_{z_{N} = 1}^{k} (\sum_{i = 1}^{N} [\log α_{z_{i}} + \log N (μ_{z_{i}}, Σ_{z_{i}})] * Π_{i = 1}^{N} p (z_{i} | x_{i}, Θ^{(g)}))$ $\begin{matrix} (15) & = \sum_{i = 1}^{N} \sum_{l = 1}^{k} (\log α_{l} + \log N (μ_{l}, Σ_{l})) p (l | x_{i}, Θ^{(g)}) \end{matrix}$

M-Step: $\begin{matrix} (16) & Q (Θ, Θ^{(g)}) = \sum_{i = 1}^{N} \sum_{l = 1}^{k} \log (α_{l}) p (l | x_{i}, Θ^{(g)}) + \sum_{i = 1}^{N} \sum_{l = 1}^{k} \log N (μ_{l}, Σ_{l}) p (l | x_{i}, Θ^{(g)}) \end{matrix}$ The first term contains only $α$ and the second term contains only $μ, Σ$ , so we can maximize both terms independantly.

Maximizing $α$ means that: $\begin{matrix} (17) & \frac{\partial \sum_{i = 1}^{N} \sum_{l = 1}^{k} \log (α_{l}) p (l | x_{i}, Θ^{(g)})}{\partial α_{1} \dots \partial α_{k}} = 0 \end{matrix}$ subject to $\sum_{l = 1}^{k} = 1$ .

Solving this problem via Lagrangian Multiplier, we have $\begin{matrix} (18) & α_{l} = \frac{1}{N} \sum_{i = 1}^{N} p (l | x_{i}, Θ^{(g)}) \end{matrix}$ Similarly, we can solve $μ$ and $Σ$ .