Huffman 编码的估计-526互联

\(\newcommand{\HH}{\operatorname{H}}\)

我们熟知一些说法, 比如一个二叉树如果第 \(i\) 个节点的访问次数是 \(w_i\), 那么最优的建树会使得总共访问节点次数是

\[O\left(\sum w_i \log \frac{W}{w_i}\right ) \]

量级的, 其中 \(W = \sum w_i\).

那么这个说法到底有多精确呢? 我们不妨考虑最常考虑的 Huffman 树问题, 也不妨把次数转化成频率, 设一个节点被访问的频率是 \(p_i\), 也即 \(\sum p_i = 1\), 那么我们希望一次随机访问期望深度是

\[O\left( \sum p_i \log \frac 1{p_i} \right), \]

这正是信息熵的式子, 写作 \(\HH (p) = \sum p\log(1/p)\).

下界

我们首先证明任何树, 随机访问的深度都至少是 \(\HH_2(p)\).

当合并两个频率分别为 \(x, y\) 的子树时, 我们会支付 \(x+y\) 的代价, 而注意到

\[ \begin{align*} &\quad (x+y)\log_2(x+y) - x\log_2 x - y\log_2 y\\ &= x\log_2 \left(1 + \frac y x \right) + y\log_2 \left(1 + \frac x y\right)\\ &= x\left[\log_2 \left(1 + \frac y x \right) + \frac y x\log_2 \left(1 + \frac x y\right)\right]\\ &\leq x \left[1 + \frac y x\right]\\ &= x + y, \end{align*} \]

我们利用这个裂项, 可以得到期望深度的下界.