熵编码法-族谱新闻-族谱网

熵编码法

2020-10-16

出处：族谱网

作者：阿族小谱

浏览:619次

转发:0次

评论:0

编码使用长度不同的比特串对字母进行编码有一定的困难。尤其是，几乎所有几率的熵都是一个有理数。使用整数比特（bit）霍夫曼编码建议了一种将比特进位成整数的算法，但这个算法在特定情况下无法达到最佳结果。为此有人加以改进，提供最佳整数比特数。这个算法使用二叉树来设立一个编码。这个二叉树的终端节点代表被编码的字母，根节点代表使用的比特。除这个对每个要编码的数据产生一个特别的表格的方法外还有使用固定的编码表的方法。比如加入要编码的数据中符号出现的概率匹配一定的规则的话就可以使用特别的变长编码表。这样的编码表具有一定的系数来使得它适应实际的字母出现概率。改进使用整数比特的方法往往无法获得使用熵计算的比特数，因此其压缩并非一定最佳。比如字母列由两个不同的字母组成，其中一个字母的可能性是p(A)=0.75{\displaystyle\mathrm{p}(A)=0{.}75}，另一个字母的可能性是p(B)=...

编码

使用长度不同的比特串对字母进行编码有一定的困难。尤其是，几乎所有几率的熵都是一个有理数。

使用整数比特（bit）

霍夫曼编码建议了一种将比特进位成整数的算法，但这个算法在特定情况下无法达到最佳结果。为此有人加以改进，提供最佳整数比特数。这个算法使用二叉树来设立一个编码。这个二叉树的终端节点代表被编码的字母，根节点代表使用的比特。

除这个对每个要编码的数据产生一个特别的表格的方法外还有使用固定的编码表的方法。比如加入要编码的数据中符号出现的概率匹配一定的规则的话就可以使用特别的变长编码表。这样的编码表具有一定的系数来使得它适应实际的字母出现概率。

改进

使用整数比特的方法往往无法获得使用熵计算的比特数，因此其压缩并非一定最佳。

比如字母列由两个不同的字母组成，其中一个字母的可能性是 p ( A ) = 0 . 75 {\displaystyle \mathrm {p} (A)=0{.}75} ，另一个字母的可能性是 p ( B ) = 0 . 25 {\displaystyle \mathrm {p} (B)=0{.}25} 。以上算法的结果是每个字母应该用一个比特来代表，因此其结果的比特数与字母数相同。

但扩展取样位数可以稍微弥补该破绽：上例的 p ( A A ) = 0 . 5625 {\displaystyle \mathrm {p} (AA)=0{.}5625} 、 p ( A B ) = 0 . 1875 {\displaystyle \mathrm {p} (AB)=0{.}1875} 、 p ( B A ) = 0 . 1875 {\displaystyle \mathrm {p} (BA)=0{.}1875} 、 p ( B B ) = 0 . 0625 {\displaystyle \mathrm {p} (BB)=0{.}0625} ，以霍夫曼编码算法得结果为：每两个字母平均用 ( 0.5625 ∗ ∗ --> 1 + 0.1875 ∗ ∗ --> 2 + 0.1875 ∗ ∗ --> 3 + 0.0625 ∗ ∗ --> 3 ) = 1.6875 {\displaystyle (0.5625*1+0.1875*2+0.1875*3+0.0625*3)=1.6875} 个比特，即平均每个字母用0.84375个比特来代表，向最佳熵值踏近了一步。

最佳熵编码器应该为第一个字母使用 − − --> log 2 ⁡ ⁡ --> ( 0 . 75 ) ≈ ≈ --> 0 . 41 {\displaystyle -\log _{2}(0{.}75)\approx 0{.}41} 个比特，为第二个字母使用 − − --> log 2 ⁡ ⁡ --> ( 0 . 25 ) = 2 {\displaystyle -\log _{2}(0{.}25)=2} 个比特，因此整个结果是每个字母平均使用 − − --> 0 . 75 ∗ ∗ --> log 2 ⁡ ⁡ --> ( 0 . 75 ) − − --> 0 . 25 ∗ ∗ --> log 2 ⁡ ⁡ --> ( 0 . 25 ) ≈ ≈ --> 0.81 {\displaystyle -0{.}75*\log _{2}(0{.}75)-0{.}25*\log _{2}(0{.}25)\approx 0.81} 个比特。

使用算术编码可以改善这个结果，使得原信息按照熵最佳来编码。

模型

要确定每个字母的比特数算法需要尽可能精确地知道每个字母的出现概率。模型的任务是提供这个数据。模型的预言越好压缩的结果就越好。此外模型必须在压缩和恢复时提出同样的数据。在历史上有许多不同的模型。

静态模型

静态模型在压缩前对整个文字进行分析计算每个字母的概率。这个计算结果用于整个文字上。

优点

缺点

动态模型

在这个模型里概率随编码过程而不断变化。多种算法可以达到这个目的：

前向动态：概率按照已经被编码的字母来计算，每次一个字母被编码后它的概率就增高

反向动态：在编码前计算每个字母在剩下的还未编码的部分的概率。随着编码的进行最后越来越多的字母不再出现，它们的概率成为0，而剩下的字母的概率升高，为它们编码的比特数降低。压缩率不断增高，以至于最后一个字母只需要0比特来编码

优点