族谱网 头条 人物百科

2020-10-16
出处:族谱网
作者:阿族小谱
浏览:613
转发:0
评论:0
简介熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。英语文本数据流的熵比较低,因为英语很容易读懂,也就是说很容易被预测。即便我们不知道下一段英语文字是什么内容,但是我们能很容易地预测,比如,字母e总是比字母z多,或者qu字母组合的可能性总是超过q与任何其它字母的组合。如果未经压缩,一段英文文本的每个字母需要8个比特来编码,但是实际上英文文本的熵大概只有4.7比特。如果压缩是无损的,即通过解压缩可以百分之百地恢复初始的消息内容,那么压缩后的消息携带的信息和未压缩的原始消息是一样的多。而压缩后的消息可以通过较少的比特传递,因此压缩消息的每个比特能携带更多的信息,也就是说压缩信息的熵更加高。熵更高意味着比较难于预测压缩消息携带的信息,原因在于压缩消息里面没有冗余,即每个比特...

简介

熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。

英语文本数据流的熵比较低,因为英语很容易读懂,也就是说很容易被预测。即便我们不知道下一段英语文字是什么内容,但是我们能很容易地预测,比如,字母e总是比字母z多,或者qu字母组合的可能性总是超过q与任何其它字母的组合。如果未经压缩,一段英文文本的每个字母需要8个比特来编码,但是实际上英文文本的熵大概只有4.7比特。

如果压缩是无损的,即通过解压缩可以百分之百地恢复初始的消息内容,那么压缩后的消息携带的信息和未压缩的原始消息是一样的多。而压缩后的消息可以通过较少的比特传递,因此压缩消息的每个比特能携带更多的信息,也就是说压缩信息的熵更加高。熵更高意味着比较难于预测压缩消息携带的信息,原因在于压缩消息里面没有冗余,即每个比特的消息携带了一个比特的信息。香农的信息理论揭示了,任何无损压缩技术不可能让一比特的消息携带超过一比特的信息。消息的熵乘以消息的长度决定了消息可以携带多少信息。

香农的信息理论同时揭示了,任何无损压缩技术不可能缩短任何消息。根据鸽笼原理,如果有一些消息变短,则至少有一条消息变长。在实际使用中,由于我们通常只关注于压缩特定的某一类消息,所以这通常不是问题。例如英语文档和随机文字,数字照片和噪音,都是不同类型的。所以如果一个压缩算法会将某些不太可能出现的,或者非目标类型的消息变得更大,通常是无关紧要的。但是,在我们的日常使用中,如果去压缩已经压缩过的数据,仍会出现问题。例如,将一个已经是FLAC格式的音乐文件压缩为ZIP文件很难使它占用的空间变小。

熵的计算

如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。因此,使用一枚正常硬币进行若干次抛掷,这个事件的熵是一比特,因为结果不外乎两个——正面或者反面,可以表示为0, 1编码,而且两个结果彼此之间相互独立。若进行n次独立实验,则熵为n,因为可以用长度为n的比特流表示。但是如果一枚硬币的两面完全相同,那个这个系列抛硬币事件的熵等于零,因为结果能被准确预测。现实世界里,我们收集到的数据的熵介于上面两种情况之间。

另一个稍微复杂的例子是假设一个随机变量X,取三种可能值x1,x2,x3{\displaystyle {\begin{smallmatrix}x_{1},x_{2},x_{3}\end{smallmatrix}}},概率分别为12,14,14{\displaystyle {\begin{smallmatrix}{\frac {1}{2}},{\frac {1}{4}},{\frac {1}{4}}\end{smallmatrix}}},那么编码平均比特长度是:12× × -->1+14× × -->2+14× × -->2=32{\displaystyle {\begin{smallmatrix}{\frac {1}{2}}\times 1+{\frac {1}{4}}\times 2+{\frac {1}{4}}\times 2={\frac {3}{2}}\end{smallmatrix}}}。其熵为3/2。

因此熵实际是对随机变量的比特量和顺次发生概率相乘再总和的数学期望。

定义

依据Boltzmann"s H-theorem,香农把随机变量X的熵值 Η(希腊字母Eta)定义如下,其值域为{x1, ..., xn}:

其中,P为X的概率质量函数(probability mass function),E为期望函数,而I(X)是X的信息量(又称为自信息)。I(X)本身是个随机变数。

当取自有限的样本时,熵的公式可以表示为:

在这里b是对数所使用的底,通常是2,自然常数e,或是10。当b = 2,熵的单位是bit;当b = e,熵的单位是nat;而当b = 10,熵的单位是Hart。

pi = 0时,对于一些i值,对应的被加数0 logb 0的值将会是0,这与极限一致。

还可以定义事件 X 与 Y 分别取 xi 和 yj 时的条件熵为

其中p(xi, yj)为 X = xi 且 Y = yj 时的概率。这个量应当理解为你知道Y的值前提下随机变量 X 的随机性的量。

范例

抛硬币的熵H(X)(即期望自信息),以比特度量,与之相对的是硬币的公正度Pr(X=1). 注意图的最大值取决于分布;在这里,要传达一个公正的抛硬币结果至多需要1比特,但要传达一个公正的抛骰子结果至多需要log2(6)比特。

如果有一个系统S内存在多个事件S = {E1,...,En},每个事件的概率分布P = {p1, ..., pn},则每个事件本身的讯息(自信息)为:

如英语有26个字母,假如每个字母在文章现次数平均的话,每个字母的讯息量为:

以日文五十音平假名作为相对范例,假设每个平假名日语文字在文章现的概率相等,每个平假名日语文字可携带的信息量为:

而汉字常用的有2500个,假如每个汉字在文章现次数平均的话,每个汉字的信息量为:

实际上每个字母和每个汉字在文章现的次数并不平均,比方说较少见字母(如z)和罕用汉字就具有相对高的信息量。但上述计算提供了以下概念:使用书写单元越多的文字,每个单元所包含的讯息量越大。

熵是整个系统的平均消息量,即:

因为和热力学中描述热力学熵的玻尔兹曼公式本质相同(仅仅单位不同,一纳特的信息量即相当于k焦耳每开尔文的热力学熵),所以也称为“熵”。

如果两个系统具有同样大的消息量,如一篇用不同文字写的同一文章,由于汉字的信息量较大,中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。

熵的特性

可以用很少的标准来描述香农熵的特性,将在下面列出。任何满足这些假设的熵的定义均正比以下形式

其中,K是与选择的度量单位相对应的一个正比常数。

下文中,pi = Pr(X = xi)且Hn(p1,… … -->,pn)=H(X){\displaystyle \mathrm {H} _{n}(p_{1},\ldots ,p_{n})=\mathrm {H} (X)}

连续性

该量度应连续,概率值小幅变化只能引起熵的微。

对称性

符号xi重新排序后,该量度应不变。

极值性

当所有符号有同等机会出现的情况下,熵达到最大值(所有可能的事件同等概率时不确定性最高)。

等概率事件的熵应随符号的数量增加。

可加性

熵的量与该过程如何被划分无关。

最后给出的这个函数关系刻画了一个系统与其子系统的熵的关系。如果子系统之间的相互作用是已知的,则可以通过子系统的熵来计算一个系统的熵。

给定n个均匀分布元素的集合,分为k个箱(子系统),每个里面有 b1, ..., bk 个元素,合起来的熵应等于系统的熵与各个箱子的熵的和,每个箱子的权重为在该箱中的概率。

对于正整数bi其中b1 + ... + bk = n来说,

选取k = n,b1 = ... = bn = 1,这意味着确定符号的熵为零:Η1(1) = 0。这就是说可以用n进制熵来定义n个符号的信源符号集的效率。参见信息冗余。

进一步性质

香农熵满足以下性质,借由将熵看成“在揭示随机变量X的值后,从中得到的信息量(或消除的不确定性量)”,可来帮助理解其中一些性质。

增减一概率为零的事件不改变熵:

可用琴生不等式证明

计算 (X,Y)得到的熵或信息量(即同时计算X和Y)等于通过进行两个连续实验得到的信息:先计算Y的值,然后在你知道Y的值条件下得出X的值。写作

如果Y=f(X),其中f是确定性的,那么Η(f(X)|X) = 0。应用前一公式Η(X, f(X))就会产生

如果X和Y是两个独立实验,那么知道Y的值不影响我们对X值的认知(因为两者独立,所以互不影响):

两个事件同时发生的熵不大于每个事件单独发生的熵的总和,且仅当两个事件是独立的情况下相等。更具体地说,如果X和Y是同一概率空间的两个随机变量,而 (X,Y)表示它们的笛卡尔积,则

和热力学熵的联系

物理学家和化学家对一个系统自发地从初始状态向前演进过程中,遵循热力学第二定律而发生的熵的变化更感兴趣。在传统热力学中,熵被定义为对系统的宏观测定,并没有涉及概率分布,而概率分布是信息熵的核心定义。

根据Jaynes(1957)的观点,热力学熵可以被视为香农信息理论的一个应用:热力学熵被定义为与要进一步确定系统的微观状态所需要的更多香农信息的量成比例。比如,系统温度的上升提高了系统的热力学熵,这增加了系统可能存在的微观状态的数量,也意味着需要更多的信息来描述对系统的完整状态。

Maxwell在以他的名字命名的思想实验中认为,如果存在一个小妖精知道每个分子的状态信息(热,或者冷),就能够降低系统的热力学熵。Landauer和他的同事则反驳说,让小妖精行使职责本身——即便只是了解和储存每个分子最初的香农信息——就会给系统带来热力学熵的增加,因此总的来说,系统的熵的总量没有减少。这就解决了Maxwell思想实验引发的悖论。Landauer法则能够解释现代计算机在处理大量信息时,必须解决散热问题。

参见

熵 (生态学)

熵 (热力学)

熵编码

麦克斯韦妖


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱
发表评论
写好了,提交
{{item.label}}
{{commentTotal}}条评论
{{item.userName}}
发布时间:{{item.time}}
{{item.content}}
回复
举报
点击加载更多
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回

更多文章

更多精彩文章
打赏
私信

推荐阅读

· 熵
熵的热力学定义鲁道夫·克劳修斯——最早提出“熵”这个概念的物理学家熵的概念是由德国物理学家克劳修斯于1865年所提出。克氏定义一个热力学系统中熵的增减:在一个可逆过程里,被用在恒温的热的总数(σσ-->Q{\displaystyle\sigmaQ}),并可以公式表示为:克劳修斯对S予以“熵”(希腊语:εντροπια,entropia,德语:Entropie,英语:entropy)一名,希腊语源意为“内向”,亦即“一个系统不受外部干扰时往内部最稳定状态发展的特性”。与熵相反的概念为“反熵”(希腊语:εκτροπια,ektropia,源意“外向性”;德语:Ektropie;英语ectropy)。1923年,德国科学家普朗克来中国讲学用到entropy这个词,胡刚复教授翻译时灵机一动,把“商”字加火旁来意译“entropy”这个字,创造了“熵”字,(音读:商),因为熵是Q除以T(温度)的商数...
· 余熵
历史美国化学家莱纳斯·鲍林是第一个以余熵这一概念来描述水所结成冰块的人,特别是六方晶系的冰。在水状态下,每一个氧原子与两个氢原子结合在一起。但是当水结成冰时则会变成四方结构,每一个氧原子周围会有四个氢原子(因为周围会有相邻的水分子)。氧原子周围的氢原子也有一定范围的自由活动空间,只要每一个氧原子“附近”保持有两个氢原子,那么就仍然保持有其传统的水分子构成H2O。但事实证明,在这类有大量水分子的情况下,氢原子很有可能会遵循一种两进两出的原则(每一个氧原子必须有两个氢原子在其“附近”,另外两个氢原子距其较“远”)。氢原子的这种自由活动只存在于绝对零度下,因此以前也被视为绝无仅有的一种情况。存在有多种这样的匹配情况来满足绝对零度时的无序性,换言之,即满足绝对零度时的熵。水所结成的冰是第一个用来说明余熵概念的例子,然而一般情况下很难提取纯净且毫无缺陷的冰晶来进行研究。因此有大量研究都试图通过其他热...
· 熵力
实例布朗运动布朗运动的熵方法最初是被RM纽曼提出的。.疏水力水珠在疏水性的草表面。熵力的另一个例子是疏水力。在室温下,当它们与溶解物质分子相互作用时,它部分地起源是由水分子的三维网络中熵的损失。
· 混合熵
参看吉布斯悖论熵
· 等熵过程
原理热力学第二定律的普遍表达式为此处的δδ-->Q{\displaystyle\deltaQ}指的是在一个微元过程中,系统吸收或放出的热量,T{\displaystyleT}代表系统的温度,dS{\displaystyledS}代表该微元过程中,系统熵值的改变,等熵过程中dS=0{\displaystyledS=0},可得到当过程可逆时,上式取等号当过程不可逆时,上式取小于号等熵流实际生活中是无法达到完全的绝热的,但当一段流体在流动过程中没有热量输入,而摩擦和耗散引起的热量损失可以不计时,就会被称为等熵流。参见绝热过程等焓过程多方过程

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信