族谱网 头条 人物百科

信息论

2020-10-16
出处:族谱网
作者:阿族小谱
浏览:557
转发:0
评论:0
简述信息论的主要内容可以类比人类最广泛的交流手段——语言来阐述。一种简洁的语言(以英语为例)通常有两个重要特点:首先,最常用的词(比如"a"、"the"、&qu

简述

信息论的主要内容可以类比人类最广泛的交流手段——语言来阐述。

一种简洁的语言(以英语为例)通常有两个重要特点: 首先,最常用的词(比如"a"、"the"、"I")应该比不太常用的词(比如"benefit"、"generation"、"mediocre")要短一些;其次,如果句子的某一部分被漏听或者由于噪声干扰(比如一辆车辆疾驰而过)而被误听,听者应该仍然可以抓住句子的大概意思。而如果把电子通信系统比作一种语言的话,这种健壮性(robustness)是不可或缺的。将健壮性引入通信是通过信道编码完成的。信源编码和信道编码是信息论的基本研究课题。

注意这些内容同消息的重要性之间是毫不相干的。例如,像“多谢;常来”这样的客套话与像“救命”这样的紧急请求在说起来、或者写起来所花的时间是差不多的,然而明显后者更重要,也更有实在意义。信息论却不考虑一段消息的重要性或内在意义,因为这些是数据的质量的问题而不是数据量(数据的长度)和可读性方面上的问题,后者只是由概率这一因素单独决定的。

信息的度量

信息熵

美国数学家克劳德·香农被称为“信息论之父”。人们通常将香农于1948年10月发表于《 贝尔系统技术学报 ( 英语 : Bell System Technical Journal ) 》上的论文《 通信的数学理论 ( 英语 : A Mathematical Theory of Communication ) 》作为现代信息论研究的开端。这一文章部分基于哈里·奈奎斯特和 拉尔夫·哈特利 ( 英语 : Ralph Hartley ) 于1920年代先后发表的研究成果。在该文中,香农给出了信息熵的定义:

其中 X {\displaystyle {\mathcal {X}}} 为有限个事件x的集合, X {\displaystyle X} 是定义在 X {\displaystyle {\mathcal {X}}} 上的随机变量。信息熵是随机事件不确定性的度量。

信息熵与物理学中的热力学熵有着紧密的联系:

其中S(X)为热力学熵,H(X)为信息熵, k B {\displaystyle k_{B}} 为波兹曼常数。 事实上这个关系也就是广义的波兹曼熵公式,或是在正则系综内的热力学熵表示式。如此可知,玻尔兹曼与吉布斯在统计物理学中对熵的工作,启发了信息论的熵。

信息熵是信源编码定理中,压缩率的下限。当我们用少于信息熵的信息量做编码,那么我们一定有信息的损失。香农在大数定律和 渐进均分性 ( 英语 : Asymptotic equipartition property ) 的基础上定义了 典型集 ( 英语 : Typical set ) 和典型序列。典型集是典型序列的集合。因为一个独立同分布的 X {\displaystyle X} 序列属于由 X {\displaystyle X} 定义的典型集的概率大约为1,所以只需要将属于典型集的无记忆 X {\displaystyle X} 信源序列编为唯一可译码,其他序列随意编码,就可以达到几乎无损失的压缩。

例子

若S为一个三个面的骰子,

P(面一)=1/5,

P(面二)=2/5,

P(面三)=2/5

H ( X ) = 1 5 log 2 ⁡ ⁡ --> ( 5 ) + 2 5 log 2 ⁡ ⁡ --> ( 5 2 ) + 2 5 log 2 ⁡ ⁡ --> ( 5 2 ) {\displaystyle H(X)={\frac {1}{5}}\log _{2}(5)+{\frac {2}{5}}\log _{2}\left({\frac {5}{2}}\right)+{\frac {2}{5}}\log _{2}\left({\frac {5}{2}}\right)}

联合熵(Joint Entropy)与条件熵(Conditional Entropy)

联合熵由熵的定义出发,由联合分布,我们有:

条件熵,顾名思义,从条件概率p(y|x)做定义:

因为由贝氏定理,我们有 p ( x , y ) = p ( y | x ) p ( x ) {\displaystyle p(x,y)=p(y|x)p(x)} ,带入联合熵的定义,可以分离出条件熵,于是得到联合熵与条件熵的关系式:

链式法则

我们可以再对联合熵与条件熵的关系做推广,假设现在有n个随机变量 X i , i = 1 , 2 , . . . , n {\displaystyle X_{i},i=1,2,...,n} ,重复分离出条件熵,我们有:

他的意义显而易见,假如我们接收一段数列 { X 1 , X 2 , . . . , X n } {\displaystyle \{X_{1},X_{2},...,X_{n}\}} ,且先收到 X 1 {\displaystyle X_{1}} ,再来是 X 2 {\displaystyle X_{2}} ,依此类推。那么收到 X 1 {\displaystyle X_{1}} 后总讯息量为 H ( X 1 ) {\displaystyle H(X_{1})} ,收到 X 2 {\displaystyle X_{2}} 后总讯息量为 H ( X 1 ) + H ( X 2 | X 1 ) {\displaystyle H(X_{1})+H(X_{2}|X_{1})} ,直到收到 X n {\displaystyle X_{n}} 后我们的总讯息量应为 H ( X 1 , . . . , X n ) {\displaystyle H(X_{1},...,X_{n})} ,于是这个接收过程中就给出了链式法则。

互信息

互信息(Mutual Information)是另一有用的信息度量,它是指两个事件集合之间的相关性。两个事件 X {\displaystyle X} 和 Y {\displaystyle Y} 的互信息定义为:

其意义为,若我们想知道 Y {\displaystyle Y} 包含多少 X {\displaystyle X} 的信息,在尚未得到 Y {\displaystyle Y} 之前,我们的不确定性是 H ( X ) {\displaystyle H(X)} ,得到Y后,不确定性是 H ( X | Y ) {\displaystyle H(X|Y)} 。所以一旦得到 Y {\displaystyle Y} 后,我们消除了 H ( X ) − − --> H ( X | Y ) {\displaystyle H(X)-H(X|Y)} 的不确定量,这就是Y对X的信息量。

如果 X , Y {\displaystyle X,Y} 互为独立,则 H ( X , Y ) = H ( X ) + H ( Y ) {\displaystyle H(X,Y)=H(X)+H(Y)} ,于是 I ( X ; Y ) = 0 {\displaystyle I(X;Y)=0} 。

又因为 H ( X | Y ) ≤ ≤ --> H ( X ) {\displaystyle H(X|Y)\leq H(X)} ,所以

互信息与 G检验 ( 英语 : G-test ) 以及皮尔森卡方检验有着密切的联系。

应用

信息论被广泛应用在:

编码学

密码学与密码分析学

数据传输

数据压缩

检测理论

估计理论

数据加密

 


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱
发表评论
写好了,提交
{{item.label}}
{{commentTotal}}条评论
{{item.userName}}
发布时间:{{item.time}}
{{item.content}}
回复
举报
点击加载更多
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回

更多文章

更多精彩文章
打赏
私信

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信