Kahler's Blog: 说过的话要兑现：信息熵

虽然目前研究工作还是缺乏进展，不过时间还是要浪费的。以前说过介绍下信息熵这个东西的，虽然我也不懂，不过这么厉害的想法还是需要分享的。

正经的文献：http://en.wikipedia.org/wiki/Information_entropy

假如有一个随机变量X，比如说只取两个值0和1。表示明天下不下雨，取0的概率是0.4，取1的概率是0.6。那个这个分布其实告诉我们一些有用的信息，比如说下雨的可能性要大。那么如何去衡量，这个分布所包含的信息量呢？也就是说我们需要一个函数H（X），比如说。函数值越大表明“信息”越多。怎么定义这个函数才是合理的呢？在定义之前，究竟什么算是合理呢？粗略的想，至少下面的事情要对，

（1）如果一个分布是fifty to fifty（想起电影terminal里面），那么它的信息应该比上面的例子少。

（2）如果我们有两个独立随机变量，那么可以计算一个乘积分布。因为独立吗，不管原来两个分布的信息是多少，这个乘起来的信息量应该是那两个之和。

就这么多，这个函数如何定义呢？

事实上，1948年Shannon提出了更多的要求，这些要求一看就知道是很合理的。
（1）连续性，分布稍微变动一下，信息量也稍微变动一下。自然么
（2）对称性，不管0表示下雨，还是不下雨，信息量没有变么
（3）极大性。如果是均匀分布，那就是说没信息，等于什么也没有说，信息量最小。（熵其实是负的信息量)
（4）可加性。就是我上面说的（2）。

数学上可以证明满足如上条件的函数，只有一个，就是所谓的信息熵。函数的表达式就不打了，反正用到这个函数u\log u。

这个东西不仅仅是出现在信息熵的定义中，经典的热力学，统计力学中都有。纯数学中也有用，Nash在他唯一的（？）一篇关于偏微分方程的论文中利用这个量推导他的估计。Yau利用类似的量推导梯度估计。Ni Lei说可以用这个函数来测量热扩散的速度，如果正Ricci曲率的流形，扩散的和欧氏空间一样快的话就必然是欧氏空间。这其实是我最初对这个问题感兴趣的原因。

那还是几年前，很幼稚阿。考虑这种没有谱的问题，呵呵。不过老实讲，Shanon这个想法是在是太创意了，这是信息学的奠基作品阿。

Kahler's Blog

近期推荐

网站推荐

博客归档

我的博客列表

我的简介

访问统计

2008年7月13日星期日

说过的话要兑现：信息熵

1 条评论: