概论
前言
本书其实是一门课程的文字版。总的来说,我推荐别人阅读这本书。
书中结合互信息、香农第一定律和香农第二定律等给出了很多有洞察力的人生见解,包括但不限于学习、投资和选择配偶等方面。
比如作者在课程中还讲了这样五个重要的原则,你一定要记住:
- 最好、最重要的资源要用于那些出现最频繁的事情,这样分配资源最有效,其背后的原理是香农第一定律和霍夫曼编码。
- 不要将相关性当成因果关系。弱相关性对我们做事情没什么帮助,而对于强相关性,要搞清楚谁可能是因,谁可能是果,切忌因果倒置。
- 我们很多时候,要直接获得某种信息是很困难的,因此可以通过获得等价信息,得到同样的效果。
- 我们日常遇到的大部分事情,都是渐变的,因此通过增量改进,要比推倒重来效率高,这就如同对增量压缩,可以比静态压缩高很多一样。
- 由于我们遇到的信息很多,一个比较高效率表示信息的方法是矢量化,也就是将很多维度的信息映射到我们关心的几个维度。我们用到的例子是:文字的演变就是矢量化的结果。
此外,在第一个模块中有这样几个概念,也希望你能记住:
- 信息熵,它说明信息量和不确定性的关系。
- 冗余度,任何信息中都有冗余,去除冗余是今天信息处理的一项重要工作,但是,有时冗余又有它的好处,它可以避免出错。
- 不同信息的正交性:我们常常说的互补,其实就是某种意义上的信息正交。同一种信息用好几遍,效果不如使用两种正交的信息。不仅信息如此,打造一个团队也是如此。
当然书中也有很多问题,除了「涉及到」这种措辞,还有就是在比较《史记》和《新旧约全书》时,直接把文字量能和信息量等同起来了,这样显然是不正确的。还有就是介绍条件熵时提到了股市,如果股市真的有效的话,那么长期资本投资公司也不会破产了。
还有就是提到说到「最大熵原理也可以用老子的智慧从另一个角度诠释一下,那就是“过犹不及”。」这是串台了吧?孔子提出的「过犹不及」,而老子提出的是「大道至简」。书中在提到所谓的奥卡姆原则是不提老子的「大道至简」,后者从编码的角度来说,显然比前者要「简洁」。我不是很能看惯这种奉洋为尊的风气。
书籍简介

内容简介
这本书主要在讲道(吴军博士经常会把知识比作术,把智慧比作道,而道可以驾驭术。),一个人的思维方式和做事方法常常决定了一个人能够走多远,而在历史的任何时期,都有最适合时代的方法论。
书中主要围绕着信息的产生,信息的传输和信息的应用展开。
书中强调运用信息论的思维来应对不确定性,概率论,统计、大数据都是信息论方法的子范畴。信息产生:在面对大量信息时,排除噪音,提取利用有效信息,科学做决策的能力;信息传播:向外界传递信息时,平衡分配有限资源,增加沟通带宽,放大影响力的能力;信息应用:看懂信息应用的逻辑和通信发展的趋势,提前抓住新机遇的能力。
作者简介
吴军,著名学者,投资人,人工智能、语音识别和互联网搜索专家。毕业于清华大学和美国约翰·霍普金斯大学,现任丰元资本创始合伙人、上海交通大学客座教授、约翰·霍普金斯大学工学院董事等职。
吴军博士曾作为资深研究员和副总裁分别任职于Google公司和腾讯公司。在Google公司,他和同事一同开创了搜索反作弊研究领域,成立了中、日、韩文产品部门,设计了Google中、日、韩文搜索算法,领导了Google自然语言分析器、自动问答等研究型项目。在腾讯公司,他负责了搜索、搜索广告和街景地图等项目。作为风险投资人,他成功地投资了数十家硅谷和中国的高科技企业。
吴军博士著有《数学之美》《浪潮之巅》《大学之路》《文明之光》《硅谷之谜》和《智能时代》《见识》《态度》《具体生活》等多部畅销图书,并多次获得包括文津奖、中国好书奖、中华优秀出版物在内的国家级图书大奖。
正文摘录
发刊词|信息时代每个人的必修课
如果要问你,我们生活在什么时代,你会说现在是信息时代。如果问你信息时代最显著的特征是什么,你可能会说“有计算机”、“信息爆炸”、“大数据”等等。这些都没有错,但这些都是表象!我的答案是,其实,信息时代的最大特征是不确定性。
而信息论就是这半个世纪以来,人类对抗不确定性,最重要和有效的方法论。今天的人,已经无法通过掌握几条不变的规律,工作一辈子;也难以通过理解几条简单的人生智慧,活好一辈子。一个通用规律就能解决一切问题,一个标准答案就能让人一劳永逸的时代,一去不复返了。
可以说,用来应对这些变化的信息论,是我们每个人在信息时代的必修课。
一、从未知到确定再到不确定
二、如何应对信息时代的不确定性?
那对付不确定性的方法是什么呢?20 世纪初概率论和统计学的成熟,使人们得以把握随机性。在此基础上,1948 年,香农博士找到了不确定性和信息的关系,从此为人类找到了面对不确定性世界时的方法论,也就是利用信息消除不确定性。可以说,这是随后的半个多世纪里,特别是今天,最重要的方法论。
比如,我们今天讲的大数据思维,从本质上讲,就是这种方法论的一个应用而已;再比如回溯历史,数字和文字的诞生其实就是对信息编码的过程;再比如回到现实,当面对多条信息犹豫不决时,其实是你不懂得有效找出不同维度的信息,以及组合优化的方法……
当然,要学会这些方法论,就要先了解信息论。学会使用信息论这个工具,我们对今天的跳跃式的变化和不确定性就再也不会恐惧了。
三、课程怎么安排?
信息论在大学里通常是通信和信息处理专业研究生的必修课,其它专业(包括计算机专业)的人其实很少会去学这门课。这并非因为这门课本身不重要,或者是它的内容不吸引人,而是因为它太难学,里面有太多的数学公式,它要求听课的人熟悉微积分和概率论。
后来在 Google 工作期间,我发现不了解信息论的人在从事信息领域的工作时会走很多弯路,比如,还有不少软件工程师,反复地使用同一个维度的信息,试图对产品进行改进,开始的时候是事倍功半,后来就是劳而无功,而他们自己却搞不清楚原因。在外人看来,这些人学傻了,一条道走到黑,白白浪费自己的时间和晋升机会。但是,我知道,其实只是这些人不了解信息的作用。
因此,我一直建议身边的 IT 从业者学学信息论——即使不了解其中理论的细节,也应该知道它的原理。为此,我还在 Google 买了 20 多本信息论的教科书给大家。但是大部分人告诉我,读了 1/4 就读不下去了,因为讲得太难。
于是我萌生了开一门通俗信息论课程的想法——不讲细节,特别是理论的细节,只讲原理和应用,以便听众能够熟悉我们这个时代最适合的思维方式。
世界上的知识,可以分为道和术两个层面,我们这门课讲的是道的层面的知识,它不会讲述任何具体的方法,比如信息的采集、处理或者传输的理论细节。这样,我们就能够把重点放在讲述用信息论指导做事的方法上,以便让我们能够在不断变化,而且充满不确定性的世界里把握住机会,立于不败之地。
我们的课程主要包括三个模块的内容,它们分别围绕着信息的产生,信息的传输和信息的应用展开。具体的每一讲,我在后面的课表里列出了。每一讲,我基本都会采用两种方式讲解:一种方式是从分析事件或现象背后的信息论原理出发,讲解信息论的概念;另一种是从信息论的原理出发,分析我们今天的做事方法。
这三个模块学完以后,我希望你获得三种能力。
模块一信息产生:在面对大量信息时,排除噪音,提取利用有效信息,科学做决策的能力;
模块二信息传播:向外界传递信息时,平衡分配有限资源,增加沟通带宽,放大影响力的能力;
模块三信息应用:看懂信息应用的逻辑和通信发展的趋势,提前抓住新机遇的能力。
课程中既包括信息论最基础、最重要的内容,比如香农的两个著名的定律:与信息产生相关的第一定律和与信息传输相关的第二定律,也包括对今天很多热门的技术的剖析,比如 IoT 和 5G 等。
导论
01 影响世界的三比特信息
因此,今天我给大家的第一个知识点就是“不要重视钱而轻视信息”。
信息的这个性质,和我们生活的经验是一致的,大家都知道二者皆 50%的可能性最让人头疼。而公众都知道的信息,其实是没有信息量的。这是今天我希望你记住的第二个知识点。
为什么信息有这样四两拨千斤的作用呢?这其实背后也是有科学根据的,在控制理论中有一种开关电路,控制这个开关只需要一比特的信息或者极低的能量,但是经过它的电流(可以被认为是能量)却能近乎无限大,今天我们很多电器中那些弱电控制强电的元器件就是利用这个特点工作的。
用很少的信息驱动很大的能量,这也是今天交付给大家的第三个知识点。而这也是信息非常重要的原因。
────◆要点总结◆────
1.信息很重要,甚至比钱更重要,它能四两拨千斤。而信息作用的大小和信息量有关。
2.信息量和不确定性有关,大家都知道的事,就没有什么信息量了。
3.对一个未知系统(黑盒子)所作出的估计和真实情况的偏离,就是信息的损失,偏离越多损失越大。
此外,我们还提到了信息论的一个原则,不要把鸡蛋放在一个篮子中,这样可以避免因为信息缺失,而导致灾难性结果。
02 解开世界之谜的三篇诺贝尔奖论文
我要给你介绍的第一篇论文和宇宙诞生有关。我常说,我们这一代人非常幸运,因为在我们这一代生活的世界,人类搞清楚了三个非常本源的问题,也就是宇宙是如何产生的,地球生命的共性和起点,以及人类文明的起点。
……
《科技史纲 60 讲》中有读者问我:
“能量是世界固有的,是它诞生之初就存在的,那么信息从哪里来?” 信息和能量一样,都是宇宙本身固有的特性。
你可能要问,上述这些描述没有人看见,我们是怎么知道的呢?物理学家们主要是通过两种方法推断出当时的场景的。
当然,有些推断可信度高一些,有些低一些,世界上没有绝对的可靠,只有可靠性的高和低,信号和噪音比率的高和低。从信息论上说,信息的可靠性就叫做置信度,我会在后面为你详细讲解。
……
好,刚才为你介绍了两种推断宇宙诞生的方法,一是寻找 3K 背景辐射,二是以空间换时间。其中提到了两个要点:第一,信息是宇宙本身固有的属性;第二,在一个领域的贡献大小,不在于你提供了多少材料,而在于提供了多少信息量。
……
怎样利用信息论原理,做到信息传播的高效率,是我们这门课要讲的重要内容。
我有时会帮助一些做演讲的人做一些正式讲演前的指导,我给大家最多的建议就是,不要啰里啰唆地唠叨很长时间,要精简,要保证对方听懂自己最核心的想法,这就够了。我阅读过几十篇的诺贝尔奖的论文,很少有超过 10 页纸的。
……
从这个例子我们可以看出,控制生命活动的信息,其实并不被我们主观控制,但是我们可以发现它们。
到这里,三篇诺奖论文都给你介绍完了。
────◆要点总结◆────
你可以看出,那些影响世界的重大科学发现其实都是在极短的论文中发表出来的,因为世界上最关键的信息(知识)其实是非常简洁的,也就是说一条信息的信息量可能和信息的长度无关。那信息量和什么有关?关于这一点我们会在后面仔细讲。
今天的三个例子,都说明了信息是我们世界固有的属性。
这两讲课程,我们介绍了信息是什么,它的作用有多大,信息是世界固有的属性,并且预告了信息论中很多内容。
03 大数据思维的科学基础
关于大数据思维的一些例子,点击《科技史纲 60 讲》的第 47 讲复习。我们这里就不赘述了。这里我为你总结了在当下最常见,也是最成功的四类应用。
第一类是解决人工智能问题,把那些过去看似需要人脑推理的问题,变成今天基于大数据的计算问题。
第二类是利用大数据,进行精准的服务。
第三类是动态调整我们做事情的策略。
第四类是发现原来不知道的规律。
当然我们还能举出其它的种类,由于篇幅的关系,我们在这一节就集中讨论这四类应用,学习它们背后的信息论原理,获取对我们做事情的指导意义,也就是在方法论层面的意义。
……
贾里尼克思想的本质,是利用数据(信息)消除不确定性,这就是香农信息论的本质,也是大数据思维的科学基础。这就是第一类应用,把人工智能问题变成数据问题带给我们的启示。
……
◆要点小结◆────
今天给大家举了四类大数据思维应用在商业上的成功案例:
第一类是解决人工智能问题,是利用数据(信息)消除不确定性,这是香农信息论的本质,也是大数据思维的科学基础。
第二类是利用大数据进行精准服务,从中你可以看出一个商业趋势:公司从重研究方法到重数据收集的转变。
第三类是动态调整做事策略,足够多的数据可以帮助我们动态匹配最佳结果。
最后一类是利用大数据发现未知规律,这背后涉及互信息的理论,是我们后面课程的重点内容。
这四类大数据应用,都在传达一个信息,那就是大数据的关键是思维方式的变化。
第一模块:信息产生
04 信息的量化度量:世界上有稳赚不赔的生意吗?
我们把这样充满不确定性的黑盒子就叫做“信息源”,它里面的不确定性叫做“信息熵”,而“信息”就是用来消除这些不确定性的(信息熵),所以搞清楚黑盒子里是怎么一回事,需要的“信息量”就等于黑盒子里的“信息熵”。
我们知道,熵其实是一个热力学的概念,表示一个系统的无序状态,或者说随机性。比如把冰水倒进一杯开水中,它们会彼此融合,杯子里的“熵”,也就是混乱程度会增加;在信息系统中也是如此,信息熵则表示一个系统内部的不确定性。
我们都知道,一个系统中的状态数量,也就是可能性,越多,不确定性就越大;在状态数量保持不变时,如果各个状态的可能性相同,不确定性就很大;相反,如果个别状态容易发生,大部分状态都不可能发生,不确定性就小。这段原理其实很简单,你先记住它,接下来我给你详细讲解。
……
而开赌局的,只要收费比信息实际的价值高,都是稳赚不赔的。这里面的细节大家不用太在意,总之记住一点,就是开赌局的从来不是拿自家的钱和你对赌,而是让你们彼此互相赌,他通过变相多收费盈利。
很多人会讲,我不参加赌局,不会被开赌局的人赚走钱。其实上述这类赌局在金融市场更多。
你可能听说过“结构化的投资证券”(Structured Notes),比如说石油的价格上涨到 100 美元以上,每 1 美元高盛就付给你 1.5 美元。但是,如果没有到 100 美元,你需要每个月付给高盛 1 美元。这种投资工具,就被做成一种结构化的投资证券。
像航空公司或者运输公司因为害怕油价浮动太高,会购买这样的投资产品。那么你以为是高盛在和石油公司,或者其他人对赌么?不是的,因为高盛转手就将和它完全相反的投资产品,卖给了希望油价波动的人。当然,高盛会包装得很好,让两边都感谢它,其实它才是真正挣钱的一方。
你可能听说过金融数学这个专业,那里面的人天天做的事情就是设计这种不容易为人所看懂的,自己永远不赔钱的金融产品。而所谓的基金经理,很多就是把这样的产品卖给你的人。
因此,多了解信息论和基本的数学常识,可以在生活中省下不少冤枉钱。这是今天我想告诉你的第二个知识点,希望你知道,很多交易和产品都是利用了信息的可度量性,知道了这点,就可以看清很多复杂交易背后的原理。
掌握了信息量化度量的原理,你还可以用它来对付当今“信息过载”的问题,比如如何判断一篇报道里到底有多少信息量。
信息说到底是用于消除不确定性的。如果讲的事情大部分大家都知道,信息量就很少。这也是为什么那些心灵鸡汤的文章大家不愿意读,并非是它们说的不对,而是没有信息量。
和它们相反的是,我前面介绍的三篇改变世界的论文,都非常短,特别是沃森和克里克的那一篇,一页纸多一点,但是把我们过去不知道的 DNA 的结构讲清楚了。这个信息量就很大。
────◆要点总结◆────
1.香农告诉大家,信息可以衡量,但不是用重要性,而是用信息量,单位是“比特”。
2.你可以把一个充满可能性的系统视为一个“信息源”,它里面的不确定性叫做“信息熵”,而“信息”就是用来消除这些不确定性的,所以搞清楚黑盒子里是怎么一回事,需要的“信息量”就等于黑盒子里的“信息熵”。
3.很多复杂交易背后其实都用到了信息的可度量性。
4.信息量的大小不在于长短,而在于开创多少新知。
05 信息编码:数字和文字是如何诞生的?
但是要说明的是,由于它们是等价的,在一个编码系统中解决不了的问题,换一个系统同样解决不了。一些媒体讲,由于量子计算不是二进制的,因此它能解决今天计算机解决不了的问题,这个说法显然缺乏常识,因为任何进制都是等价的。
当然对数字的编码不能有半个,因此如果我们采用二进制对 100 个数编码,刚才计算出来是需要 6.65 个码,那就要取下一个整数,编码的长度也就是 7 了。于是我们就得到了信息论中一个重要的公式:
编码长度 ≥ 信息熵(信息量)/ 每一个码的信息量。
香农对此作出了严格的数学证明,他同时还证明,只要编码设计得足够巧妙,上面的等号是成立的,这就是著名的香农第一定律。至于如何找到最巧妙的编码(或是说最短的编码),我会在第 7 讲介绍。
……
────◆要点总结◆────
1.我通过讲人类创造数字和文字语言的过程,告诉大家,其实它们都是人类用来消除信息不确定性的编码手段。各种编码系统,其实都是在编码复杂性和编码长度之间作平衡,它们在数学上是等价的;
2.由于它们是等价的,所以,在一个编码系统中解决不了的问题,换一个系统同样解决不了;
3.香农第一定律告诉我们,只要编码设计得足够巧妙,就可以找到最短编码。
思考题:编码要在长度和复杂性上作平衡,其实很多工作都是在作平衡,我想听听你的行业是否也有类似的平衡之道。
06 有效编码:10个手指能表示多少个数字?
我国在文革后曾经推行过一版过于简单的简化字,但是很快就停止使用了,这里面主要的原因是将汉字的笔画简化得过少后,使得近形字大量出现,不易辨识,非常容易搞混,因此很快就废止了,从信息论上讲,它违反了好编码要便于信息辨识的原则。
上述原则在平时的表达和沟通中也很重要。比如说,德国著名的营销专家和演说家多米尼克∙穆特勒提出的清晰表达的五个原则:明确、诚实、勇气、责任和同理心,前四条就和信息编码要便于识别有关。
……
好,这是我想说的第二个信息编码的原则:有效性。如何组合信息,保证它高效传递,还能不违背第一条“易辨识”的原则。这就需要我们主动思考了,下面我为你介绍一个现实的例子,看看能否启发你。
利用上述两个编码原则,可以有效地进行生物和 IT 产品的实验。硅谷的公司里有这样一道面试题:
有 64 瓶药,其中 63 瓶是无毒的,一瓶是有毒的。如果做实验的小白鼠喝了有毒的药,3 天后会死掉,当然喝了其它的药,包括同时喝几种就没事。现在只剩下 3 天时间,请问最少需要多少只小白鼠才能试出那瓶药有毒?
很多人看了这个题目从直觉出发,直接答 64 只,每一只吃一种不同的药。这么做自然没有问题,但是并不有效。能不能减少老鼠数量呢?你可以暂停 10 秒,自己思考一下。
好,我要公布结果了,实际上解决这个问题只要六只小老鼠就可以了,如果你上节课认真听讲了,就知道,这是一个 64 选 1 的题目,那么需要的信息量就是 log64,也就是 6 比特。
……
通过上述方式,可以用 6 只小老鼠一次完成 64 选 1 的任务。怎么确定 6 只老鼠就足够了呢?结合我们前面讲到的理论,64 选 1 的任务其实只需要 log64=6,也就是 6 比特的信息就够了,每一只老鼠提供了一比特的信息。
因此,从理论上讲 6 只小老鼠就足够了,而有效的编码,其实就是完成从理论上的上限到现实中解决方案的桥梁。所以 IT 公司在招收计算机工程师中会考这道题,因为很多的 IT 问题,就是编码问题。
这是我通过一道硅谷面试题,想传达给你的第三个知识点,也就是有效编码,其实就是让理论最佳值在应用中落地。
不仅如此,有效编码的思想在今天 IT 的产品性能比对测试中有直接的用途。我们在第 3 讲讲到大数据思维,其中很重要的一条就是采用大量用户反馈信息决定产品的设计和技术方案。
比如在一个产品中,有两种可用的方案,A 和 B,哪种更好呢?过去常常是工程师们和产品经理们拍脑袋想,有些时候某些人的“眼光”很好,正好蒙对了,选了一个用户也喜欢的方案,但是这种“眼光好”是无法复制的,一个公司将自己的商业成功寄托在“眼光好”上早晚要失败。
这时,就可以利用用户大数据评判 A、B 方案的好坏,通常的做法是随机选取 1% 的用户作对比实验。比如 Google 在改进搜索算法或者其它产品体验后,会先做这样不公开的测试,一般会持续一周左右。但是像 Google 这样有好几万工程师的大公司,每天的各种改进是很多的,如果每个项目都用掉 1%的用户,把全部用户都用上也不够。
这就回到了我们刚才学过的高效编码问题,用少量用户同时进行很多个实验的方法,就类似上面这种让小白鼠试毒药的方法,也就是将各种不会发生冲突的实验用二进制进行编码,几组实验者,就可以同时进行几十个不同的实验。
────◆要点总结◆────
1.我们介绍了信息编码的两个基本原理:易辨识和有效性;
2.我们用实例说明了信息论原理和我们工作的关系。
07最短编码:如何利用哈夫曼编码原理投资?
如何对信息进行编码才最有效?这个问题一直困扰着人们,我在《科技史纲 60 讲》中介绍莫尔斯电码时讲到,他根据常识对经常出现的字母采用较短的编码,对不常见的字母用较长的编码,这样就可以降低编码的整体长度。
……
无独有偶,全世界除美国之外,各国在设计长途电话区位码的时候,也充分考虑了每一个城市和地区的电话机数量,比如在中国北京、上海等重要城市就是两位,小城市就使用 3 位,这样做的目的是为了减少平均的编码长度。那么是否能够证明,越常出现的信息采用较短的编码,不常出现的信息采用较长的编码,就能比采用同样码长的信息总体上更合算呢?答案是肯定的。
……
事实上,这种最短编码方法等于香农第一定律的继续,它最早是由 MIT 的教授哈夫曼发明的,因此也被称为“哈夫曼编码”。
关于哈夫曼编码有三个要点值得一提:
1.如果你还记得第 5 讲的香农第一定律,一定知道编码长度是有个理论最小值的,从数学上可以证明哈夫曼的这种编码方法是最优化的。
2.哈夫曼编码从本质上讲,是将最宝贵的资源(最短的编码)给出现概率最大的信息。至于资源如何分配,哈夫曼给出了一个原则,也就是一条信息编码的长度和出现概率的对数成正比。
注:比如在上面的例子中,第一条消息出现的概率为 1/2,我们知道 1/2(以二为底)的对数等于-1,因此它的编码长度就是 1(即码 0)。最后两条消息出现的概率为 1/2^31 次方,取对数后等于-31,因此它们的编码长度就是
31。
如果我们回顾一下莫尔斯电码,就会发现它是不自觉地采用了哈夫曼编码的原理。
只是它没有严格统计各个字母的频率,没有完全做到最优化。
在一个极端的情况下,如果所有的信息出现的概率相同,采用哈夫曼编码,每一条信息的码长都一样,这时哈夫曼编码就变成了等长编码,没有优势了。
3.在现实生活中,很多信息的组合,比单独一条信息,其概率分布差异更大,因此对它们使用哈夫曼编码进行信息压缩,压缩比会更高。比如说,在汉语中,如果对汉字的频率进行统计,然后压缩,一篇文章通常能压缩掉 50%以上,但是如果按照词进行频率统计,再用哈夫曼编码压缩,可以压缩掉 70%以上。
讲完了哈夫曼编码的原则,那么它又是怎么应用到我们的工作生活中呢?
其实,但凡需要分配资源的工作,它都有指导意义。我在《浪潮之巅》一书中介绍凯鹏华盈时讲,虽然换了三代掌门人,但它能在四十多年,20 多期基金中,平均每一期基金的回报总是有 40 倍左右,这说明它不是靠一两个人天才的眼光,而是有一整套系统的方法,保证投资的成功率。那么它投资方法中的秘诀是什么呢?其实就是哈夫曼编码的原理,即通过每一次双倍砸钱(double down),把最多的钱投入到最容易成功的项目上。它具体操作的方法可以用这样一个例子来说明。
……
当然大部分人不会去参与风险投资,但是这种分配资源的原则在哪儿都适用。我在之前《Google 方法论》中介绍 Google 和 Facebook 等公司的管理方法时讲到,它们内部其实是一个大风投,各个项目一开始都有获得资源(主要是人力和财力)的可能性。
但是很快,通常是三个月到半年,类似的项目就要开始整合,资源开始集中到更有希望的项目上去。最后能够变成产品上市的,是少数项目,但是大量的资源投入在其中了。这样既不会失去新的机会,也不会浪费资源。
今天的华为养了一个拥有几万人的庞大的预研部门,很多人觉得这是有了钱之后嘚瑟浪费,但是你可以把它看成是一个内部的大风投,每一个前期研究,都得到一定的发展机会,而投入的资源并不需要太多,最后能够进入到获得巨大资源攻坚阶段的项目,终究是少数。
这个道理对个人来讲也是适用的。美国有名的私立学校哈克学校的前校长尼克诺夫博士讲,在孩子小时候,要让他们尝试各种兴趣爱好,但是最终他们要在一个点上实现突破,他将这比做用圆规画圆,一方面有一个扎得很深的中心,另一方面有足够广的很浅的覆盖面。
────◆要点总结◆────
最后大家可能对我有一个问题。那就是你讲了半天哈夫曼编码,你自己是否采用了用它指导行动呢?简单的回答就是:“是的,我是这么做的。”
一方面我从来不排斥尝试新东西,这样不会失去机会,我尝试过的各种事情远比外界知道的多,只是绝大部分失败了,我没有继续罢了,大家也就无从知晓了。
但是,另一方面对于花了一些精力,看样子做不成的事情,我是坚决做减法止损,这样可以把最多的资源投入到我擅长的,有兴趣的,可能也是成功率最高的事情上。这算是我对今天内容的总结。
思考题:假定你有五天时间在巴黎度假,有些景点比较有名,你非常想去,但是可能比较拥挤。有些景点没有太大的名气,但是游人很少。你会如何安排这五天时间呢?
预告:下一讲,我们就从信息聚类的角度讲讲语言编码的变迁,比一比拼音文字和象形文字哪个是更有效的编码。
08 矢量化:象形文字和拼音文字是如何演化的?
太多不同的编码(文字)出现后,就要对编码进行简化,否则大家就没法学习了。
而简化的自然过程,就是矢量化的过程。
那什么是矢量化呢?你一定有这样的经历,就是把一张图片放大再放大,通常就会模糊,出现马赛克甚至锯齿。
学计算机的人知道,计算机中使用的字体有位图(bitmap)和矢量图两种。位图一经放大就会出现锯齿,而矢量图随便放大,都很清晰。这是怎么做到的呢?
……
当然,通常将信息投射到两个维度是不够的,根据应用场景会投射到多个维度中,这样的过程就被称为矢量化。
人类象形文字的演化,实际上就是这样一个矢量化的过程。我们不妨先看看各种象形文字演化的过程。
……
当然,很多古代人所表达的信息今天早已经过时了,因此大量的古体字其实今天已经废了。虽然《康熙字典》里收集了 47000 个汉字,但是 3000 多个一级国标汉字已经能覆盖今天 98%以上的文本了。
类似地,在《牛津词典》中有大约 1/4 的词今天已经不用了。今天的人,更习惯于用现有的字发明新词,而不是造字。
好,说完了象形文字的演化。我们再看看拼音文字是如何矢量化的。
拼音文字的简化主要是围绕读音进行的。在美索不达米亚人发明了楔形文字后,它很快就由象形文字变成了拼音文字。但是那些拼音文字并不简单,每一个表达意思的拼音其实是一堆很复杂的小箭头(很像楔子,所以也被成为楔形文字)。
后来楔形文字被当地的闪米特人学会了,他们中间有一支非常善于远洋经商的族群——就是腓尼基人。
腓尼基人将美索不达米亚的文字传播到地中海各岛屿。但是,在经商途中,商人们可没有闲情逸致刻写精美漂亮的楔形文字,于是他们对这种复杂的拼音文字进行了进一步简化,就剩下几十个字母了。
可以讲,从复杂的楔形文字,变成简单的几十个字母,是一个巨大的进步,它使得人类学习读写变得很容易。再后来希腊人从腓尼基字母中总结成 24 个希腊字母,而罗马人又将它们变成 22 个拉丁字母。
随着罗马的扩张,征服了很多外国土地,吸纳了很多外国人,有些外国的人名和地名就无法表示了,于是罗马人在字母表中加入了 x,代表所有那些无法表示的音和词,这既是英语里包含 x 的单词特别少的原因,也是后来人们用 x 表示未知数的原因。
再后来拉丁文里的 i 被拆成了 i 和 j 两个字母,v 被拆成了 u,v,w 三个字母,最终就形成了今天英语的 26 个字母。
今天欧洲其它的拼音文字大多源于拉丁语,虽然它们字母表的多少略有区别,而且读音不同,但是写法上相似,因为同一种写法表达的是同一条信息。
虽然象形文字和拼音文字的形成和进化代表了两种不同的信息编码方式,但是它们都利用了信息论中矢量化的原理。
在欧洲的拼音文字中,虽然没有表达意思的偏旁部首,但是有很多词根,前缀和后缀起到了表达意思的作用,也就是说这些语言实际上将表达信息的基本单元(单词)用一个词根、前缀、后缀这样三维的矢量表示了。于是,稍微有些语言基础的人,可以猜出一些没见过的单词的含义。正因为这个原因,拼音文字比汉语容易学。
在近代史上,曾经有不少学者提出过将汉字改为拼音文字,但其实这是不可行的。
比如你把计算机变成 jisuanji 这几个罗马字母,它完全没有词根、前缀和后缀,因此猜不出意思。
信息的矢量化这件事应用的场景非常广,前面提到的矢量字体就是一个,它的原理是将字体的轮廓映射到一组曲线上。在显示(和打印)时,经过一系列的数学运算,恢复字体的形状。
这一类字库不仅占用空间小,而且从理论上可以被无限地放大,笔划轮廓仍然能保持圆滑,非常美观。
此外,矢量化在生活中也有应用,比如我们通过高考成绩录取大学生,或者通过身高选拔篮球运动员,其实就是利用矢量化的原理,只不过是将所有的人映射到了一维的空间中。
这种做法给工作带来了极大的便利性,但是显然没有全面地考察每一个人,或者说有信息的损失。
所以,在信息论中,一个更有普遍意义的问题就是,矢量化会带来多大的信息损失,关于这一点,在信息论中有一套理论计算这种损失。
而在工程中大家要做的事就是,如何平衡便利性和信息上的损失。人在年轻的时候,总是会想两者兼而有之,学习了各种科学知识后,就知道这种事情在理论上是办不到的。
────◆要点总结◆────
1.我们从文字的演变,介绍了信息的矢量化这个概念,以及它的应用。
2.我们进而讲述了,无论是象形文字还是天然形成的拼音文字,都通过两到三个维度的矢量化兼顾了读音和达意的关系。但是,如果强制将中文拼音化,它将失去达意的功能,这不符合信息论的原则,因此做不下去。世界上人为想做的,但违背规律的事情,做起来总是困难重重。
3.在生活中其实也有很多矢量化的例子,它们让问题变得简单,但是会丢失信息,而平衡便利性和信息的完整性,就成为了艺术。
思考题:如果你是一家公司的人事经理,年底时要设计一个对员工进行评估的方案,利用矢量化的原理,怎样设计方案比较好呢?
预告:我们还留下了一个问题,为什么说中文比西方拼音文字更精炼,也因此更难学?这个问题我们下一讲再说。
09 冗余度:《史记》和《圣经》哪个信息量大?
我们只是想证实一本经典的信息量不会因为使用不同语言书写而不同,这其实也证实了我们前面讲到的编码的等价性(不同语言可以被看成是不同的编码),即同样的信息采用不同的编码,信息量是不变的。
……
冗余度是这样定义的:
(信息的编码长度 - 一条信息的信息量)/ 信息的编码长度
我们知道信息量其实就是按照信息熵计算出来的。
在上述例子中,中文的冗余度大约是 1/2,英文的冗余度为 2/3, 如果对其它书籍的双语文本作同样的对比,也能得到类似的结果。因此,中文简洁是完全有科学根据的。
接下来可能你会想,简洁不是一件好事么?冗余不是应该尽力去消除吗?如果我们原本需要读 5000 字节的内容,现在只需要读 3000 字节,那不是省时间了么?
其实不然,因为如果冗余度太低,会严重影响接收信息的速度。比如我们对一篇经典的论文和一篇小说进行压缩,就会发现小说的冗余度要高得多,但也正是因为如此,小说才容易阅读。
相比之下,像沃森和克里克描述 DNA 双螺旋结构的论文,一共一页纸多一点,几乎每一个单词都不能漏掉,理解起来反而要花一点时间。
也就是说,对于同一种语言,不同题材的文章,信息的冗余度差很多。如果对小说进行压缩,压缩比要高不少,也就是说小说的冗余度极高。
可能你有这样的体会,有些小说看上去很厚,但是信息量似乎并不大,一段文字就能把整个故事概括说清,就是这个原因。这是语言中冗余度的第一个好处,也就是便于理解。
除了便于理解,冗余度的第二个好处是,在语言学上它消除了很多歧义性。
汉语简洁的一个重要原因,是对比英语,汉语去掉了动词的各种时态、性别、单复数,和语气等信息,名词去掉了数量和阴阳信息,绝大部分名词去掉了正式和非正式的信息,所有这些信息都需要通过上下文来恢复,这其实就花工夫了,如果恢复得不好,在意思的理解上会略有差别,这就造成了误解。
相比之下,极为严谨的拉丁语和法语则没有这个问题。比如在英语中,名词和动词数量的一致性,语句中语气和写法的一致性,都保证了相应的信息不容易漏掉。这都归功于它们的冗余度大。
冗余度的第三个好处是:带来信息的容错性。我们有这样一个经验,如果你的朋友给你发送了一个文本文件,这个文件丢失了一段,你依然能够得到大部分内容,甚至能够通过前面或者后面的内容恢复出一部分丢失的内容。
但是,如果他把文件压缩成 Zip 格式了,而压缩后的文件少了一点,你就惨了,完全无法恢复其中的内容。
……
当然,凡事有一利必有一弊,信息冗余自然有它的问题。
首先,大家能够直接感受到的就是在存储和传递信息时的浪费。可以想象,如果你存储的文件,编码的长度是信息量的好几倍,肯定是浪费。当然有人可能在想,现在存储器便宜得很,网速也很快,冗余就冗余吧,浪费不了太多钱。
但是要知道文字的冗余度是在各种信息中非常低的。如果你传输标准的 4K 电视,对于任何信息冗余,一点也不压缩,那你的网速需要每秒钟 12Gbps,也就是采用光纤入户后峰值传输率的大约 10 倍,今天家庭使用的 Wi-Fi 的 200 倍左右。
当然,你今天能收看 4K 电视,是因为通常这种视频图像的信息冗余度极高,压缩几十倍也不会损失任何信息,如果允许略微损失一点信息,则可以压缩上千倍。
信息冗余的第二个问题是,如果在信息中混有噪音,过多没用的信息可能会导致错误。
……
那么这些原理和我们的工作有什么关系呢?善用信息冗余会帮助我们成为沟通的高手,我根据自己的经验,有这样三点体会供你参考:
1.讲东西时要通过加入一些看似是废话,但是实际上是从侧面诠释你的想法的句子,帮助对方理解你的意思。比如我常说“换句话说”,“比如说”,“从另一方面讲” 这样的话,这就是利用信息的冗余便于大家理解。
2.讲东西要有一致性,不要补充有可能和主要思想相矛盾的例子,或者和想法无关的冗余信息。
3.在我们脑子存储信息时,要进行压缩,这样脑子才记得住事情。很多人问我,你读那么多书,记那么多事情,怎么记得住的?其实我脑子的记忆力并不好,别人五分钟能背下来的英文单词,我 15 分钟也记不住。但是我无论读书,还是学习,都会做类似于写卡片的工作,也就是说,把这一本厚厚的书的内容,变成薄薄的几页纸的东西,那些冗余的信息,就删除掉了。我有时讲,读书要不求甚解。这不是说不读懂,而是说要读出主线,将一些细节过滤掉。真到了需要寻找细节时,大不了回过头来再看看就好了。
────◆要点总结◆────
我们介绍了信息冗余度的概念,并且通过冗余度证明了汉语是最简洁的语言,但是同时也说明了因为汉语的冗余度太低,理解起来比较困难,因此难以学习。
我们介绍了冗余度带来的三个好处:易理解、消歧义和容错性。
但是信息冗余也带来了问题,一方面它造成信息存储和传输的浪费,另一方面它在有噪音的情况下,可能导致混淆。
思考题:太简洁晦涩的文字和太啰嗦的文字读起来都比较花时间。单纯从接受信息来讲,怎样写文章才能让大家接受信息的效率最高呢?
预告:这一讲,我们还留下了一个疑问:秦王子婴到底是谁。
下一讲,通过讲解信息等价性原理你就知道答案了。
10 等价性:信息是如何压缩的?
你好,欢迎来到我的《信息论 40 讲》,
这一讲的主题是,信息的等价性,这一讲我会告诉你信息是怎么被压缩的。
你可能会好奇,我为什么要让你知道信息压缩的原理,你又不会真的去压缩视频。
在回答你这个问题之前,我们先从上节课最后留下的那个问题谈起,秦王子婴到底是谁?
我们上一讲说《史记》这本书里对于他的身世就有三个说法,而且前后差出两代人。第一个说法,说他是秦始皇的弟弟,第二个说法:他是秦二世的哥哥,第三个说法是根据《秦本纪》记载,子婴是秦二世的侄子。这样,从秦二世的上一辈,到平辈,到晚辈都让子婴占了,这当然不可能。那么史学家是如何确定他的身份的呢?这就用到了等价信息。
好,我们就先从说子婴是秦二世侄子的《秦本纪》里找线索。在《秦本纪》中,还写了子婴在秦二世驾崩后杀赵高的事情,讲他“与其子二人谋”。也就是说,秦始皇的孙子子婴谋划杀赵高时,已经有了两个能够出主意的儿子。我们知道,秦始皇 49 岁就驾崩了,秦二世在 3 年后也驾崩了,那时子婴还是十多岁的孩子,不可能有两个能出主意的儿子杀赵高。
至于是不是他哥哥,这个可能性就更没有了,因为《史记》中写了秦二世怕他的兄弟和自己争皇位,把他的 20 多个兄弟都杀了。排除了这两个可能性,子婴只能是秦二世的叔叔了,而《史记》中也没有和这条信息相矛盾的记录。
当然,这是一桩史学界著名的悬案,目前也没有一个定论,我只是用自己的推导方法为你演绎了一下,面对错综复杂的信息时,如何利用其他信息的等价性为我们理清思路。而信息等价性的应用,在今天尤其广泛,对于指导你处理复杂信息会很有帮助。
在很多时候,我们直接得到一种信息,或者原封不动地保留一条信息并不容易,但是却可以从等价的信息中导出所要的信息。当然,这样倒手一次的操作需要一个桥梁,让原有的信息和等价信息一一对应。在信息科学中,最著名的桥梁就是傅立叶变换了。
傅立叶是十九世纪法国的数学家,他发现任何周期性的函数(信号)都等同于一些三角函数的线性组合。下面这张图,就是周期性函数的样子,也就是说它们的波形都是重复的。
……
信息压缩的基本原理大致如下:
1.找到这种周期性信号的等价信息;
2.对等价信息进行压缩;
3.如果要使用原来的信号,通过压缩后的等价信息复原原来的信号。
这里面的关键,是找到等价信息。对于周期性的信号,等价信息就是一组正弦(或者余弦)波。正弦波的性质如下,大家可能并不陌生,因为它是最典型的波动曲线的性质。
世界上所有的正弦波曲线形状都差不多,但是振动的幅度可大可小,振动的频率可高可低。比如下面这张图中的正弦波显然振动的频率就比较高,用句俗话讲,它抖动得特别快。
19 世纪初,法国数学家傅立叶发现所有的周期性信号都可以用频率和振幅不同的正弦函数叠加而成,也就是说周期性信号里面所包含的信息和若干正弦函数的频率、振幅信息完全等价,这种变换被称为傅立叶变换。
如果利用傅立叶变换,可以将 100 年里温度变化的信息用大致 20 根频率和振幅不同的正弦曲线叠加而成。也就是说,100 年里 3 万多个温度样点里的信息,基本上就等价于 20 个频率数据和 20 个振幅数据,这样一来信息就被压缩了近百倍。
今天音频、图像和视频的压缩,就是利用这个原理。其中的关键就是找出那个等价的信息。
今天我们见到的各种音频信号,包括我们的语音、音乐等等,在较短的时间内,都有相对稳定的周期性,比如下图就是一段语音,你可以看出它有一定的周期性。利用傅立叶变换,可以对语音进行压缩编码,然后传输,这样可以将语音信息压缩 10 倍左右,当然这样可能会有很少的信息损失,这一点我们后面再讲。但不管怎样,这样的信息压缩是非常合算的,比如用微信语音打电话,如果不进行信息压缩,可能要多用十倍的数据流量。
那么图像又是怎么压缩的呢?它们看上去不像是有周期性振动的波形啊。这其实只是我们在宏观上看一幅图,但是如果我们用放大镜把图放得特别大,看到的就是一个个像素,而且相邻的像素之间颜色和灰度的变化会是相对连续的。利用这个特性,人们发明了一种被称为“离散余弦变换”的数学工具,也称为 DCT。
DCT 可以被认为是傅立叶变换的延伸,只不过它没有使用正弦波,而是采用了下面图中所示的 64 个基本灰度模板,任何照片都可以用这些模板组合而成。当然,对于彩色图片需要用带有红绿蓝三原色的彩色模板。这样一幅图片,就变成了一组数字,这些数字是模板中相应的模块的权重。我们经常使用的 JPEG 格式的图像,就是这么生成的。
当然,对于 JPEG 图片,你会发现各种图像压缩工具允许你根据对清晰度的要求,压缩得多一点或者少一点,这里面的技巧我们后面介绍信息损失时再讲。
……
很多相同形式的内容放到一起,还能进行更有效的压缩。之前有读者问我,在 Google 上什么东西都能够查到,难道它保存了互联网的所有的内容?这听起来难以置信。其实 Google 还真这么做了,只不过它在向大众服务时,把所有网页中的文字顺序打乱了,它按照每一个关键词在网页中出现的位置重新整理了互联网的内容。这样不仅方便查找,而且能够压缩信息,节省存储空间。这样当你查找时,它不仅能够告诉你,你要找的内容在哪里,还能够根据每一个词出现的位置,恢复出原来的网页展现给你。这就是等价性在信息处理中的应用。
善用等价信息,是我们这个年代每一个人都必须掌握的工作技巧,这是我们这讲最希望你记住的一个知识点。比如说我们无法看清人体内部的情况,但是我们知道人体内有很多水分,水里有氢原子,它的电子在旋转中形成一个个微小的磁针,我们在人体外面施加磁场,就可以把水分子里的小磁针方向给排顺了,然后我们加入一个能够和水中氢原子共振的脉冲,就可以把人体氢原子振动的信息取出来。由于人体各个部分水的分布不一样,我们通过各个部分氢原子振动的信息,就可以把人的结构画出来。这就是核磁共振的原理。因此核磁共振就是利用了等价信息。
类似地,检测引力波的 LIGO 装置,检测希格斯玻色子的 ATLAS 装置,用的也是等价信息。我们今天在医院里做的大部分血项检查,都是在用等价信息。
────◆要点总结◆────
我们通过信息压缩来说明了等价信息的重要性,当然这个原则的应用要远不止信息压缩这件事情。它对于我们获取信息,乃至处理信息同样重要。
11 信息增量:信息压缩中的保守主义原则
我们上一讲讲了信息的等价性,以及如何利用等价性压缩信息。
说到信息的压缩,大家可能会有这样一个体会,就是视频的压缩比要远比图片的高很多。
大家的这个观察是完全正确的,它们通常会相差两个数量级,也就是说 JPEG 图片能压缩 10 倍基本上也看不出损失,而 MPEG 视频能压缩近千倍,肉眼也分辨不出来是压缩过的。
有人就问我,那么能否用视频的压缩方式压缩图片,达到上千倍压缩的效果呢?简单的答案是不能,因为视频压缩时,利用了信息的相关性,能够采用所谓的增量编码,而单一一张图片中,不具有太多的相关性可以利用。
所谓利用相关性进行压缩编码,简单来说就是如果两个信息“长得很像”,只要保留一个,对另一个,只要保留它们的差异,然后进行微调就行了。
要讲清这里面的原理,我们先来看一个简单的例子。
如果我们要对这样一组数:
3210,3208,3206,3211,3220,3212……进行编码,需要多少比特(或者多少字节)呢?
我们首先观察到,这些数字毫无规律可言,不存在哪一个出现的概率更大,哪个更小的问题,因此无法利用哈夫曼编码的方法,将比较短的码分配给出现概率高的数字,我们只好将它们一一编码。
由于这组数字都是三千多,我们需要用 12 位 2 进制表示每一个数字,也就是说每个数字编码长度为 12 比特。因为如果用 11 位二进制,那么 2 的 11 次方是 2048,它不能涵盖 3000 多的数字,而 12 位 2 进制能表示到 0~4095 的数字,所以我们用 12 位二进制来表示。
但是,我们还注意到一个现象,那就是各个数字变化不大,它们的动态范围不超过 16。因此,我们可以利用这个特性进行压缩编码了,具体的做法是这样:
1.对第一个数字使用 12 比特的编码,我们没有办法做得更精简。
2.对第二个以后的各个数字,我们将它和上一个数字相比较,发现它相比前一个数字,动态变化的范围在正负 16 以内。因此,我们只需要对差异(也被称为增量)进行增量编码,就可以了。
对于这些增量,如果不考虑符号的话,我们用 4 个比特就够了,因为 log 以 2 为底
16 的对数等于 4,也就是 2 的 4 次方等于 16。
当然,增量可以是正,也可以是负,我们再加一个比特的信息表示符号,于是从第二个数字开始,我们采用 5 个比特就可以表示它和前一个数字的区别了。
于是我们可以将上面一组数字做如下的编码:
3210 【-2】【-2】【5】【9】【-8】……于是除了第一个数字还需要 12 比特之外,剩下的只需要 5 个比特即可(4 个比特表示变化范围的区间是 16,1 个比特表示加或者是减),相比原先每个数字 12 字节的编码,压缩比大约是 2.4:1(12:5)。
在解码时,我们先解出第一个,然后解出后面的增量,再根据上一个的数值和当前的增量,恢复出一个个原来的信息。
今天对于视频的压缩,用的就是上述原理。我们知道一般的视频一秒钟有 30 帧,高清的是 60 帧,4K 的是 120 帧(甚至 240 帧)。每一帧视频之间的差距其实极小。
我们对第一帧视频(也被称为主帧)进行全画面编码,对于这一帧的压缩比,其实不会太高。
但是对后面每一帧的视频,只要针对它们和上一帧的差异进行编码即可,这样除了主帧外,后面的每一帧的视频,其实编码的长度非常短,视频文件就显得比较小。我们上一讲说到的 Google 搜索所用的索引,其实也用到了前后相关性进行压缩。
搜索引擎的索引是什么东西呢?它是把每一个单词在全部网页中出现的位置列出来。比如
“中国”出现在第 50001,50008,50300 等位置,“科学”出现在 50009,50045 等位置。
由于互联网上的网页数量巨大,单词的位置如果从头到尾排一个序,大约要排到
几百亿,这些数字就很大。Google 的做法是每一个网页只保存第一个单词的起始位置,剩下的单词是相对第一个单词的位置。
比如某个网页起始的位置是 50000。那么刚才我说出现“中国”这个词出现了三次,它的索引记录就的是 50000,以及位移量 1,8 和 300,“科学”这个词相应的一段索引,记录的是 50000,和位移量 9,45。这样就能有效压缩信息的长度。
在搜索时,如果要找同时包含“中国”和“科学”的网页,只要看看它们是否有
共同的网页起始位置即可,比如它们出现在了起始位置为 50000 的网页中。如果非要找“中国科学”(连起来的)这个词,除了保证它们在同一个网页中出现外,还要保证它们的位移量相差正好是 1。因为在这个例子中,“中国”的位移量 8 和
“科学”的位移量 9 正好差 1,我们就知道它们是相邻的了。
通过这种方式,网页搜索的索引可以在很大程度上节省空间(大约节省 75%),而且这种信息压缩是无损的。
当然,凡事有一利就有一弊。正如我们前几天所讲,当我们把信息冗余都挤掉后,编码长度非常短时,容错的性能就会下降。
你过去看影碟可能有这样的体会,当光盘被划了一道,它就经常跳盘,这就是因为视频的压缩是前后相关的,中间坏了一点,很多帧的视频就都看不了了。
为了防止这样编码造成的累积误差,也为了防止中间有一点点信息损失,后面的视频统统打不开,所以,每过若干帧,我们就要重新产生一个主帧,以免错误会传递太远。
信息的前后相关性,其实是信息本身固有的特征。或者说,绝大多数时候,我们这个世界的变化是渐进的,而不是完全随机的。不仅在信息的世界如此,在我们的生活中也是如此。
我在过去的专栏里讲了保守主义的做事态度,它的好处其实是由我们这个世界渐变的特征决定的。因此,在绝大多数时候,我们不需要推倒重来,只需要对变化进行一些修补就好了。
有些人看不起总在修修补补的做法,觉得缺乏革命性,但是从信息论的角度讲,保守主义的做法成本最低。
在美国生活过的人,一开始会发现两个难以理解的现象。
第一个是美国的税法很复杂,每年报税是一个工作量很大的任务。
那么为什么要把税法搞得那么复杂呢?
这就是利用增量进行修修补补的结果。每一个群体都有自己的利益,都想要尽可
能让自己能够多免税,于是各方博弈,在原有的税法上不断修补,就成了今天的样子。
这样经过长时间迭代,总算各方面相对满意。
当然,过了很长时间,一些税法跟不上经济和社会发展了,就要作大的调整,这就如同视频压缩时,一旦新的画面出现,就要重新开始一个主帧一样。
第二个现象是学区划分得犬牙交错。这也是为了平衡各方面利益不断修补的结果。因此,不要根据“保守主义”这四个字就认为英国人和美国人保守,它其实更多地反映在这种渐进的做事方式上。
甚至美国的宪法也是通过修正案的方式在作微调,而没有像法国和德国那样几次彻底修改宪法。正是因为渐进,牵扯的利益不会太多,才能够推行得下去,从长期来看才能发展。
如果想一次完成巨大的突变,常常会因为牵扯的利益太多,最后总是搁浅,永远改不了,结果反而是不进步。
这就如同我们如果非要对一个 2 小时的电影每一帧都保留全部的信息,那么一部电影的数据会大得在网络上无法传输,我们的计算机播放电影就会不断卡壳,我们看到的画面反而不如压缩的清楚。
────◆要点小结◆────
首先,我们讲了善用信息前后的相关性,对于后面的信息做增量编码,达到大幅度压缩信息冗余的目的。
其次,我们把这种信息处理的方式,和保守主义的做事方法作了一个对比。所谓保守主义,其实就是坚持总体原则不变,不断作微调,达到渐进改变的目的。这样做,比每一次都推倒重来,或者干脆达不成一致,其实效率反而高,因为我们的世界在绝大多数时候都是渐变的。
思考题:如果说我们在视频压缩中有一个主帧的概念,后面各帧图像都是对它作对比,那么在我们的生活,什么事情其实扮演了主帧的角色?
预告:上一讲我们说了信息等价性,可以利用这个原理来进行无损压缩,在做事情时我们也要学会找出等价信息。
这一讲,我又给你介绍了信息的前后相关性,可以对像视频这样的信息进行高压缩比的处理,进而告诉大家要找到自己做事的主帧,做一个保守主义者。
下一讲,我还会告诉你,在压缩信息时,如何在压缩比和失真率之间保持平衡,看看你能收获什么启发。
课程对你有所启发,欢迎你分享给自己的好朋友。我们下一讲再见。
12 压缩比和失真率:如何在信息取舍之间做平衡?
上一讲,我们谈论图片和视频是如何压缩的,介绍了它们背后的两个原理:信息的等价性转换,以及利用信息的前后相关性,找出差异,对增量编码。用这些方法,就可以压缩信息。
但是大家都有一个疑问,那就是,我压缩过的图片,恢复回来似乎没有原图清晰了,这是怎么回事?信息的压缩是否都会让一部分信息丢失掉?
这一讲我会告诉你,信息压缩是要考虑失真率的,而这种取舍平衡的原则,其实是我们都应该学习和了解的。
我们在前面讲了香农第一定律。香农指出,任何编码的长度都不会小于信息熵,也就是通常会大于等于信息熵,当然最理想的就是能等于。
如果编码长度太短,小于信息熵,就会出现损失信息的现象。
因此,信息熵是告诉信息处理的人,做事情的边界,就如同不能试图逾越热力学第二定律发明永动机一样,大家在压缩信息时,如果想要无损,就不能逾越香农给的这个边界。
也就是说,如果一张图片里面有 10K 的信息,你再怎么压,也不会比它小,否则就会损失信息。
理解了这一点以后,我们就知道无论是语音,还是图像、视频,都有两类的压缩方式,一类就是无损压缩。比如我们昨天说的通过傅里叶变换和离散余弦变换将音频和图像信息变成频率信息,再用类似哈夫曼编码进行压缩,这是不会丢失信息的。
另一类是要丢失一部分信息的,也被称为有损压缩。
比如一幅图经过无损压缩已经被压到 10K 了,你还想压到 1K,那就需要有所损失了。因为在很多场合下,有损的压缩还是必要的。
事实上我们今天对于音频、图像和视频的压缩,绝大多数情况都是有损的压缩。而有损压缩最关键的是要清楚如何保证因为压缩而丢失的信息不影响我们对信息的理解呢?这就需要平衡压缩比和信息失真度之间的关系。
所谓失真度,其实通俗来说,就是压缩前、压缩后的两串信息的差的平方。
也就是说,如果信息没有任何失真,失真率是 0。如果信息完全消失了,失真率是100%。有了失真率的概念,我们就可以来讨论有损失的信息压缩了。其实我们生活中大量应用到的都是有损压缩,只不过我们感受不到,这就说明压缩很好地考虑到了失真率。
……
很多时候,我们都是在接受了某个失真度的情况下(也就是在上图中横着切一刀),然后再去尽可能找到好的压缩比。
世界上很多时候没有最好的技术方案,只能根据场景找到合适的,因此做事的目的性很重要。这是第一个原则。
我们还知道信息的作用是消除不确定性,那么反过来,丢失了一部分信息,一定会增加不确定性。用的信息少,永远不可能做得和原来一样好,这是第二个原则,大家一定要记清楚。
……
除了要考虑目的,考虑到信息数量之外,第三个原则是,在压缩信息时,有时要看应用场景。
还是以语音压缩为例,在语音通话时,牺牲一定的讲话人的口音,问题不大,因为它的目的是传递话音中的信息。
但是,在进行声纹识别时,情况就正好相反,那个人说了一句什么话不重要,重要的是知道他是谁。
因此在后一种应用中,需要保留的是说话人本身的信息,反倒是他说的内容无关紧要。也正是因为应用的场景不同,才有了各种压缩算法。
接下来大家可能会有一个疑问,那么高比例的信息压缩到底是压缩掉了什么信息?
简单地讲,就是压缩掉了高频信息。进一步说,人通常能够听到 20 赫兹到 2 万赫兹的声音,但是人发音的范围只有 300 赫兹到 4000 赫兹左右,因此任何高于 4000 赫兹的语音信号,就被过滤了。
虽然据说世界上音调最高的女性叫起来能到 1.7 万赫兹,这已经远远超过了小提琴的最高音了,但是对不起,为了压缩信息,我们不保留。今天的语音通信就是这么实现的。
对于图像也是如此,你可能注意到这样一个现象,如果你以蓝天为背景拍了一张照片,照片上有只很小的鸟,你如果用 JPEG 算法进行图像压缩,小鸟可能就被过滤掉了,而且蓝天的细节就没有了。这就是因为有损的图像压缩算法都是先过滤高频信息的。
……
信息压缩的原理,不仅在计算机存储、通信和信息处理中经常用到,还被用于了生物、金融等很多领域。
根据华大基因创始人杨焕明教授的说法,如果把人以及他体内细菌(量是相当大的)的基因都测序,然后存起来,每个人要超过 1PB 的存储空间,也就是 1000 个 1T 的硬盘,这显然是一件成本极高的事情。
2012 年,约翰·霍普金斯大学的科学家们发表了一种遗传压缩算法,在不丢失任何信息的情况下,压缩比达到了 1000 倍。这件事对于普及基因测序很有意义。
约翰·霍普金斯大学的科学家们是怎么做的呢?简单地讲,他们的方法和视频压缩的方法很相似——考虑到人的很多基因是相同的, 只需要存储有差异的基因即可。
────◆要点总结◆────
信息的压缩分为有损的和无损的两种。对于无损的压缩,原先的信息能够完全复原,但是通常压缩比不会太高,因为它存在一个极限,就是香农第一定律给的信息熵的极限。对于有损的压缩,信息复原后,会出现一定程度的失真。
通常失真率和压缩比直接相关,压缩比越大,失真率越高。采用什么样的压缩方法,压缩到何种程度,通常要看具体的应用场景。在信息处理这个领域,常常不存在所谓的标准答案和最佳答案,只有针对某个场景的好的答案,而一切都是妥协的结果。
信息压缩看似是信息处理专业的问题,但是它的思想可以用到很多地方。我们有时强调要把知识学通,就是这个道理。
13 信息正交性:在信息很多的情况下如何做决策?
生活中你可能有这样的经历,面临决策时,知道的信息越多,反而越是扰乱了你的思路。反复权衡,最后,干脆就瞎选了一个,如果这是人生的重大决策,很可能会追悔莫及。
这一讲,我想告诉你当面对的信息很多时,如何利用和组合信息,提高自己的决策水平。
我在《科技史纲 60 讲》中用信息和能量这两根主线将科技发展的历史串了起来。不少读者就问,信息是否具有和能量相似的性质,比如信息是否也守恒呢?
应该说信息和能量有一定的相关性,但是它们的性质完全不同,比如信息并不具有守恒的特点。你将一条信息告诉别人,你自己并不损失这条信息。
除此以外,不同信息彼此之间的关系,以及使用相同或者不同信息带来的结果,它在这些方面和能量也完全不同。
我们今天就从信息和能量的对比出发,谈三个获得有效信息和利用好信息的要点。
首先,和能量不同,相同的信息使用两次,不会产生两倍的效果。
……
其次,如何发挥信息叠加的力量呢?我们在做机械运动时,为了获得最大的加速度,用力(或动量)的方向要一致,而在利用多种信息消除不确定时,所采用的信息是正交的(垂直的)时候,效果最好。
……
那么怎么才能找到正交的信息呢?这和具体的应用场景有关,而且多少有点艺术的味道。但是依然有三个原则应该遵守,以免走弯路,另外有一个方法可以使用。
首先,不同的信息要来自不同的信息源。比如在上述名片识别的例子中,图像信息和互联网上的信息,完全属于不同的来源。
比如医生给你看病,会让你做血项检查和医学影像扫描,因为这两种也属于不同的信息来源。它们放在一起使用,信息带来的好处就可以叠加。
如果做检查,你做了一遍 X 光透视,又做了一遍 CT 扫描,最后还做了一次核磁共振,这三种信息基本上是一个维度的。核磁共振发现不了的问题,前两种基本上也没有用。
这就是为什么很多人容易上当的一个原因,就是他们不善于选用正交的信息进行交叉验证(关于交叉验证,我们后面还会专门讲)。
很多人觉得他也注意了不同媒体的信息,而不是只信一家之言,但是他忘记了今天很多媒体的信息都是相互抄的,也就是说一种信息多次使用而已。
第二个原则是,避免反复使用相互嵌套或者相互包含的信息,即使它们来自不同的来源,因为那些信息即便不完全相同,但是可能一个覆盖了另一个,或者相似性太高。
很多人申请工作,简历中提供的都是相互覆盖的信息。比如最重要的两段工作经验本身已经证明专业能力了,还罗列了一大堆无关紧要的工作经历,以及可有可无的专业证书。这些对别人了解自己不会有更多的帮助。
最后一个原则,看问题要刻意改变一下观察的角度,从几个不同的角度看。
下面这张图,你从前往后看是个正方形,从上往下看,则是一个圆。如果坚持只从一个角度看这个物体,永远看不清楚全貌,因为它实际上是一个圆柱。
至于在多种信息源中,如何选取几种最重要而且彼此尽可能正交的信息呢?在信息处理中常常有两个方法,一个是不断叠加,另一个是不断删除。先说说不断叠加的方法。这有助于你利用好手上的资源,有效排兵布阵。道理很简单,但常常被人们忽略。
我们假定有十种信息,需要选出三种,使其组合起来是最有效的。我们先对它们单独评估,列出对于解决我们的问题的有效性,并且从大到小排序,然后把排在第一位的作为基准。
第二步,是在第一种信息已经使用的基础上,对剩下的九种重新评估,再重新排序,选出这次排序最高的。
第三步类似于第二步。这样可以不断选择下去。这种做法衡量的不是每一种信息单独的有效性,而是找到它们组合的有效性。
这就好比你是篮球教练,要打造一支好的球队。你先选定控球后卫,然后选择一个和他配合发挥最好的选手,再选第三个和前面已经选定的人能够配合的人。
第二个方法是不断删除的方法,这和不断叠加的方法类似,但是过程是逆向的。
但是不论是哪种方法,都有可能陷入一种局部最佳值。而这件事其实至今也没有得到彻底的解决,因此很多时候,成功有运气的成分。
────◆要点总结◆────
1.在力学上,用力要在一个方向效果才好,在使用信息上,要选用彼此垂直的正交信息。这其实是换一个角度看问题背后的科学原理。
2.我们给出了选择正交信息的3个原则,和2个做法。
14 互信息:相关不是因果,那相关是什么?
接下来的问题是,你是否该根据街上女生穿的裙子长短来购买或者抛售股票呢?
有些人确实在这么做,但是我们知道今天没有听说靠这条信息在股市上发财的人。著名经济学家马尔基尔在他的《漫步华尔街》一书中详细剖析了这则传说,他认为这个牵强的相关性是毫无根据的。虽然总有人能举出证实这种指数的例子,但也有人能举出大量的反例。
那么裙摆的高度和股票的涨跌到底有没有关系?这显然不能通过举例子来证明,就需要有一个正确的数学模型,好好计算一下了。
在信息论中有一个互信息的公式可以算出来这个答案。我们假设裙子长度这个随机变量是 X,股市涨跌为 Y,然后设定好时间等参数,带入互信息的公式,就可以了,以下是公式,以及详细的推导过程,其实很简单:

大家不必太关注这个公式本身,记住这样一个结论就可以了,就是如果 X 和 Y 基本上无关,它们的计算结果,也就是互信息就近乎为零。如果相关,它们的互信息就非常大,你可以把互信息简单地理解为相关性。
经过计算,穿短裙这件事和股票上涨之间的互信息近乎为零。马尔基尔等不少人还用不同的模型算过它们的互信息,得到的结论基本上是“无法根据是否穿短裙来判断未来股票涨跌”。
世界上很多事情彼此相关,如果它们之间有确定的因果关系,那样的信息就是等价的。比如从 A 一定能推导出 B,那么知道了 A 就等同于知道了 B,它们是可以划等号的。
但是世界上大部分相关的信息未必有因果关系,它们之间只是一种动态的相互关联的关系,比如 A 发生后,B 发生的可能性就增加,这就是相关性。
如果相关性比较强,我们在得到信息 A 之后,就可以消除关于 B 的不确定性。但是,如果 A 和 B 之间的相关性较弱,那种联系就没有意义。
而互信息则给出了一种量化度量各种不同信息相关性的方法。
在历史上,很多信息是无法直接衡量的,甚至找不到完全等价的信息,只能依靠不同信息的相关性猜测。
……
这就如同你看到街上的女生开始穿超短裙,并不意味着股票会上涨。
我在《智能时代》一书中讲,在大数据时代,我们需要寻找的是强相关性,而不是看似有点关联的弱相关性。而两种信息相关性的强弱,是完全可以通过互信息衡量的。
……
比如我在之前的专栏《硅谷来信》中对盖茨和扎克伯格退学创业的事情作了评论,今天很多人都拿这两件事情说事,鼓励大学生们退学。
但事实却是,这两个人先是证明了自己初期的创业已经成功了,然后才退学的,因此大部分媒体把因果关系搞反了。
如果我们进一步把这件事放入大量的退学创业案例中作统计,把创业成功这件事看成一个随机事件 X,把退学看成另一个随机事件 Y,你就会发现它们的互信息几乎为零。
相反,高学历和高收入这两件事,互信息却非常高。
信息论并非是关于一条单一信息的理论,而是对大量信息整体规律性的描述。相关性差的两件事虽然有可能发生,但是放到大的时空中,就会发现这纯属偶然了。而信息论则是给我们一个科学方法,能够从整体上估计那些看似无关的事件一同发生的可能性到底有多大。这让我们能够趋利避害。
那么,如何找出事物之间更高的相关性呢?
接下来我们又要讲到专业人士做事情的方式了,他们比业余的人普遍做得好,除了我在《硅谷来信》中分析的发挥稳定,能够重复成功等因素外,还一个原因就是他们有很多业余人士没有的工具。
比如在风险投资方面,正规的基金会有一些研究人员,研究具有哪一些特质的创业者成功的可能性更大,第一次创业成功和第二次再成功之间的互信息,以及受雇于某些大公司和创业成功的互信息等等。
然后,他们会有意识地往特定的群体中进行投资倾斜。而业余做天使投资的个人,常常只能凭感觉作判断了。
────◆要点总结◆────
1.我们介绍了量化度量信息相关性的工具:互信息,虽然不相关的事情有时也会一同出现,但是只有互信息高的事情彼此才有较强的相关性。
2.我们指出了相关性和等价性的区别,以及不要在利用互信息时把两件强相关的事情之间的因果顺序颠倒了。
3.我们说明了专业人士可能会因为掌握专业工具,做得比业余人士要好。
希望它们能够对你有所启发。
思考题:人们发现,一个经济比较发达的国家通常政治制度都比较好,于是就有学者认为政治制度决定了经济发展。但是也有学者认为,只有在经济发展之后,才有可能建立起好的政治制度。那么政治制度和经济发展之间是否存在因果关系,如果有,谁是因,谁是果?如果没有,只是相关关系,这种关系是否强?
预告:这讲我们开头用来股市的例子来说明信息之间的关系,下一讲,我们还是会说到股市,我会告诉你为什么不要去画 K 线。
15 条件熵和信息增益:你提供的信息到底值多少钱?
前两讲,我们通过介绍信息的正交关系,讲了寻找能够彼此互补信息的重要性,又通过介绍互信息,讲了两条不同信息之间的相关性。
这一讲,我们更加系统地、量化地分析一下,如果别人给你提供了一条信息,到底有多大的价值。
我们还是从裙摆指数说起,不过这一次我们换一个角度来看这个问题。我们假设这个指数多少有点道理,那么利用它是否能够帮助炒股的回报多哪怕是一点点?
我们知道股市是一个非常不确定的地方,如果你获得了一种关于股市的信息,比如 A 公司要并购 B 公司,只有你一个人知道,而你之前对它的了解不亚于其他人,可能你的投资会表现好一点。
但是要注意它们未必构成因果关系,也就是说你挣到钱的可能性大一点,但未必一定能挣到钱,因为股市的涨跌受到太多不确定性的影响。
接下来我们就用信息理论对这个问题作一个比较严格的分析。
我们假定,股市的涨跌是个随机变量,用 X 表示,对于它的全部的不确定性,就是 X 概率分布所对应的信息熵,通常用 H(X)这个符号来表示。
如果你得到了一些内部消息,这些消息我们用 Y 来表示,那么股市对于你的不确定性就是 Y 条件下,X 概率分布的信息熵了,通常用 H(X|Y)表示,它被称为条件熵,
Y 是条件。
也就是说,在别人眼里,股市的不确定性是 H(X),而在你眼里,因为有了信息 Y,因此它的不确定性变成了 H(X|Y)。
接下来的问题就是,什么情况下 H(X|Y)会比 H(X)更小?那样的话,说明你获得信息 Y 之后,股市在你那里的不确定性就降低了。
对这个问题,我有好消息和坏消息告诉你。
先说好消息,在信息论中可以证明,H(X|Y)永远比 H(X)小,或者相等,即 H (X|Y)≤ H(X)。而等号成立的条件是,你得到的消息和股市无关,那些无关的消息既不会帮你也不会害你。
接下来就说说坏消息。如果你知道的信息,别人也知道了怎么办?对不起,由于市场的有效性,也就是股价能够充分反映所有信息,苹果会在一瞬间上涨 1.1%。这时你再使用那条信息作出购买苹果股票的决定,就挣不到钱了,也就是说苹果公司的股价已经包含了市场对回购股票那条信息的反应。
这就是我们前天说的,同一条信息使用一万遍,只有第一次会产生结果,后面都不会产生结果。由于这个“裙摆指数”假说已经存在了上百年,大家早就知道了,即使再有道理,一个人尽皆知的消息也没有用。
……
正是因为这个原因,真正能够通过投资股票挣钱的人,是不会告诉你所谓投资秘诀的。而在电视上开讲座讲投资的,反而是自己挣不到钱的。
不过,我一直反对年轻人花精力去找所谓的别人没有发现的和股市相关的信息,包括反对专业人士这么做。为什么呢?因为最有效的信息已经被发现了,剩下来留给大家的微乎其微。
要讲清楚这一点,我们就需要讲一个信息增益(Information Gain,简称 IG)的概念。
我们还是回到了解股市变化(对应随机变量 X)这个话题,在没有任何信息的情况下,它的不确定性是 H(X)。在有了 Y1 这个有用信息后,它的不确定性变成了条件熵H(X|Y1),我们前面说了,它比 H(X)有所减少。
那么 Y1 所带来的信息增益就是 H(X)-H(X|Y1),我们写作 IG(Y1)。
事实上具体到这个特殊的情况,IG 就是 X 和 Y 之间的互信息,这个值越大,说明消除的不确定性越大,X 和 Y 越具有相关性。
接下来,假设我们又有了另一条信息 Y2,它所带来的信息增益就是在原来 Y1 基础上的增加,我们写成 IG(Y2)。
我们假设后面还有 N 种不同的信息,从数学上看,它们带来的信息增益,每一个都是在原来所有信息基础上递减的。
通常,人们总是率先发现和所要解决问题互信息最大的信息,也就是增益最大的信息,因此通常来讲,越往后发现的信息,带来的增益越小。世界上的股市已经被人研究了几百年,各种直观的能够预测股市的有用信号已经被挖掘殆尽。
有了计算机之后,一些专业的在对冲基金里建造数学模型的人,利用计算机把几乎所有的已知信息都试验了一遍,如果有用他们就保留了下来,于是很快股市就反映了那些信息使用后的情况,也就是所谓的被 price in 了。
如果你真的有幸找到一个大家都遗漏的信号,那么还要确定两件事,才能知道它有没有用:
1.这个信号不要和其它已经采用过的信号重复,或者相互覆盖。
2.这个信号带来的结果要有足够高的置信度,也就是说,如果它让你的收益平均高出1%,收益浮动的区间要远远小于1%,否则浮动区间高达10%,那就一点意义没有了。关于置信度,我们后面还会讲。
如果把这两个条件再一限制,你就知道在股市上系统性地捡漏近乎不可能。好,这就是从信息论中信息增益的概念出发,我为什么不支持年轻人去研究所谓的炒股秘笈。
利用信息增益的概念,我们可以衡量一条信息的价值,也可以衡量一项研究发现的贡献。
先说说一条信息的价值,它取决于这条信息对未知系统所带来的信息增益。两条信息,先出现的,价值更大,第二条价值就小,在数学上可以证明这一点。
当然,如果两条信息相互正交,那第二条信息依然像过去那样有价值。这一点我们前面讲正交性时已经讲了。
正是由于上述特性,在一项课题的研究中,最初的几篇论文,即便绝对水平不是最高,但是通常提供的信息增益最大,因此影响力也最大。越往后,信息增益就越来越少,影响力自然就少。
在学术界,大家评估一个人的科研水平,主要是他所发表的论文的两个指标,一个是引用的数量,另一个是所登载期刊的影响因子。
其中后者是整个期刊一段时间内发表的所有论文的引用数总和(不是直接计算的,来自不同期刊的引用会有不同的加权)除以论文数,也是引用数量的间接度量。
因此,论文的重要性几乎就等于引用数,而引用数几乎无一例外地和信息增量相关。
当你说出一个别人不知道的事情时,就会被大量引用,很快就成了学术权威。如果总是做别人已经解决得差不多的课题,做得再好,在学术界也没有影响力。
对于媒体报道,独家报道受关注的程度,远远高于凑热闹围观。所以,第一个发稿的,影响力要远远大于后面跟踪报道的。
这是因为一开始的时候,大家一无所知,提供巨大的信息增益容易,后来则是在增益上补充而已。
对于个人,也是如此。第一个说出看法的,常常就成为了意见领袖,跟着发表看法的,大家其实记不住。这时,如果还想引人注意,就要提供之前谈到的正交的信息,也就是说和别人已经提供的信息都不相关的。
很多人喜欢发表与众不同的意见,其实是有道理的,因为标新立异的观点,才有可能提供之前大家不了解的信息,当然那些观点本身需要有证据支持,符合逻辑。
────◆要点总结◆────
1.我们用条件熵的概念,解释了为什么大众已知的信息对投资和其它决策其实都没有意义。
2.我们给出了一个定量衡量每一条信息价值的尺度,就是信息增益。
3.我们用上述理论解释了为什么在一个研究领域最初的发明贡献,影响力最大。对于每个人,第一个发表意见,以及能够发表与众不同的意见,对提高自己的影响力至关重要。
至于今天给出的一些细节公式,如果看不懂不用太在意,理解背后的原理就可以了。
思考题:有一句话叫,第一个用鲜花比喻美女的是天才,第二个是庸才,第三个就是蠢材了。你能否再提供一些类似的,能用信息增益来解释的俗语呢?欢迎你在留言区和我互动。
预告:下一讲,我会告诉你如何判断一条信息靠不靠谱。
16 置信度:马斯克犯了什么数学错误?
置信度就是我这一讲要教给你的知识点,它可以帮你衡量一个信息到底是否可靠。
我们常说要总结经验教训,其实大多数人并不会正确地总结经验和吸取教训,常常和马斯克犯一样的错误。
那么马斯克错在哪里了呢?要知道,出重大车祸是随机性事件,你并不清楚下一次什么时候发生,只有当统计的数据量足够大的时候,从结果上判定一种车比另一种安全才有意义。
……
那么什么是置信度(Confidence Level)?
我们不妨再看这样一个简单的例子,你扔了 14 次的钢镚,有 8 次正面朝上,6 次背面朝上,你有多大的把握说钢镚不均匀,正面朝上的概率更大,这个把握就是置信度。
衡量置信度的方法有很多,有一种被称为“T-测试”( 也叫 T 检验)的方法,它可以告诉我们在看到某种看似有偏差的现象时,有多大的可能性可以判断这种偏差是因为随机性造成的,而非真正存在偏差。
……
人们在对待信息时通常犯的一个错误,就是忽视它的置信度,以至于我们把完全随机的事情,当成必然的事情。
大量重复的事情发生背后常常有它固有的规律。比如,常压下的水到了零摄氏度就要结冰,这种事情很容易验证。
但是很多事情并不会重复或者完全重复,它们的发生就有很大的偶然性,几乎每一件历史上的事件,社会学上和经济学上的事情都是如此,甚至很多医学上的奇迹也是如此。
虽然人们总能找到合理的解释,用一种理论证实很多事情,但是换一种理论也能做到这一点。因此,严肃的学者们才感到证伪比证实更重要。
在上述研究领域,常常不存在绝对正确的理论,因为每一种理论其实置信度都非常低。这也让学术界必须认可百家争鸣。
那么置信度要达到什么水平才算是可靠呢?在工程上,包括在药物试验上,通常要求达到 95%以上。
对于两个可以量化度量的结果,比如在投资的回报方面,基金经理 A 声称比竞争对手 B 高 1%,是否能说明基金 A 就比基金 B 好呢?
我们假如以一个月为一个单位统计一次,按照通常股市的波动幅度,需要 1000 个样点,也就是需要大约 100 年的数据。
这个要求今天没有基金能达到,也就是说那些声称 10 年平均回报略好于大盘的基金,其实都在夸大其词,因为那一点差异根本不具有很高的置信度。
或者说,类似于“某某基金的回报 10 年高出大盘 1%”的说法,没有什么信息量能表明这个基金就比大盘好。
世界上有很多道理其实都很难验证,大到历史事件,由于很难多次重复,总结经验其实是非常难的。
中到某些企业的成功经验,其实都是事后总结出的一套自圆其说的理论,让它们稍微换一个环境甚至不换环境再来一遍,都很难获得同样的成功。
小到个人,做成一件事也有很多偶然的因素,下一次同样的方法是否可行,也要看情况而定。
我在《见识》一书中谈到了命运的作用,很多时候我们不得不承认这一点,一定不能去总结那些根本不存在的经验,或者用更科学的话讲,就是别相信置信度不高的信息。
如果使用置信度不高的经验或者信息指导行动会有什么样的结果呢?
这就如同一支军队,一直相信世界上有鬼,将精力都集中在寻找鬼以及思考对付鬼的方法上了,结果后面来了几个人,轻而易举地将这一大支军队都消灭了。
大家可能觉得我这只是打一个比方,其实这件事在我们身边正在发生。而这个鬼就是所谓的“能够控制人类”的人工智能。
我们在前面的课程中从各种角度反复讲了,所谓的有意识的,不受人控制的智能计算机不仅今天不存在,而且在未来几代人的时间里也不会存在。很多人疑神疑鬼,总在思考这样的机器人出现之后人该怎么办,这就是在找鬼。
实际上,今天真正可怕的,是那些利用超级数据中心无比强大的计算功能,以及无所不在的监控系统,和具有很强数据处理能力的大公司,它们是人工智能背后的人,比人工智能更可怕。
当我们普罗大众还在为机器取得了智能,会不会反抗人类发愁时,其实已经被那些智能程序控制了。
不信的话,就看看今天有多少人自从有了微信后生活的习惯就改变了,有了今日头条后就失去了主动寻找新闻的能力,甚至失去了判别新闻真伪的能力,有了淘宝以后,又有多少人买了一堆没用的便宜货。
────◆要点总结◆────
我们讨论了置信度的概念。人们平时看待消息时常犯的错误,是忽视它的置信度。对于能够重复的事情,要被检验足够多次之后,置信度才高。对于难以重复检验的事情,我们要通过其它一些方式验证,这些以后我们会讲。
当然,并非接受了不靠谱的信息,都会付出巨大的代价,那么问题是,是否能够量化度量错误信息所带来的损失呢?这还真的是可以做到的,这一点我们下一讲再讲。
思考题:你平时有归纳总结,及时复盘的习惯吗?你是如何判断哪些经验值得以后借鉴,哪些经验无法复制,只能称之为经历呢?
预告:我们下一讲说说,为什么利用了不靠谱的信息会耽误事儿,以及如何避免制订出于事实相反的计划。
17 交叉熵:如何避免做出与事实相反的计划
我们要介绍的代价函数被称为库尔贝勒交叉熵(K-L divergence 也叫 KL 散度)。从这个名称可以看出,它和熵有关。库尔贝勒交叉熵讨论的是在信息误判时的损失。

从库尔贝勒交叉熵的理论和上面三个实际的例子可以有下面五个更深入的思考。
1.如果你的猜测和真实情况完全一致,你不损失任何东西,但是只要猜测和真实情况不一致,就会或多或少有损失。
2.你的猜测和真实情况相差越大,损失越大。
特别是原来以为的小概率事件发生了,损失最大,那些就是所谓的黑天鹅事件。因此,在战争中,一方常常想方设法把它的真实意图隐藏得非常深。
《史记》中在讲到秦军换将这件事时,写了这样一句话,“(秦)令军中有敢泄武安君将者斩”,意思是说,秦国发布命令,军中有人敢泄露武安君白起来的这件事的人,要被杀头。在最极限的情况下,该考虑的事情完全不去考虑,最后发生了,损失无穷大。
因此《孙子兵法》就讲,“夫未战而庙算胜者,得算多也;未战而庙算不胜者,得算少也。多算胜,少算不胜,而况于无算乎!”(《孙子兵法·计篇》)
这段话的意思是说,开战之前进行庙算时,充分估量了有利条件和不利条件的,开战之后就往往会取得胜利;开战前没能进行周密庙算的,开战之后就往往会失败,更何况开战之前根本没有“庙算”的呢?战前没有庙算,就相当于把很多可能发生的事情的概率设成了零。
3.自大的人非常容易遗漏很多原本应该考虑的事情,赵括如此,后来的马谡也是如此。
我在《Google 方法论》中介绍过英国名将惠灵顿公爵,他在滑铁卢战役中打败了拿破仑,惠灵顿自知自己在军事上比不过拿破仑,甚至比不过当时很多人,因此他每次战役之前就做足准备。
到了近代,大家即使没有学过信息论,已经懂得要作万无一失的防范。因此像德国在防范盟军登陆时,虽然押宝押错了,但是不至于像赵括那样满盘皆输。
4.过分防范各种情况,患得患失,是否有损失呢?
这里的答案也是肯定的。我们假设当时赵国领军的是一位谨小慎微的将军,比如说廉颇,他不仅考虑到了白起来前线的可能性,还把当年率领另一支秦军的主帅司马梗,以及后来接替白起的主帅王陵都考虑进去了。
为了计算简单起见,我们假设赵国主帅将四个人的概率都设为了 1/4。根据前面的公式计算,这时的代价函数值=1.73,比赵括的猜测损失小不少,但是也不算太小。因此,如果没有什么根据随意猜测,其实成本是很高的。
当然,如果你要是说,我资源多,是对方的十倍,10%概率能做成一件事,我都付得出别人 100%的资源把它办成,那这就如同二战后期美国和日本的武力对比一样,美国实力很强大,赢起来没悬念,那么有没有信息的帮助,关系都不大了,什么事情都可以放到明面上,不需要策略了。但是通常这种绝对优势的情况并不多见。
5.在信息论中,任何硬性的决定(hard decision)都要损失信息。
所谓硬性的决定就是像赵括那样强制将一些可能性设成零,或者像前两年一位声誉很差的创业者动不动呼吁大家“all in”一样。那样的损失可能是巨大的,而且是补不回来的。
今天做人工智能的人都有这样一个经验,在走到最后一步之前,最好多保留一些可能性,哪怕将那些可能性的权重设得非常低,而不要很早就硬性地作决定,因为在硬性决定后失去的信息是永远也补不回来的。
我在谈到教育时,常常讲在本科以前,要进行通识教育,不要在一棵树上吊死,就是要避免过早开始硬性决定。我常常提倡变色龙精神,也是要避免一旦押宝押错了得到不可逆转的灾难。
当然,对于那些可能性不大的事情,在有所防范的同时,不要均匀分配力量,因为这种做法成本也很高,我们在上一条已经分析了。
至于该分配多少资源给那些虽然没有发生,却不能排除可能性的事情,早在上个世纪 50 年代,图灵的学生古德就提出了一种很实用的方法,被称为古德-图灵估计(Good-Turing Estimate),它的原则是从所有预见到的事情中拿出很少一些资源,分配给没有预见到的事情。
这一讲我们的内容很多,但是都是围绕着量化度量错误预测所要付出的成本进行的。需要你对照文稿多读几遍,当然可能有同学会想,我也记不住库尔贝勒交叉熵这个公式,遇到实际情况该怎么办呢?
────◆要点总结◆────
其实大家只要记住今天讲的五点原则即可,在平时灵活应用。比如说,我在《硅谷来信》中讲不要过度揣测领导的心思,因为猜对了和猜错了,得失实在不成比例。这用交叉熵就可以实际算出来。希望这些原理对大家有参考意义。
18 第一模块复盘
这一讲,我们复盘一下第一模块的课程,我会围绕“如何识别误导人的信息”这个线索展开。
掌握准确信息的好处我们不多说了,特别是当别人得到的信息是片面的、支离破碎的,而你掌握的信息是准确全面的时候,你的优势是巨大的。经过这十多讲的课程,我大致介绍了和信息产生相关的理论,大家平时不妨用这些理论对当下很多消息进行一下过滤,去伪存真,高效率地接收真正有用的信息,同时避免被一些错误和带有偏见的信息误导。
我在第 15 讲介绍量化度量信息增量的作用时,讲了如果根据道听途说的消息炒股是没有什么好处的,其背后一个原因就是片面而不准确的信息会误导人。
那么误导人的信息都有哪些特征呢?这讲我希望你记住它的三大特征,以后不管什么信息,你都能用这三大标准先对它进行一下过滤。
首先,刻意要引起你注意的人,常常会用耸人听闻的信息打动你,他们也知道那样的信息提供的信息量最大。因此,对于那些看似颠覆了你长期认知的所谓的“新知”,你要特别小心。比如说前一阵子股市有些动荡,你会发现很多人发出了这一类的信息:
a. 昨日股市暴跌了1%;
b. 美国政府对互联网公司动手,Google、Facebook和亚马逊一天蒸发10000亿元的财富;
c. 由于xxxx(某个原因),股市在一周内抹去了今年以来的全部增长。
等等。
这一类消息基本上就是耸人听闻,如果你信了,然后就会心慌,难免作出错误的操作,最后损失的是你自己。那么怎样判断这样耸人听闻的信息是否真的有价值呢?我给你提供三个方法,分别是:
1.将它们放在更大的时空来考量,因为更大的时空提供了基本的信息量,而最近的消息,某一篇报道,某一个人的观点,某一本书的内容,就算信息准确,提供的也只是增量信息。这有点像图像压缩中的主帧和随后作为增量每一帧的关系。
相比主帧,后面的信息量是很小的。就以美国股市为例,跌掉 1%,大约会蒸发几千亿美元的市值,这看似不小,但是 1%的跌幅是常有的事情。2008—2009 年金融危机期间,一天跌掉 10%的情况也有。也就是说,很多信息需要放回到更大的时空背景下考量,才能确定它们真正的意义。类似的,上面第三条信息说抹去全年增长,听起来挺吓人的,但是再看两眼细节就不足为虑。那句话是 5 月份说的,而之后 7 个月,股市的走势还没有确定,而且那之前所谓的今年以来的增长不过几个百分点,在历史上,股市一周跌几个百分点属于正常波动。
2.要看信息的一致性。今天标题党最大的特征就是标题和内容不一致。信息的一致性是信息本来的特征,但是人为地加入了很多虚假信息后,就不一致了,标题党便是如此。
上述第二条信息,它骇人听闻的地方在于所谓的 10000 亿元。对于一般人来讲,这确实是一个不得了的数字,看了标题以后的第一印象是这三家公司倒大霉了,甚至可能要有关门危险了。
但是,这篇报道的标题玩了两个猫腻,首先它把这三家公司的市值由美元转化成了人民币。显然,如果标题说,下跌了 1000 多亿美元,唬人的效果显然不如说 10000 亿元。编辑刻意费劲地专门转化成币值较小的货币,显然带有欺骗的目的。
其二,文章并不告诉你这三家公司的市值是多少,事实上它们加起来有 2.3 万亿美元,1000 多亿美元的跌幅大约占了 6%,虽然跌幅不算低,但是没有多可怕,市场上跌幅超过它们的公司还很多。
3.对于从一大堆信息中抽取的信息,要看它们的失真率。我们在前面讲语音压缩和图像压缩时说过,压缩过的信息和原来的信息相比,要尽可能避免失真,为此,只能过滤高频的信息,也就是不太经常出现,高出正常频率的信息,而不是相反。
那些故意误导人的信息则相反,它们把背景的低频信号过滤掉,保留个别高频信号,这就如同一张图片中蓝天上有一只鸟,那些人把背景的风景都过滤掉了,把那只鸟刻意留下来。然后他们刻意渲染——整个风景就是一只鸟,这样的信息过滤后,失真率是极高的。
比如在很多人印象当中,印度这个国家天天发生强奸案,这个印象并没有错,因为印度每天平均要发生 100 起强奸案。但是,如果你考虑到印度有 13 亿人口,这个比例并不高,在全世界大约排 90 多名,不仅比南美洲和非洲低一个数量级,比欧洲很多国家也低很多,甚至比国民大多信佛教的泰国低好几倍。
维基百科上有各国详细的数字,有兴趣的朋友可以去查查看,那些数字都有出处,即使有所偏差,但是大致的范围是可信的。对此,印度的妇女和儿童部长也专门解释过,说真实的情况并不像大家想象的那样。印度在这方面给全世界的印象极差。还用我们照片的例子来解释,你可以把印度想成一幅面积巨大的风景画,背景是一大片蓝天的,如果你一定要在上面找小鸟,可能会找到很多,因为那幅画面积实在太大。也就是人口基数太大导致犯罪数量很大。
当然,国际社会对印度印象不好的另一个原因是大家痛恨印度政府在这方面无所作为,但这和案发率是两回事。由于报道印度强奸案这一类的信息特别容易吸引眼球,久而久之,印度这个黑锅是背上了。
但公平地讲,它多少有点冤枉。如果说印度这方面的负面形象,多少有它本身的问题,但是很多类似的信息则是有人刻意过滤低频信息,只保留个别高频信息的结果。这一点大家要特别注意。
好,我刚才介绍了误导人的信息的第一个特征,那就是耸人听闻,对付这类信息,我给了你三个办法,分别是放大更大的时空里判断,看信息的一致性,以及看看是否刻意过滤了大背景的低频信息提高了信息失真率。
误导人的信息的第二个特征是没有出处,或者只有一个无法验证的出处,几乎所有的和阴谋论相关的信息都有这个特点。
2002 年,Google 在做新闻搜索时,要把某一个新闻所有的信息都归为一类,然后要溯源它们各自的信息来源。通常一个被上百家媒体报道的消息,经过这样的溯源之后,来源通常不会超过 5 个,这最初的 5 个甚至更少的来源,如果没有官方的报道,或者专业的媒体采访,可信度通常都比较差。
很多信息,其实是某个人断章取义,甚至肆意篡改之后,发布到所有媒体上的,也就是说,它只有一个不太可靠的来源,这种信息不信它也罢。
对于没有条件溯源的同学们,怎样评价这些信息呢?一个最简单的办法就是看同行评议。比如之一有关于 NASA 不曾登月的信息在流传,你去看看世界各国航天专家们怎么说就可以了。关于用水制氢气驱动汽车的消息,看看这方面的专家怎么说就好。
误导人的信息的第三个特征是缺乏上下文。你如果看到一条报道,说俄罗斯是全世界最大的产油国,你信不信呢?这个说法不完全算错,但是忽略了一个事实,就是时间维度。在历史上它的确曾经是最大的产油国,但是现在不是。
实际上很多时候,我们的信息要不断更新,因为很多是在变化的。很多人为了证实俄罗斯的强大,常常喜欢拿这个历史数据说事。事实上,今天它不仅产量低于沙特,更低于美国。
而在人们印象中的石油进口大国美国,其实才是世界上最大的产油国,而且它很快会由进口国变为出口国,这一点要感谢页岩气革命,有兴趣的读者可以到得到的每天听本书去听听《页岩革命》这本书。
当然,并非所有的信息都是有人要误导我们的,只是当今的信息过载,我们不能不有所防范。
我们在课程中还讲了这样五个重要的原则,你一定要记住:
- 最好、最重要的资源要用于那些出现最频繁的事情,这样分配资源最有效,其背后的原理是香农第一定律和霍夫曼编码。
- 不要将相关性当成因果关系。弱相关性对我们做事情没什么帮助,而对于强相关性,要搞清楚谁可能是因,谁可能是果,切忌因果倒置。
- 我们很多时候,要直接获得某种信息是很困难的,因此可以通过获得等价信息,得到同样的效果。
- 我们日常遇到的大部分事情,都是渐变的,因此通过增量改进,要比推倒重来效率高,这就如同对增量压缩,可以比静态压缩高很多一样。
- 由于我们遇到的信息很多,一个比较高效率表示信息的方法是矢量化,也就是将很多维度的信息映射到我们关心的几个维度。我们用到的例子是:文字的演变就是矢量化的结果。
此外,在第一个模块中有这样几个概念,也希望你能记住:
- 信息熵,它说明信息量和不确定性的关系。
- 冗余度,任何信息中都有冗余,去除冗余是今天信息处理的一项重要工作,但是,有时冗余又有它的好处,它可以避免出错。
- 不同信息的正交性:我们常常说的互补,其实就是某种意义上的信息正交。同一种信息用好几遍,效果不如使用两种正交的信息。不仅信息如此,打造一个团队也是如此。
以上就是第一模块的所有要点,建议大家回到每一讲,再对照文稿学习一遍,如果你实在没时间,那就直接看每一讲的要点总结,也建议你多看看大家的留言,多参与大家的讨论。这个第一模块是信息论里最难的,为此,我还特意加了班,为大家准备了一期加餐问答,希望能解决大家的困惑。
从下一讲开始,我们就进入新的模块,关于信息传输的。
我们下一讲再见!
问答|高盛是怎么两头通吃的?
设计这种两头通吃的金融产品,通常需要用到一种工具叫做期权。所谓期权,就是一种在未来能够以某个价格进行证券买卖的合约。
吴鹏:
吴老师,您好!有个问题希望您能解惑:辨识度和冗余度是同时消长的,它们是同一概念吗?
吴军
辨识度和冗余度是两个不同的概念。辨识度高必然要以提高冗余度为代价,但是反过来,冗余度高了,辨识度未必高。比如说,在生活中你可能会发现有的人讲东西,废话一大堆,半天没有讲清楚,这就是冗余度很高,但是对辨识度没有帮助的例子。
Alex(钟前):
请教吴老师:压缩和过滤是两回事吧?压缩内容是可解压恢复的;但是过滤内容是不可恢复的,是被剔除的信息。请问老师,如何区分压缩和过滤呢?
吴军
压缩和过滤是两回事。压缩是指通过优化的信息编码,用更小的编码长度(或者存储空间)表达同样多的信息,而过滤是根据自己特定的需求,保留自己认为有用的信息,滤除自己用不到的。
为了便于你理解它们的区别,我们可以从这样几个角度来看:
首先,无损的压缩是没有过滤的,因为所有的信息都保留下来了。
其次,有损压缩时,肯定是过滤掉一些信息,这个过滤的原则是让信息量尽可能地不减少。但是一般性的信息过滤,原则就是保留自己要用到的,而非信息量。
比如大学里学生的档案信息,有很多维度,其中一个维度是性别,它对每个学生来讲只有一个比特,信息量并不大,如果要统计学生男女比例,所有其它信息量大的信息都可以过滤掉,只保留这个维度即可。
朱翌果:
吴军老师你好,初识信息论我很有收获,同时也有些疑问,请问老师:凭直觉来看,A.“婶婶的姨妈的外甥”和 B.“父亲的弟弟的配偶”这两个字数一样的短句中,A 包含的信息量,似乎较 B 更多是吧?因为要想半天,如果是的话,如何用信息论的方法验证以上结论呢?
吴军
你可能觉得第一句话关系比较复杂,信息量就大,但其实从信息论的角度讲,信息是用来消除不确定性的,比较确定的事情,提供的信息比较少。因此如果一定要比较一下这两句话,第一条是稍微多一点,但推导应该是下面这样的。
我们先看第二句话,每个人都有父亲,假如我们大部分家庭不是独生子女,父亲有弟弟的可能性是存在的,而弟弟有配偶是一个大概率事件,因此这句话没有提供太多信息。但是第一句话就多绕两层,即婶婶(相当于叔叔的配偶),有姨妈,姨妈有外甥,虽然每件事的概率并不小,但毕竟乘以了两个小于 1 的概率会让总的可能性变得更小。因此这件事一旦确定,信息量要大一些。
第 7 讲课后思考题
假定你有五天时间在巴黎度假,有些景点比较有名,你非常想去,但是可能比较拥挤。有些景点没有太大的名气,但是游人很少。你会如何安排这五天时间呢?
吴军
对于这个问题,大家的回答都利用到了哈夫曼编码的原理,每个人也有各自不同的倾向性,答得都很好。但我想提醒的是,除了可以把景点根据你的喜好,以及拥挤程度排个优先级,每一个方案要有一个备选。比如说,你打算去卢浮宫,如果发现那里出现了什么事故,暂时限制流量,那么就应该考虑马上去不远处的奥赛博物馆。备选方案通常是针对小概率事件的,但是对于小概率事件,我们也要分配资源。
第 8 讲课后思考题
如果你是一家公司的人事经理,年底时要设计一个对员工进行评估的方案,利用矢量化的原理,怎样设计方案比较好呢?
吴军
不同企业衡量人的标准不同。但是有三点是共同的:
这个人过去一年的绝对贡献的多少。当然在衡量贡献时,要考虑他的职级,贡献要和职级相一致。 这个人的成长,能力的提升。特别是在前一次考核中,希望他提高和改进的地方,他是否改进提高了。 完成贡献的过程,是否是通过团队合作完成的,还是通过抢同伴功劳完成的。 在完成任务时,是帮助了其他人,还是对整个组织机构的发展没有帮助。
第二模块:信息传播
19 信噪比:历史有真相吗?
但是很多时候,我们要考察的不是一条信息的准确性,而是大量数据中,有多少是准确的信息,有多少是噪音。当信息量非常非常大时,即使单个信息的置信度不是很高,我们还是能够在信噪比允许的范围内,恢复出不少信息的。
要说信噪比,先说说什么是噪音。“噪音”这个词大家经常在生活中用到,对它并不陌生。在信息论中,噪音有特殊的含义,它可以是嘈杂的信号和声音,但又不完全相同,也可以是其他的干扰。它有下面三个特点:
- 未知,而且通常是随机的,也就是说难以预测。我们在生活中有这样的经验,如果你在房间里和别人谈话,有背景音乐让你觉得谈话听不清,你关了音乐即可,很确定。但是对于那些不知道来源,或者你关不掉的嗡嗡声,你就很烦。
- 不含有用信息。比如你在咖啡厅和朋友聊天,有一些轻柔的背景音乐,不影响你们的谈话,还让你觉得增加了两个人接近的程度,但是从信息论的角度讲它也是噪音,因为它其实影响到你们的语音通信。但是,如果你们在谈话,后面有两个人在悄悄议论你,被你无意间听到了,这时虽然它影响了你和朋友的说话,但对你来讲不仅不是噪音,甚至是很重要的信息。
- 噪音和信息不是绝对的,要看场景。你开车时发动机的声音就是噪音,但是在检查汽车工作状态时,那种嗡嗡声可能就是信息了。
噪音的出现使得信息的捕获、存储、传输和处理会受到影响。因此,我们要想准确获得信息,信息本身的幅度(也就是能量)相比噪音需要足够高。比如在吵闹的街道上,你可能听不清同伴的声音,这时你的同伴就不得不提高音量。
相反,如果是在夜深人静的时候,你们轻轻说话,彼此都能听清楚。也就是说,信号(能量)和噪音(能量)的比例,决定了我们是否能够有效地获取信息。这个比例在信息论上被称为信噪比。信噪比要多高,获取的信息才准确呢?这取决于接收者捕获和处理信息的能力。比如有的人耳朵非常好,信噪比比较低的讲话都能听清楚,但是有些人你就要冲他们大声吼。很多电子设备,它们接收语音,过滤噪音的能力比人强,我们人分辨不了的语音,那些专门的机器能够做到。
……
关于信号和噪音的关系,你还需要知道两点,这两点可以帮你:
首先,它们是一对孪生子,总是相伴存在的。虽然我们在处理信息时总希望没有噪音,但是这就如同我们希望找到全是优点没有缺点的人一样,是不可能的。
因此,考察和判断一个人是否有处理问题的能力,不是考察他在纯粹无噪音的条件下的能力,而是要考察他能否在有噪音的情况下,依然把信息找出来,处理好。这就如同培养交友能力必须基于存在损友这个前提假设一样。
我们在生活中会发现这样的现象,张三这个人讲的事情大部分时候是靠谱的,但是有些时候很随意,这时候你信他还是不信他,这就是艺术了。
有的人爱轻信,结果经常把噪音当成有用信息,免不了作出错误的判断;有些人则完全相反,只要有噪音就不信,结果他就是一个怀疑一切的人,我个人觉得后一种人比前一种人还辛苦。至于怎么过滤噪音,这是我们下一讲要讲的内容。
其次,由于信号的能量和噪音的能量叠加了,因此具体到每一个信号点,它的准确性,或者说置信度,都是严重受到干扰的。
20 去除噪音:如何获得更多更准确的信息?
噪音通常可以根据产生的原因以及表现形式作如下的分类:
1.能够找到噪音来源的 vs 不清楚来源的。
……
2.有规律的噪音 vs 随机的噪音,固定频率的噪音 vs 白噪音。
……
最后香农证实,这种想法是可行的,因为噪音分布在各个频率,任何算法都无法过滤掉。但这有一个前提,就是对方不可能知道你产生白噪音的算法,否则他们可以复制这种白噪音,然后从信号噪音相混的信息中将噪音滤除。
香农也就是在这个课题的基础上,发展起来了信息论。因此信息论的出现,在一定程度上要感谢噪音。
当然,很多人会想,我不搞通信,是否有必要了解这些知识呢?其实,正如我们上一讲讲到的,噪音存在于各种信号中,不仅仅在通信中才会遇到,比如说历史上的记录,就混杂了很多的噪音,而我们平时听到的消息,常常也是如此。
有意思的是,生活中的噪音和通信中的一样,有些能找到源头,有些则不能,有些能找到规律,有些则没有。于是,过滤信息中的噪音最简单有效的方法,其实也不外乎上面两种。
第一种是通过信息的冗余和比对,过滤噪音。
举一个例子,如果今天美国总统特朗普发表了一番言论,当然媒体对此有记录和报道。但是,各种媒体可能记录有误差,而且可能还有意无意加入自己的看法,把不是特朗普意思的内容加到他头上,这样就主观或客观地引入了噪音。
如果你只从一个信息源了解信息,你其实很难判断所获得的是噪音还是信号。如果你从多个信息源了解信息,虽然它们各自都有噪音,但是由于报道的角度不同,很多噪音彼此可以抵消掉,获得的则是信息,或者说是信噪比很高的信息。
这就和在会场的不同地方摆置好几个麦克风是同样的道理。当然,如果所有的媒体都站在同一个位置,读再多媒体的内容都不可能将噪音过滤掉。
我在《Google 方法论》中讲到过,最可贵的意见不是所谓客观的,而是真正反映自己想法的主观的意见。因为那种看似唯一客观的理论,其实是有偏差的,当一个企业,只有领导一个人的意见时,那些原本不大的噪音就被放大,以至于会淹没信号。
相反,如果每一个人都把自己主观的意见说出来,虽然每一个人有偏见,也就是说噪音,但是合在一起我们就得到了大众想法的轮廓。第二种,将有噪音的信息分解到不同的维度过滤噪音,这个方法可以怎么用呢?比如,中国人常常很纠结一个问
题,就是老婆和妈妈掉到水里后先救谁。这个问题两难的重要原因在于,要考虑的因素太多,以至于大家越想越糊涂。其实在这个问题上解套并非难事,关键是分清楚什么是我们该考虑的信息,什么是噪音,或者说你最看重哪方面。
比如,如果你觉得孝道是第一位的,或者觉得以后谁和我生活更长时间是第一位的,作出选择就没有什么难的。这时,你其实是将这个信息混杂着噪音的问题,投射到了某些你能够区分的维度,比如孝道维度,或者和你未来一起生活的时间。
在这两个维度上比较,就很容易区分大小。这就如同将声音从能量的高低,投射到频率的维度后,就能简单地从频率高低识别出鸟的噪音,然后过滤掉一样。
当然,如果你反过来思考去利用噪音,想将一些信息隐藏在噪音中不被别人发现,最好的办法就是制造毫无规律的白噪音。
Google 信息安全部门曾经为了防止偷盗账号的人反复试验密码,增加了一个输入验证码的要求,这样反复猜测密码的人就无法使用计算机试错了。为了对视觉有障碍的人使用这种验证码的功能,Google 提供了语音提示。
但是这样一来就出现了一个漏洞,因为盗号者可以使用语音自动识别。于是,开发这项服务的工程师就往语音提示中加入了一些噪音,降低语音识别率。但是除了前两天给盗号者增加了难度,两天后,情况又像以前那么糟糕了,于是他们找到我询问原因。
我就问他们语音是哪里来的,他们说是在饭厅里录了些噪音加进去的。我说问题就出在这里,由于他们录的噪音就那么几分钟来回使用,盗号者很快发现了这一点,他只要对比每天不同语音提示的差异,很容易找到加进去的噪音,然后就像过滤鸟叫声那样过滤掉即可。
如果想让盗号者过滤不掉噪音,就要在语音的各个频率加入随机的噪音,也就是白噪音。后来他们这么做了,果然盗号的成功率就降低了很多。
────◆要点总结◆────
1.我们介绍了噪音的种类和来源,并且介绍了两种去除噪音的方法,即利用冗余度去除噪音,以及从不同维度看问题去除噪音。
2.我们介绍了生活中的噪音,并且强调了去除通信中的噪音和去除生活中的噪音,其实是同样的原理。
21 信道容量:信息传播的成本是什么?
在无线电被发明之后,大家很快就发现一个现象,就是不同电台的频率不能靠得太近,否则互相干扰,谁的也听不清。
但是当时人们并没有关于信道能传输多少信息这样的概念,还以为是频率调制和解调制作得不够精确,就花了好多工夫把电台和收音机频道调得特别准。但是大家发现不管把调制解调做得多么精确,彼此的干扰依然存在。
这个问题,直到香农给出对于信道容量的量化度量后,大家才搞明白。原来,当信息传输所用的信道一旦固定,能承载的信息量是有限的。香农给出了对于信道的量化度量,也被称为信道的容量,你把它想成是高速公路的宽度就可以了,有时我们直接使用“带宽”这个词来描述它。
那么什么是信道容量,或者说带宽呢?我们先来看一个具体的例子:我们人正常通话,需要多宽的带宽?
……
了解做事情的边界,在边界内尽可能把事情做好,不仅在通信上是这样,在生活的方方面面都是如此。我们后面在讲到通信标准时,还会介绍科学家们是如何在边界里做事情的。
────◆要点总结◆────
1.信息传输需要信道,信道就像是公路,它对信息的“运载量”是有上限的。
2.信道是可以量化度量的,它的容量也被称为带宽,带宽决定了传输效率,有线通信的效率通常是高于无线通信的。
22 香农第二定律(一):互联网思维的科学基础
上一讲,我们讲了信道和信道容量的概念,它们和我们日常有效的沟通有关。这一讲,我们要学习信息论中的重要理论,香农第二定律。
如果我们只有一个很窄的信道,也就是说信道容量 C 非常小,却想传输非常多的信息怎么办?唯一的办法就是延长传输的时间,也就是降低传输率。
在信息论中传输率 R 的严格定义是单位时间(通常是秒)传输多少比特的信息。比如我们说用电话线传网络信息,不会超过 56K,它就是指一秒钟不会超过 56,000 个比特的信息。
如果按照这个速度我们传递汉字,不经过压缩,每秒大约可以传递 3500 个。通常一个网页都没有这么多字,因此从理论上讲,即使用电话线上网,网页也应该是一眨眼的工夫就打开了。
但事实上,就是 10 倍的时间也未必打得开,这里面的原因我们后面再讲。不过大家可以记住一条,你真实感受到的网速,也就是运营商告诉你的 1/10 左右。
那为什么明明理论上网速很快,或者说带宽还可以,但是看网页还是会卡住呢?今天我们就从这个问题讲起。
我们上一讲说了,香农发现,信息通道的传输率 R,是无论如何无法超越信道容量 C 的,即 R≤C。接下来香农还讲,总能找到一种编码方式,使得传输率 R 无限接近信道容量 C,同时保证传输不出任何错误。
至于怎样找到这样的编码,香农没有讲,他给出了一个原则。但是,如果谁要试图超越信道容量传输信息,不论你怎样编码,出错的概率都是 100%。这三句话概括了香农第二定律的大意。
香农的结论在数学上是可以严格证明的,这里我们就省略了。为了便于你理解这一点,我们不妨通过一个例子定性分析一下。我们来看看为什么你的网页总是打不开。
今天的互联网最基本的通信协议是 TCP/IP 协议,它实际上是把要传输的数据先拆成一份份的,每一份是一个数据包。然后在数据包上加入一个数据头,里面包括对这个数据包的描述,以及它应该给送去的地址。
这个数据包从网络的一头传到另一头,会经过一些路由器,那些路由器就是分发数据包的中转站,最后经过几次中转到你的手里。
由于在数据包传输的过程中总会出错,因此一旦出错,接收方(包括你自己或者是扮演中转站角色的路由器)会发现这一点,它会要求发送方再发送一份。如果没有出错,传输成功,那么接收方也会往回发送一个确认信息。
当然,如果在网络通信中,发送方在确认对方收到第一个包之后,才发送第二个,效率就太低了,因此发送方常常是像流水线一样工作的,一个包接着另一个不断发,而接收方确认所收到的数据包的编号,收到一个确认一个。
比如发送方发了 1—10 个,接收方第 7、8 个没收到。发送方等了一会儿,没有见到第 7、8 个包的接收确认信息,就会重新发送这两个包,直到接收方确认所有的信息包都收到了。这时,接收方会把 1—10 个数据包解包,还原回原来的互联网信息。这时网络的传输率是多少呢?从用户的角度看,它在单位时间里传了 10 个包,应该是这 10 个包的数据量除以自己等待的时间。
而对于网络来讲,它是实际传输包的总数量,比如在上个例子中是 12 个(7、8 两个包传了两次),加上每个数据包的数据头上额外的信息,再加上接收后确认回传的信息,除以实际的传输时间。
显然,网络上所传递的对你有用的信息,要比实际传输的信息少,而你等待的时间要比实际传输的时间长,因此你就觉得传输率远没有标称的高。
如果网络的带宽很宽,也就是容量很大,一个数据包就能迅速抵达接收方,接收方接收到之后就会发送确认信息,这样一来一往,发送就非常顺畅,你也不觉得慢。
但是,如果网络容量有限,比如我们在前面讲到,如果你只有 56K 的带宽,发送方在一个包接一个包地拼命发,接收方就会丢掉很多包,然后它就不断通知发送方,第 2、3、5、6、7……各个包都没有收到,请再发一遍。
发送方于是马上把那些包重新发送,结果原来的包还没有发完,现在又要多发很多包,网络就变得更加拥堵,最后无论是发送方还是接收方都会锁死在那里。
你有时打开一个网页,刚刚显示了头上 10%的内容就再也打不开下面的内容了。你就在想,即便是网速很慢,只有 56K 的带宽,等待时间长一点也该传完了吧。
其实不是,因为在网络的某一处信道的容量难以满足传输率的要求后,你的计算机作为接收方很长时间没有收到某个包,就无法发出接收完成的信息,传送信息的服务器就不断重新传输那些没有得到接收确认的数据包。传输就永远无法完成了。
那么假如你只有一条很慢的线路怎么办呢?唯一办法就是主动降低传输率。
……
3.男女朋友和夫妻之间的关系和沟通。
我在《态度》中讲,做男女朋友,两情相悦就好。真要是走入婚姻,最好双方三观一致。从信息论的角度看,所谓三观一致,就是两个人对世界的看法的互信息很高,这样两个人沟通信道的容量很大,丈夫说件事,妻子马上理解了,反之亦然。
如果两个人三观完全不同,对同一件事的看法完全不同,互信息接近于零,讨论起事情来,鸡同鸭讲。一开始那股兴奋劲头一过,矛盾是难以避免的。
另外,“下嫁”(也包括男生低就)这件事,说起来很感人,但是在真实生活中是很难的,因为下嫁的一方需要放弃掉自己过去所有的生活习惯,去迁就对方。否则的话,两个人就没有了沟通的基础,进而就没有了有效的信息传递。
当然我这里说的“低就”不是指物质生活水平方面的差距,物质生活的改变相对来讲是很容易的,我指的是指物质条件之外的因素。
────◆要点总结◆────
1.我们讲了香农第二定律,重点强调了永远不要试图超越信道容量传输信息,因为那样的效果等于零。
2.我们再次强调了在边界里做事情的重要性,只是这一回,我们是通过量力而行来说明的。如果先天的信道容量不足,唯一的方法就是降低速度。
23 香农第二定律(二):到底要不要扁平化管理?
扁平化管理流行于信息时代,是有它的原因的。这一方面是因为信息量太大,在管理上需要更多的带宽,另一方面是新的通信手段增加了带宽。
……
而扁平化管理从本质上讲,使得整个公司内部信息交流的带宽比过去有了质的提升,基于这样的带宽,对内合作可以变得更顺畅,对外能有更强的市场适应性。
所以,扁平化管理的本质就是对香农第二定律的应用,保证一定带宽内的沟通效率或者利用科技提高带宽。其实除了管理,市场推广也是一种应用,市场推广的本质,也是增加对外沟通的带宽。
我们常说做生意要靠人脉,其实这个人脉就是人与人交往的带宽。买卖双方彼此认可,这在信息论上,就表现为彼此观点的互信息较高,这种情况下买卖就能达成。
如果人脉不够,发出的信息和获得的信息都有限,生意一定做不大。现代通信手段和传媒技术的本质,就是以相对低廉的成本让人们获得人脉。
在古代,浙江杭州周边的商品要想卖到南京上海去,就需要很长的传播时间,因为商品信息流通的带宽太窄,信息传输率不可能高。
有了近代的传媒,包括报纸、广播和后来的电视,商品信息传播起来就比较容易。
这是因为信息传播的带宽增加了。但是,由于报纸和广播具有地域性的特点,电视广告的成本很高,因此大企业在这样的环境下收益多,小商家收益少。
互联网的出现不仅进一步扩展了带宽,而且让带宽的成本大幅度下降。这样浙江的小商品不仅能够很快卖到全国,而且不出几年就能卖到世界的各个角落。这就是利用了互联网这个廉价大容量传输渠道的结果。
从本质上讲,阿里巴巴所做的事情,就是拓宽了商家和消费者之间信息交流的带宽。这便是互联网思维,这种思维方式,是符合香农第二定律的。实际上,香农第二定律描述了自然界本身所固有的规律性,这也是它很容易应用于通信之外的原因。
那么同样是互联网公司,为什么大家要在淘宝上交易或者在京东上交易?这里面的原因还是带宽,当然这种带宽并非是指网速有多快,而是指互联网平台怎样能够建立起商家和买家之间彼此的信任。
……
因此,当我们说互联网思维时,不要老想着把东西放到网上,就是互联网思维了。
互联网的本质是通信工具,通信里面自有它的规律,比如香农第二定律。做事情的时候符合了规律就做得顺利。
当然,在互联网时代,除了信任,不信任也可以通过互联网来传播。
比如 2019 年 5 月有一则新闻,一位西安奔驰车主因为无法解决和厂家在汽车质量上的纠纷,一屁股坐在了汽车发动机盖子上痛哭,于是成为了网红,最后厂家和经销商不堪舆论指责,还算比较好地解决了这个问题。这位车主就是利用互联网思维让商家的负面信息迅速传播。
当然,我想更进一步告诉你的是,车主能够得到大家的支持,是因为她的行为引起了大家的共鸣。所谓共鸣,其实就是产生了很高的互信息,也就是大家对汽车经销商不合理的所作所为,都有共识。
────◆要点总结◆────
1.我们从多个角度讲述了扁平化管理,互联网思维和香农第二定律的关系。拓展带宽是今天我们所有人都需要做的事情。
2.我们特别强调了带宽是由通信双方的互信息决定的,这在人际交流中就是信任。
3.利用互联网的带宽,既可以传播正面信息,也可以传播负面信息,而后者无形中起到了社会监督的作用。
24 纠错码:对待错误的正确态度是什么?
因此,从根本上解决传输过程中信息错误的办法,就是在信息传输编码时,考虑到错误必然存在,然后通过巧妙的编码解决那些问题。这就是在信息传输中的逆向思维。具体到通信中,就是通过巧妙的信道编码保证有了错误能够自动纠错。
……
那么我们能否通过巧妙的编码纠正错误呢?答案也是肯定的。
我们需要想个办法,如果发现传输出错时,能够确定出错的位置,那么我们就可以纠正错误了。我们回顾一下古代犹太人在抄书时定位错误的方法,他们采用横竖两个维度交叉实现。
1940 年,贝尔实验室的科学家海明(Hamming,也被翻译成汉明)设计了一种原理和上述方法类似的纠错的编码方式。
他将一个很多位的二进制数投射到几个维度,然后在每一个维度进行奇偶校验,如果有错,就可以定位出错位置。这种编码后来被命名为海明码,它在今天计算机中被广泛使用。
海明码要增加编码的冗余信息,如果纠正一个 8 位 2 进制中的 1 位错误,就需要增加 5 个校验位,这就是成本。这比简单将信息传输三遍已经有效得多了。事实上,海明码的纠错效率接近了信息论给出的最优值。
今天依然有一些科学家在研究纠错编码,其数学基础主要是数论和近世代数。从这里面我们可以看出数学和信息科学之间的关系。如果我们再换一个角度来看信息纠错的问题,合理的编码如果太密集,就不容易纠错,如果让合理的编码距离拉大,就容易发现错误。
……
────◆要点总结◆────
1.不要高估自己的仔细,以及自己通过努力做到最仔细后,能够达到的效果。不确定性是我们这个世界自然的属性。因此,在解决任何问题之前,都要考虑到世界的不完美和不确定性。这就是所谓的预则立,不预则废。
2.在信息的传输过程中总是不免要发生错误的,要想避免出错,就要增加一点信息冗余。增加的信息冗余越多,检验甚至纠正错误的能力就越强。当然,并非简单增加冗余就能查错纠错,人的水平的高低,就在于是否有效利用资源解决了更多的问题。
上帝给每一个人一天24小时,谁也不会多,谁也不会少,只是有些人利用得比其他人更好罢了。
3.有一些自然存在的,看似没用的信息,先不要下结论说它们没有用,在了解清楚之后,你可能会惊叹于大自然的美妙之处。
25 信息加密:韦小宝说谎的秘诀
金庸小说中的韦小宝谎话连篇,但居然有不少人信,很多人就觉得这是金庸瞎编的。但是从信息论的角度来分析一下,这个现象背后还是有一些道理的。我们先来看看韦小宝这个人的行为。
韦小宝说谎的第一个要诀是:说话九句真,一句假。由于有九句是真话,因此大家对他有一个基本信任,否则要是 100%讲假话那就没人信了。
韦小宝的这个做法,就给对方出了一个难题,就是要不要信他的话?如果完全不相信,可能错失一两次机会,当然如果相信也可能被骗有损失。
当然,稍微谨慎一点的人,会想办法从侧面验证韦小宝说话的真假,比如康熙的信息渠道多,经常能识破他的谎话。但是并非任何时候人们都有机会来验证,比如他通知兄弟们逃跑,那时就没有时间去验证,要么信他,要么不信。
这在其实就利用了信息论密码传输中的一个实用性原则,也就是保证一定的时间内密码有效就可以,比如我们认定比特币协议是安全的,其前提条件是,以现有的计算能力,我们无法在有限的时间里破解它。
同样的,由于无法在短时间里验证韦小宝话的真假,因此大家就要算一算,到底是收益大还是损失大。因为他 9 句真 1 句假,让人感觉可能还是收益大,于是很多人就信了。
韦小宝说谎的第二个要诀,就是同样的理由不用两次,这就符合加密中一次性密码永远无法破译的原则。
此外,韦小宝在传递信息的时候,无意中还使用了加密最基本的原则,就是第三方截获加密信息后,不会获得比先前更多的信息。
……
但是,如果密码只用一次,就不会有这个问题,以后的加密不会因为一次失误泄露而被破解。
这一点香农在信息论中表述得清清楚楚。我们说量子通信是安全的,就是因为它是使用一次性密码。关于量子通信,大家可以回顾《科技史纲 60 讲》第 59 讲。
我们一开始说韦小宝撒谎不容易被揭穿的第二个要诀,就是因为他每次使用不同的理由。当然我们不是要教大家撒谎,而是从这一点出发告诉大家保护自己隐私的技巧。
首先,密码要经常替换,而且最好不同的网站使用不同的密码。当然密码多了,你可能记不住,一个简单的方法是把密码分为两部分,一部分是所有网站都固定的,另一部分是容易记忆的,不需要太长,你记得住的。
两部分拼起来即可,这是研究网络安全的专家推荐的办法。事实上,如果你起了一堆很难记住的密码,因为记不住,全写在了纸上,反而不安全。
其次,保护隐私的一个很好的办法,就是将隐私埋藏在随机的噪音中。
今天很多在线服务的电商(比如订酒店、机票)都存在着价格歧视的问题。对方通过你的网络行为了解你的意图,比如你总是在出门前两天订机票,你看到的价格就可能高于其他人。
但是如果你总是随意浏览价格,从不购买,就不会有这样的问题。因此一个可行的做法是经常删除你的上网记录(主要是 Cookie),然后将偶尔的购买行为放到大量随机的浏览中。
这就如同韦小宝十句真话夹杂着一句谎话。当然,这样做要费点时间。对于时间很宝贵,钱不是问题的人来讲,就不用花这个精力了。
最后,如果你想让人知道你的观点,就要明确表述。反之,你的表述就应该让对方得不到任何信息量,但也不要误导别人。
比如对方问你是否愿意支持他竞选学生会主席,你不想支持他,又不好明说。该怎么办呢?
如果他一开始对此的期望值是 7 成支持,你说出去的话,还应该让他维持这个期望值。如果你让他觉得是十成支持,回头你又不支持,这是误导他,过后他会翻脸。
反之,你发表你的看法后,让他觉得是三成支持,这是比较明确地表达了你的否定态度,他当场就会不高兴。如果你说了一大堆的话,维持了他事先的想法,这其实没有传递出任何的信息,是最不得罪人的做法。
────◆要点总结◆────
1.密码的精髓在于,对方拿到你的密文,得不到额外的信息。要让对方获得了密文后,也无法减少你传递的信息的不确定性。
2.保护自己隐私的办法也在于此。如果你不想给对方提供任何信息,最好的办法就是让他对你的猜测在得到你的信息前后不产生任何变化。
3.一次性密码最安全。虽然我们不能做到每次通信都更换密码,但是至少能够做到不同网站使用不同密码。当然,如果你要给人一个委婉推却的借口,最好每次找一个不同的理由。
26 极简通信史:从1G到5G通信,到底经历了什么?
通信的标准中有两部分最重要,一个是对信息的发送和接收的描述,比如打电话时大家的电话号码;二是对信息编码的方式,比如文字就是对信息的一种编码。
……
那么怎么解决这个问题呢?有人会想到继续增加带宽。这是一种自然而然,颇为合理的想法。虽然在 4G 的基础上增加 2~3 倍的带宽并非难事,但如果想增加 1~2 个数量级就办不到了。
那一方面要求基站的功率增加很多,这在城市里完全不可行,因为基站周围会因为电磁波辐射太强而变得很不安全。另一方面,要想增加带宽,就要增加通信的频率范围,无线通信的频率无法向下扩展,只能向上扩展,也就是让无线电波的频率增加。
我们知道无线电波的频率越高,它绕过障碍物的能力就越差,比如说它高到可见光的频率时,你随便用张纸,用块布就能挡住它。因此在城市里高楼会严重影响通信。
那么怎么办呢?最简单的办法就是在提高通信频率的同时,把基站建得非常密,这样在你的附近就有基站,它不会被建筑物所阻拦。
基于上述想法,5G 的概念就被提出来了。5G 是如何进行无线通信的呢?如果我们说 4G 是一公里的范围建一个基站,负责这方圆一公里范围内的手机和基站的通信,那么 5G 则是在百米的范围内建基站(今天的方案是基站距离平均在 200~300 米左右),负责半径为一百多米范围内的通信。
……
────◆要点总结◆────
我们先介绍了半个多世纪以来移动通信的发展历程。对于这段技术发展的历史,你只要记住四个要点即可:
1.单位能量的信息传输率越来越高;
2.网络不断融合;
3.设备的辐射越来越小;
4.每一代都会有新的主导型公司出现,1G是摩托罗拉,2G是诺基亚,3G、4G是苹果、谷歌和高通,5G是华为。
关于摩托罗拉、诺基亚、高通、华为等企业的发展历程,大家可以读我的《浪潮之巅》一书。
27 通信趋势:5G和loT的商机在哪里?
第一代互联网从本质上讲是计算机和计算机的联网。互联网诞生于 1969 年几台计算机服务器的联网。虽然后来它不断扩大,并且演化成个人的电脑通过服务器彼此相连,但依然是机器和机器相连。
每一个使用互联网的人,只有坐到计算机前,甚至在登录互联网之后,才算连到网上。当我们离开计算机,比如下班开车或者坐地铁,我们就离开了互联网。直到你吃完晚饭,做完家务事,再坐回到计算机旁边,才算又和互联网相连了。
第二代互联网是我们今天使用的移动互联网。它从形式上讲是移动设备,主要是手机,通过空中的无线电信号相连,但是从本质上讲它是人和人的相连。我们加一个微信好友,扫一个商家的二维码,不是为了让你的手机能够连接上对方那台手机或者服务器,而是要随时找手机背后的那个人。
第三代互联网是万物互联,关于这一点,我在《科技史纲 60 讲》中已经介绍了,
(IoT:万物互联到底是什么意思?)这里就不再赘述了。
……
从第一代互联网到第二代,还带动起关键性配件公司的诞生和发展,包括闪存、显示屏和电池。到了 IoT 时代,也会如此。
────◆要点小结◆────
- 互联网经历了两代,IoT也就是万物互联可以算是第三代。
- 每一代互联网比上一代,从设备的数量和市场的规模,都会有巨大的增长,这是未来的机会所在。
- 每一代互联网都有掌握产业链的龙头公司,从PC时代的英特尔和微软,再到今天的ARM和Google,以及未来掌握核心芯片、操作系统和通信标准的公司。
- 由于大公司改变基因是几乎不可能的事情,因此在IoT产业链的各个环节会出现一批新的公司,从操作系统、处理器,到设备和配件。很多人觉得自己错过了加入到小米等企业发财的机会,但是不用着急,在万物互联逐渐发展的过程中,还会有新的小米出现。我时常讲,亘古而长青的昨天,永远是过去,也永远会再来,就是这个道理。
- 从能量的角度讲,每一代互联网都是以更少的能量传输和处理更多的信息,这一点是未来发展的方向。大家可以根据这个规律判断哪一家企业契合IoT的发展。
模块二问答|群体的共识就等同于客观事实吗?
小小世界
吴老师,平时我们经常输入各种验证码,但是一直不明白它的原理,老师可不可以稍微再深入地介绍一下?感谢。
吴军验证码通常有两个作用:
1.验证使用计算机的是一个人,而非计算机程序。绝大部分入侵者是使用自动的程序大量地猜测别人账号的密码,使用验证码能够在一定程度上杜绝这样的行为。
2.提供一个很短的时间窗的一次性密码。很多时候系统会给你的手机发一个验证码,说 60 秒有效,这实际上给你和系统之间提供了一个一次性密码,但是在 60 秒内,入侵者恰好也蒙上了这个密码,可能性不是很大,就把入侵的概率降低了很多。
要说明的是,世界上没有绝对的信息安全,但是有防范得好和坏之分别。
……
Google 在 2001 年之前,所有的工程师都没有职级高低之分,都汇报给副总裁罗森伯格,当罗森伯格下面的人数超过 100 人时,他其实已经很难了解每一个人的工作了,到了年底,只好给每个人发放了同样数量的股票。
这时公司就不得不增加管理的层级,罗森伯格就引进了几个资深管理人士形成公司的中层管理。随后,他引进到公司的尤斯塔斯又设计出使用到今天的 10 个管理和专业层级。从此,不同的工程师就有了层级的分别。
但是有层级分别并不影响 Google 的扁平化管理,因为我在课程中所说的扁平化管理的特征它依然满足,比如 CEO 和每个员工虽然在股票数量上不同,但是其它福利待遇完全相同。
小米的创始团队很大一部分人来自于 Google 和微软,它的管理方式和这两家公司很相近。而它在成长为大公司之后,管理方式变化的方向和上述两家大公司也有很多相像的地方。
28 第二模块复盘
今天我们来复盘一下第二模块,即有关信息传播的内容。我来带领大家复习回顾其中的要点,建议你收藏这讲内容,时时翻看复习。
在这个模块中,核心的内容是香农第二定律,当然,我们大部分人是把它用在人与人的沟通中,而非真正去做通信的产品。
在这个模块一开始,我们先介绍了噪音,以及它对通信的影响。我们特别强调了噪音是我们这个世界的固有特征,不要指望存在没有噪音的信息,也不要指望不受噪音干扰的传输。
我们在真实的世界里做事情,就要有一个世界不完美的假设,然后练就在不完美的世界里尽可能做好事情的本领。
斯蒂芬∙库里可能是当今全世界最擅长投篮的选手,他能够在各种干扰之下准确命中。他这个本事是怎么练就的呢?
据他讲,他小时候个子也不高,身体也不强壮,老是被人挤来挤去,撞到一边,投篮永远受干扰。因此,一边被撞,一边还要投篮对他来讲就是常态。久而久之,他练就了能够在任何情况下投篮命中的本领。
因此,我们对世界的态度也应该如此,承认各种噪音的存在,争取在有噪音的情况下,准确传递信息。
由于有噪音的存在,信息传递的速率就要受到影响。而香农在研究信息论时,就是以噪音信道为前提假设的。他关于信息传输的核心,是他的第二定律。这个定律说的是这样一件事,信息的传输速率不可能超过信道的容量。因此,如果我们在人与人的沟通中想要变得顺畅,就必须想办法增加信道容量,否则信息的传输就会很快遇到瓶颈。
另一方面,如果信道容量有限,最好的做法是降低信息的传输率,以便保证信息的传输依然能够持续,而不是急于一次传输太多的信息,因为那样一来,出错的概率为 100%,什么信息也传递不下去了。
那么信道的容量(或者说带宽)又是由什么决定的呢?香农讲了,它取决于发送和接收方彼此之间的互信息。
鉴于信息传输的这个特点,我们在与他人的沟通中应当注意这样几个要点:
1.如果我们需要经过他人传递信息,比如你要托人向领导带个话,要特别挑选那些带话不走样的人,而并非简单地和你关系好的人。所谓带话不走样,就是指你讲的话,和他理解的意思之间互信息很大,而他向领导表述出来的意思,和领导的理解,互信息也很大。
很多人喜欢找自己熟的人带话,这当然没有错,因为毕竟面对熟人,你讲话可以比较随意,但是决定那些话能否让他带不取决于你们是否熟,而取决于他作为信道的能力。而这个能力在今天的生人社会里,其实非常有价值。
我们在前面的课程里讲了,连接比拥有更重要,那些能够带话的人,就是连接所在,你如果具备了这个能力,在一个机构中就显得特别有价值。
为了增加信息沟通的带宽,我们常常还需要准备好多个信道,以便万一某些信道受阻后,信息还能有效地传递出去。我们常常讲“人脉”这个词,人脉其实就是信道。
所谓人脉宽,就是指我们有能力很快地把这种信息收集进来,或者传递出去。
2.在表达意思时,一定要看听众是谁,用不同的方式去表达。表达的速率,取决于听众接受的能力。采用有针对性的方式,是为了增加你和听众之间的互信息。控制速率,是为了保证信息传输的速率不超过信道的容量,这样可以不出错。
我们经常在职场上看到一些人对所有人说话都是同一种方式,同一种语言,他们还标榜自己率真,其实这种人信息传递的效果很差,因为他们和听众之间互信息很低。
类似的,你还会看到一些人表述信息时像竹筒倒豆子一样都倾泻出去,他们恨不能将自己所知在最短的时间里都告诉对方。这种时候,他们信息传播的速度已经超过了信道容量,对方接收的信息一定有错。
选择学校,要选择一个适合自己的,不用一心往学霸的圈子里扎。很多家长觉得,孩子和学习好的学生们在一起,自己也会被带好,这一点完全没有错。但是,好的学生,可以是学习态度好的,学习方法好的,未必需要是脑瓜极好的学霸。
一个资质中等的学生,和一群接受能力极强的学霸在一起,未必有多大的收益,因为在那个环境中,老师教得会很快,内容也会比较深,大部分学生接受起来没问题,想方设法挤进那个群体的学生会很痛苦。
这就好比,如果一群学生都用的是 4G 的手机,只有你用的还是 10 多年前 2G 的手机,老师根据大多数人手机的带宽,不断发高清视频,你拿 2G 手机什么都没有收到。
但是如果换一个环境,大部分人都是 2G 手机,老师是按照这个网速发文字内容,你虽然看到的内容不够丰富、逼真,但是毕竟收到了一些信息。
3.从上一点出发,也给家长们一个建议。由于两代人之间的代沟是客观现实,也就是说家长和孩子之间的互信息通常难以达到最大,因此和孩子沟通要么需要非常慢,非常有耐心,要么家长自己想办法增加和孩子之间的互信息,也就是说增加带宽。
我出版了《态度》一书,也就是给孩子的家书之后,很多人问我为什么要给孩子写信(其实是邮件),而不打电话说。原因是读信件是一个慢速接收信息的过程,这样能将信息的传输率控制在我和他们通信带宽以内,保证想法的传递不失真。
此外,我在《硅谷来信》讲了一个老奶奶阅读孩子读物的故事,这位老奶奶的做法,就是增加她和孩子之间的互信息,也就是带宽。
4.在男女朋友之间和夫妻之间的沟通上,要在对等的条件下进行。有些人觉得,我条件好,你条件差,你跟着我高攀了;或者我条件差,对方条件好,我一定要迁就他(她)。
这样的关系很难长时间稳定,因为这样的话他们对很多问题的看法完全不同,互信息近乎为零,彼此沟通的信道太窄。
俞敏洪老师讲过很多次,夫妻双方关系出现问题通常是因为,双方在认知上的差距逐渐地越来越大,以至于无法沟通。所谓认知的差距大,就是信息论所说的信道太窄。
讲完人和人的关系,再说说组织机构作为一个整体,内部沟通的要点。
我们在前面的课程中说了扁平化管理的好处。我们考察一个机构的管理结构是否合理,应该看信息能否有效传递,而并非绝对层级的多少。层级本身是手段,不是目的,信息的有效传递,以及合作的达成,才是目的。
我们在课程中列举了很多虚假的扁平化管理,它们表现为层级过于分明,部门的边界过于明显,每一个中层干部都是关键节点,能够阻拦上下级的沟通。
我们还举了一个例子,说明一些管理层级看似非常平的单位,其实并不是真正的扁平化管理。当一个领导的直接下属有几百人时,他就是信息传递的瓶颈,原本可以做到的并行管理,反而变成了串行的。
在这个模块中,我们还用香农第二定律分析了互联网思维的本质,特别是在商业上互联网的作用,也就是拓宽了买家与卖家之间的带宽。
当然,我们也指出,并非所有的互联网企业作为中介的作用都一样,只有那些能够建立起商家和买家之间彼此信任的网站,才有商业价值。因为只有信任存在,商家和买家之间才有互信息可言,才存在所谓的带宽。
在这个模块的最后,我们谈到了 5G 的内容,特别谈了技术的发展和它的特点。我们特别强调了从 1G 到 5G,除了单位能耗信息的传输率越来越高,网络也是越来越融合,而不是自成一体。
这样做有什么好处呢?因为统一的网络可以让信息传递的路径变短,从而变相拓宽带宽。而网络的统一,在技术上则体现为通信协议的一致性。
不仅在通信中有网络融合的问题,在一个机构中也有。很多单位里有小团体,它们就好比相互之间信道很窄的子网络。如果小团体发展得太强大,单位从整体上就会变得比较虚弱,甚至名存实亡。
而打破小团体界限最有效的办法,就是大家认可一个相同的内部通信协议,这种通信协议,就是企业文化和行为规范。如果大家都按照企业整体的行为规范进行交流和合作,而不是小团体自身的规矩做事,整个机构就成为了一个有机的整体。
因此,一个企业好的创始人和 CEO,会把树立企业文化和制定行为规范作为首要任务,而不是事必亲躬地做每一件事情。
第三模块:信息应用
29 交叉验证:电信诈骗为什么能成功?
在我们的生活中,绝大部分时候,一个维度的信息是很难消除所有不确定性的,而解决这个问题最好的办法,不是把那个维度的信息搞得更准确,而是要用其它维度的信息进行交叉验证。
我们在中学时学习数学会有这样的经验。当我们在解方程时要想复查一道题是否做对了,如果顺着原来的思路将解题的过程再看一遍,常常是很难查出错误的,最有效的方法是把方程的解代回到原来的方程中,看看方程两边是否相等。
类似的,我们推导公式时,顺着原先的推导再看一遍也很难发现问题,最好的方法是代入几个数据,看看前后结果是否一致。如果一致,出现错误的可能性就小,这其实就是交叉验证。
……
在交叉验证中,什么样的信息组合最有效呢?那就是我们前面提到的垂直正交信息,因为当两个不同维度的信息正交时,它们的共同作用能够最大程度地降低信息熵。
……
很多人提高工作质量的想法,就是在一个维度上将刻度画得越来越细,因为这样可以更精确。但是,如果一个维度从头到尾范围很大,刻度画得再精细也并不能帮助我们确定答案的范围。这时候,引入另一个维度的信息帮助定位显然更有效。这就是跨界的意义所在。
当然,定位了答案的范围后,我们还是需要一个刻度很准的尺子,找到答案所在的那个点。这就是具有大局观和能够精深钻研两者的关系。
────◆要点总结◆────
- 我们介绍了交叉验证的概念,以及它从治学做研究,到指导我们生活的意义。
- 我们通过讲述电信诈骗为什么能成功,以及为什么Facebook等公司利用大数据能做很多事,说明了多维度信息的作用。
- 我们用交叉验证解释了跨界的意义。
30 等价性:如何从等价信息里找答案?
利用等价信息,我们可以破解很多原本无法破解的谜团,比如再现那些没有记载的历史场景。
我在《科技史纲 60 讲》中讲了如何通过了解虱子基因的变化,推算人类开始穿衣服的时间。由于最早的兽皮和织物会腐烂,今天找不到这方面的证据,因此,我们无从直接了解人类穿衣服的时间。
但是当人类开始穿衣服后,长在身上的虱子就开始进化,长出钩子扒在衣服上。而基因变化的速率是非常均匀的,通过这个信息,就能倒推出人类穿衣服的时间,这便是用了信息的等价性。
类似的,通过对人类 DNA 序列的测序和对照,我们今天得到了“人类非洲起源说” 这样的结论。在此之前,很多中国人认为北京猿人是我们的祖先。那么到底哪个对呢?幸运的是,运用分子遗传学的工具对非洲、欧洲以及亚洲人种的母系线粒体和父系 Y 染色体进行分析,发现不同人种共同的祖先距今天的时间为 14.3 万年—14.4 万年,也就是说现代人类其实都起源于非洲。
从上面例子中可以看出,信息的等价性条件其实是很严格的。如果我们说 Y 等价于 X,那么从 Y 就能完全推导出原本需要 X 才能得到的信息。信息的等价性和信息的相关性不同,找相关性的要求要宽松得多。
比如,我们说气象云图的形状分布,空气的气压、湿度和下雨有关,那只是有关,我们无法从前面几条信息完全确定是否下雨。这就是相关性,而非等价性。相关的信息有用,但是不像等价的信息那么具有确定性。
在找人类起源的各种学说中,过去常常使用的是对化石相似性的对比信息,就能得出人类起源的多元说,比如欧洲人是尼安德特人的后裔,中国人是北京猿人的后裔。
但是这种找化石相似性的做法其实只是找到了相关信息,并不是等价信息,因此得到的结论,置信度远没有通过基因信息来得准确。
分清楚等价性和相关性,对于我们理解今天的很多技术有很大帮助。今天,人工智能一个重要的应用就是身份的认证。通常识别的方式是根据人体的生物特征来识别,比如脸部特征、眼睛虹膜特征、指纹特征,或者基因特征等等。
这些特征可以被分为外部特征和内在特征。脸部特征(包括颅骨特征)、虹膜、指纹等生物特征都是外在的,基因则是内部的。
严格来讲,外在特征只能作为相关信息使用。比如在上百万人中进行脸部识别,准确率其实只有 90%左右,它今天更多的是作为交叉验证的信息——你在机场过安检,不能只靠刷脸就让你通过,还需要验证护照。
同样,如果在商店买东西单纯靠刷脸验证身份付费,也不是很安全,哪怕错了 1%,每天都会出现不少纠纷。此外,外部特征信息常常可以伪造,比如可以通过伪造指纹套混过指纹识别,用照片混过人脸识别等等,但是体内特征不仅具有唯一性,而且很难伪造。
……
人不仅自身的特质具有很多等价信息,可以搜集到,人的行为也有很多等价信息或者相关信息,可以帮助区分不同的人。今天的人脸识别在被识别者不配合的情况下(比如戴了一个帽子或者口罩墨镜)是难以实现的,但是他们走路的动作姿态却可以用于跟踪和鉴别不同的人。
2018 年我考察了以色列和德国这方面的技术,他们根据人的身体上百块肌肉的形状和在运动中不同的伸缩方式,能够从人走路的姿势识别人。当然如果人站着或者坐着不动,它就不管用了,因此这只是相关信息,并非等价信息,但是作为认证身份的补充手段,还是很有效的。
不仅人的具体行为可以被跟踪,人做事的风格习惯也可以通过寻找等价信息而识别出来。比如说,每一个作家(特别是专业作家)有自己的文风,这其实是很难改变的。
通过文风,你可以看出一部作品是原创的,还是假借他人之笔创作的。在文学史上,胡适先生就曾经根据写作视角的区别,考证出《红楼梦》并非出自曹雪芹之手。
今年来一直有出版团队,希望帮我编书,让我署名出版,我一律拒绝,因为这种做法不仅让我内心不安,而且作为曾经在约翰∙霍普金斯和 Google 从事过对写作风格研究的人,我深知这种把戏很容易被现代信息技术戳穿。
我在约翰∙霍普金斯大学时,曾经和同学一起统计过世界上那些著名语料库中不同作者的文风,发现很容易找到和作者信息完全等价的信息。
比如他们使用并不受大家关注的虚词(比如英语里的 the,a 或者各种介词)的数量和方法,这些特征在一个作家不同题材的作品中鲜有变化,而在不同作家的作品中,差别迥异。
在 Google,我们通过用词和句法的分析,很容易找到那些抄袭者。也就是说,人在做事的时候,通常会留下等价信息让他人知道你的行迹,甚至写作的风格也是可以量化度量的。了解了信息的等价性对我们有什么意义呢?首先它可以帮助我们成为一个慧眼如炬的人。巴菲特判断经济形势的方式很简单,也很独特,就是到百货店里去看看。
在巴菲特看来,大家在百货店付出的真金白银和经济形势是等价信息,而经济学家的各种模型预测,最多算是相关信息。此外,正如我们前面所讲,了解了各种信息彼此之间是等价的,还是相关的,然后在不同应用场景就知道该使用什么信息,而不会过度依赖并不可靠的信息了。
────◆要点总结◆────
- 很多时候我们无法直接获取某种信息,于是我们提供了一个使用等价信息解决问题的方法。我们举了三个破解历史疑案的例子来说明,它们是今天世界各地人类的起源,人是什么时候穿衣服的,《红楼梦》后四十回之谜。
- 等价信息和相关信息不同,后者的要求宽松得多,但是可靠性也差很多,因此采用不同信息源的信息进行交叉验证是必要的。我们还介绍了一些最新的身份识别技术,希望帮助你了解最新科技的原理。
- 人类的活动会留下痕迹,无论是物理的真实痕迹,还是写作等习惯,它们可以几乎准确无误地还原我们自身的很多信息。因此在大数据时代,要保护隐私其实很难。
在过去,有些信息的跟踪和处理成本较高,但是有了人工智能,这件事也很容易,比如我所说的确认一部作品的作者。
31 大数据(一):从四个特征把握大数据的本质
关于大数据,大家已经不陌生了,因为今天我们都不知不觉地使用了大数据,并且也在向那些为我们提供服务的公司提供大数据。当然,有人会说,使用大数据是 IT 公司或者互联网公司的事情,我自己不搞 IT 怎么会使用大数据呢?
其实你如果使用美图秀秀修图,或者使用华为手机照相,你在无形中已经用到了大数据。美图秀秀 P 图,不是根据规则来的,而是将你的脸往所谓“标准的脸”上靠,而“标准的脸”,上面各个尺寸基本上是我们每个人脸的平均值,是大数据统计的结果。
美图秀秀上市之后,在美国就被一些人告到法庭上了。不是因为产品做得不好,也不是因为财务数据有问题,而是因为一些美国人觉得,不论自己是白人还是黑人,都被 P 成了黄人。这也说明它背后用了大量中国人的数据进行训练。类似的,华为的手机有很多图像识别功能,而它们也是建立在大数据基础之上的。
……
────◆要点总结◆────
- 我们今天介绍了大数据的4个明显的特征,即数据量大、多维度、完备性和在一些场景下的实时性。我们特别强调了光是数据量大还不能构成大数据,因为它可能无法得出有效的统计规律,而多维度的特征则让我们可以交叉验证信息,提高准确性。
- 大数据的威力大家都看到了,那么可能有人要问,有了大数据,我原来从事的行业是否会消失?其实大部分行业不会很快消失,但是可能会以另一种形式出现。而具有行业知识的人要做的,就是用所谓的领域知识建立起不同维度之间信息的桥梁。
- 当大数据维度非常多之后,就会出现矛盾。
32 大数据(二):大数据思维的四个层次
你好,欢迎来到我的《信息论 40 讲》。
我们上一讲说了大数据的特点,今天来谈谈大数据思维。
说到大数据,就不得不说说它的英文名称 Big Data。不知道你有没有想过,它为什么叫 Big Data,而不叫 Large Data,或者叫 Vast Data、Huge Data,等等?Large、vast 和 huge 都是指体量大,在程度上,后二者可以看成是 very large 的意思,比 large 更大。
但是,Big 和它们的差别却在于它是强调相对抽象意义上的大,而并非具体的。
比如说,“Large Table”常常表示一张桌子尺寸很大,而如果说“Big Table”并不强调尺寸,只是要强调已经称得上大了,比较抽象。因此,仔细推敲 Big Data 这种说法,我们不得不承认它非常准确,最重要的是它传递了一种信息——大数据是一种思维方式的改变。
我们过去说,量变会带来质变,那常常是在一个维度上说的,而今天我们说大数据思维,已经超出了这一层含义,是一种全新的思维方式和做事情的方法。
今天大部分人所理解的大数据,是从大量的、看似杂乱无章的数据点,总结出原来找不到的相关性。在这个过程中各种数据如同百川入海一般汇聚到一起。我们在前面已经举了不少这一类的例子。但这只是大数据思维的第一层含义。
我们需要强调的是,大数据思维和过去通过大量数据验证一件事还是有区别的。那就是由于这些数据在产生和收集时是没有特定目的的,因此怎样使用它们,则需要视特定的应用而定。
比如 Google 趋势这个产品就用到了大数据,由于收集数据事先没有目的性,从这些数据中能够得到什么结果事先也不知晓,这让它发现了很多过去没有想到的规律。
为了更清晰地说明这一点,我们不妨看一个大数据在医疗制药方面的应用。
我在《文明之光》和《全球科技通史》中介绍了青霉素漫长的研制过程。今天几乎所有的新药的研制过程都和青霉素很类似:科学家们通常需要分析疾病产生的原因,寻找能够消除这些原因的物质,然后合成新药。
这个非常漫长的过程导致药品研制的周期很长,斯坦福医学院院长米纳(Lloyd Minor)教授估计,从最重要的那篇研究论文发表算起,到新药上市,平均需要 20 年的时间。
另一方面,研制的资金投入也是巨大的,通常需要 20 亿美元。这也就不奇怪为什么有效的新药价格都非常昂贵,因为如果不能在专利有效期内 挣回 20 亿美元的成本,就不可能有公司愿意投钱研制新药了。
虽然美国的专利有效期长达17年并且可以延长3年,但是因为大部分核心专利在药品进行试验时已经申请,中间有非常长的各种试验过程,等到药品上市,剩下的专利有效期通常不超过10年。
今天,有了大数据,寻找特效药的方法就和过去有所不同了。世界上一共只有大约 5000 多种被批准上市的药,人类会得的疾病大约有一万种,包括很罕见的疾病。如果将每一种药和每一种疾病进行配对,就会发现一些意外的惊喜。
比如斯坦福大学医学院发现,原来用于治疗心脏病的某种药物,对治疗某种胃病特别有效。当然,为了证实这一点需要做相应的临床试验,但是这样找到治疗胃病的药,只需要花费三年时间,成本也只有一亿美元。
这就是应用大数据思维所带来的好处。相比过去那种从病理出发分析原因,再寻找和研制药物的正向过程,今天这种做法其实是先有了结果,再反推原因,是一种逆向的做法,但是正是因为有了足够的数据支持,它无疑会比较快。不事先作假定,从大数据出发先得到结论,再分析原因,这是大数据思维的第二层。
今天我们说大数据思维时,很多人能够想到从很多具体的数据样本总结、提炼出一般性的规律,然后加以应用。我们在前面讲通过大量的数据,消除噪音的影响,寻找信号的轮廓,就是指这个方向的思维方式。
……
利用大数据在准确把控宏观规律的同时,精确到每一个细节,这是大数据思维的第三层。
大数据思维的第四个层次,是通过几个维度的强相关性,替代过去的因果关系。
33 个性化服务:为什么Google搜索的广告效果好?
我们前面在 23 讲时讲到,有了互联网,广告就可以发挥自身的灵活性,成为能够触及更多的受众,成本较低的互联网广告,使得小商家受益。于是电子商务得到了发展。
假如你是一个做电商的,你会怎么利用互联网来打广告呢?那么多种互联网广告,哪种效果最好呢?具体到哪家媒体或者网站上去做呢?
我们先说一下结论, Google 的搜索广告优于 Facebook 的个性化展示广告,后者优于一般的展示广告。接下来我们就用之前学到的信息论知识,量化计算一下各种广告形式的效率。
先说 Google 的搜索广告,它是和 Google 的引擎相伴随的。Google 的搜索引擎中收录了大约几十亿个常用的网页和上千亿个其它网页,当然它还有近千万的广告主以及几千万种广告。为了聚焦,我们只关注它几十亿个(我们假定为 40 亿)常用网页和几千万种广告。
如果我们要从 40 亿个网页中找出自己最需要的那一个网页来,需要多少信息呢?如果每一个网页大家查找的频率相同,那么从 40 亿中选 1,需要 log(40 亿)=32 比特的信息。
……
────◆要点总结◆────
Google 的广告系统利用的是用户主动输入的信息,它最为有效,因为任何时候,人总是喜欢买东西,不喜欢被卖东西。任何推送都比不上用户主动的请求更有效。
我们介绍了个性化服务的本质,就是寻找每一个人和整个群体在喜好上的差异程度,我们可以用交叉熵来定量衡量它。维度分得越细,个性化特点越突出。但是,人对各种东西喜好的差异比我们通常想的要小很多。
今天有很多不重视底层技术和信息理论的创业者,天真地以为自己做了点个性化的事情,就可以对现有的行业竞争者取得碾压性的优势,这只是他们自己的想象。“化学之父”拉瓦锡讲,不使用天平衡量就得不到真理。
类似的,Google 一直强调,没有数据就得不出任何结论,道理是相通的。在信息时代,为什么我们要了解信息论最基本的原理?就是要能够判断做事情的方向是否正确,以免像一些公司那样,死都不知道是怎么死的。
我们看到了使用正交、可叠加信息的作用。这才是 Facebook 成功的根本原因。
我们与其说是大数据帮助亚马逊和阿里巴巴了解我们的意图,不如说我们自己直接将自己的需求放到了亚马逊和阿里巴巴里面。它们的成功还揭示了一个规律,就是离达成交易的环节越短,广告的效果越有效。
根据我们在 Google 的研究,发现人从了解到一些商业信息到最后达成购买并付费是一个非常长的过程。开始先看到一些普通的信息,如果他真感兴趣,会向周围朋友去了解,然后会去做一些研究,包括看看使用者的点评,再随后是搜索比价,最后才达成购买。
大部分媒体,包括门户网站上的信息,只是提供普通信息,它们离购买最远,因此广告的效果最差。社交网络的信息和 Google 搜索的信息属于第二、第三阶段的,离购买越来越近,广告的效果也就越来越好,电商上的属于最后一环,效果最好。我在很多场合讲,做人做事要直截了当,效果最好,不要拐弯抹角,就是这个道理。
这是我使用信息论对广告效果定量分析的一个示范,也欢迎你给出一个自己是如何使用信息论指导工作和生活的样本。我们下一讲再见。
34 幸存者偏差:如何避免被已知信息误导?
2018 年高考作文
二战期间战斗机的防护,多数人认为,应该在机身中弹多的地方加强防护。但有一位专家认为,应该注意防护弹痕少的地方。如果这部分有重创,后果会非常严重。而往往这部分数据会被忽略。事实证明,专家是正确的。请考生结合材料进行分析。自定立意、自拟标题,写一段作文。
这讲的其实是所谓的“幸存者偏差”(survivorship bias),得到的读者应该对此不陌生,因为罗老师在罗辑思维经常用这个例子打比方。为了让你更好地了解上面这件事的时代背景,以及那个没有给出姓名的专家的解决问题的思路,我先来还原一下这个真实的故事。这位没有给出名字的专家叫做亚伯拉罕·瓦尔德。他是一个犹太人,出生于当时隶属于奥匈帝国的克劳森堡。和二战时很多从欧洲逃到美国的犹太科学家一样,他也是因为排犹给逼走的。大约在上个世纪 30 年代,瓦尔德在纽约的哥伦比亚大学得到一个教职,得以来到美国。
在第二次世界大战期间,瓦尔德和维纳、香农等人一样,都在秘密地为美军工作,但是表面上只是在做一般的学术研究。瓦尔德所在的小组是位于哥伦比亚大学的统计研究小组(SRG)。
这个小组里的成员都很牛,包括维纳(他有时不在纽约)、哈佛大学统计系创系的主任莫斯特勒,决策理论和贝叶斯方法的先驱萨维奇等人,后来成为著名经济学家的米尔顿·弗里德曼在里面还只能算是小字辈。
……
虽然我们今天并不会像瓦尔德那样去分析战机的防护问题,但是用瓦尔德这样的思维方式想问题非常重要。我们经常听到某个人办公司挣到了大钱,于是大家不顾一切,辞职退学办公司。这其实就陷入了幸存者偏差,因为媒体永远只报道成功者,让大家都觉得创业必定能成功。
最后我们用幸存者偏差讨论一下股市投资。在过去的近一个世纪的时间里,标准普尔 500 指数每年增长接近 8%,这是非常高的回报。但是美国经济显然没有那么快的增长,大约也就是一半左右,这个差异是怎么形成的呢?
在短期,股市可能过度乐观,但是不可能偏差出 100 年。这其中的原因是,标准普尔 500 指数几乎每年都把表现不好的企业从指数中淘汰掉,换进那些表现好的。因此那些表现不好的企业你就永远看不到了,这其实反映了幸存者的偏差。
这也是巴菲特等很多投资大佬,一直推荐大家购买美国标准普尔 500 或者道琼斯指数基金的重要原因,因为它其实是用了幸存者偏差占到了便宜。更有意义的是,美国股市通过对表现不好的企业强制退市,允许做空股票,彻底将表现不好的企业清除出股市。如果一个股市没有强制退市制度,就难以有长期良好的表现,那种股市的指数基金表现好不了。
了解了幸存者偏差,还可以防止在投资上被基金经理或者媒体误导,那些媒体包括一些在金融界非常有影响力的,比如著名的晨星(Morningstar)公司,它宣称在 1995 —2004 年之间,共同基金年均增长高达 10.8%,高于标准普尔 500 指数的水平,这和金融界通常理解的共同基金做不过大盘的结论是相违背的。
一些学者于 2006 年完成对上述数字的分析研究。他们发现,已经消亡的基金不会被统计进去,而真实情况却是,共同基金虽然有的会蓬勃发展,而有的因为长期不赚钱则消亡。
《金融评论》(Review of Finance )于 2011 年对过去近 5000 只基金进行了综合的研究,结果表明仍然存在的只有 2600 多只,略高于 50%,而它们的收益率要明显高出消亡的。
如果考虑这个因素,所有的共同基金年化回报率只有 8%左右了,略低于同期标准普尔 500 指数。因此,根据依然存在的共同基金判断所有共同基金的价值,就如同通过计算成功返航飞机上的弹孔数来判断飞机生还概率一样,是不合理的。
关键的问题是,共同基金的生命期通常不是很长,据我的一位在富达基金主管两只基金的同学讲,大约有 1/4 的基金存活期只有一次股市上行的周期,即 8~10 年。
────◆要点总结◆────
首先,我们从理论上分析了幸存者偏差,并且用它来分析了股市,最后给大家的结论就是要购买那种不断淘汰坏企业的股市上的指数基金。此外,在工作中,大家也要不断淘汰不好的项目,在生活中要止损。这样就可以利用幸存者偏差将利益最大化。
其次,也是更重要的。我希望通过这件事,让大家了解通识教育的重要性。瓦尔德对于飞机、空战的理解肯定远不及美军军官,但他却能看到军官们没有发现的盲点,这是因为他的数学常识让他有好的思维习惯,他在得到结论之前会问飞机样本是如何选取的,而军官们恰恰忽视了样本选取不具有代表性这一点。
最后讲一个投资领域的小骗局,也算是今天的作业题:有一天专门从事仙股(股价只有几分钱)交易的弗罗斯特先生向你推荐股票,当然你不会相信他。他说,没关系,我每天发邮件给你,告诉你一只股票的涨跌。在接下来的 10 个交易日里,你每天收到他的邮件,10 天他都说对了。这时,你是否该将钱交给他去炒股?为什么?他是否有什么独到的眼光,还只是运气好?另外他为什么只炒仙股?
预告:下一讲,我们再讲一个信息论被广泛应用的推广原理,奥卡姆剃刀原理。
35奥克姆剃刀法则:最简单的往往是最有效的
奥卡姆剃刀法则(Occam’s Razor 或者 Ockham’s Razor)看似和信息论没有太多交集,但是托马斯∙科弗在信息论的教科书中用信息论解释了奥卡姆剃刀法则,在我上学时,给了我很大的启发,希望这讲内容也能帮大家理解并利用好这个法则。
奥卡姆剃刀法则,又被称为“简约之法则”,它是由 14 世纪圣方济各会修道士奥
卡姆(英格兰的一个地方)的威廉(William of Occam)提出来的,他说过这样一段话:
“切勿浪费较多东西,去做‘用较少的东西,同样可以做好的事情’。”
这句话用信息论来解释,就是如果关于同一个问题有许多种理论,每一种都能作出同样(准确)的预测,那么应该挑选其中使用假定最少的理论。
……
因此,我们可以这样来理解奥卡姆剃刀法则,如果能够得到同样好的结论,假设
越少越好,或者说条件越少越好。奥卡姆剃刀法则在当时最流行的解释是“若无必要,勿增实体”(拉丁文是:Non sunt multiplicanda entia sine necessitate)。西方历代大学问家,都将奥卡姆剃刀法则作为自己治学的行为准则。
牛津大学第一任校长罗伯特·格罗斯泰斯特讲:“在其他情况相同时,需求更少的更好、更有价值……一个普适的规律比特定的规律更好,因为它从更少的假定出发产生知识。就像在自然科学中,最好的部分不需要前提假设,其次是需要较少前提假设的。”
托马斯·阿奎纳也说过类似的话,他的大意是,用较少定则推导出来的结论,使用的次数较多。科学领域的集大成者牛顿则说:“我们需要承认,自然事物各种现象的真实而有效的原因,除了它自身以外再无须其他,所以,对于同样的自然现象,我们必须尽可能地归于同一原因。”这些都体现出他们对这个看似简单准则的认同。
今天,计算机科学家和物理学家都在用奥卡姆剃刀法则,作为寻找理论模型的工具。而经济学家们,则把它解释为,怎样用较少的资源,可以做好同样的事情。
既然大家都这么推崇这个法则,它是否有科学根据呢?接下来我们就说说它和信息论的关系。
我们知道,要消除不确定性,就要使用信息。这个大方向没有错。那么使用什么样的信息,使用多少信息合适呢?我们不妨假定需要预测的目标是 Y,当然它有不确定性,因此就有信息熵,我们写作 H(Y),它是大于零的。
……
对于这个问题,其实数学上是有答案的,就是找到一组所谓的基函数,我们前面讲到的傅里叶变换,正弦或者余弦函数就是基函数。在计算机科学中,对于一个复杂的联络图,或者网络来说,就是找到一个所谓的最小支撑树。
大家不用记这些名词,只要记住在任何领域,都有这种成为支撑点的关键信息,找到它们并且使用它们,一切问题就可以迎刃而解,掌握和利用这些支撑点,就如同用剃刀剔除树的枝叶,把多余的枝枝蔓蔓,使我们困惑的信息去掉。
奥卡姆剃刀法则不仅有科学根据,在实践中也被不断地验证。
首先,我们说说为什么简单的解释通常是正确的。这里面有两个原因,一个是世界本身的规律在形式上并不复杂,虽然通常找到这样简单规律的过程极为复杂。在历史上各个时代,最高深的物理学理论,从形式上讲都不复杂,从牛顿力学,到爱因斯坦的相对论,到今天物理学的标准模型。
牛顿在《自然哲学的数学原理》一书中讲了四条法则,其中的法则一就是“除那些真实而已足够说明其现象者外,不必去寻找自然界事物的其它原因”。只不过,看似简单的,却非常准确的解释其实很难找到,而看似复杂的,似是而非的解释反而找起来容易一些。
其次,过于复杂的描述常常是骗局,因为骗局只有被包装得很复杂才不容易被识破。2008—2009 年金融危机前,有人向巴菲特推销金融衍生品,巴菲特看了他们的说明书后,断然拒绝了,理由是那说明书之所以要写成厚厚几百页没人看得懂的东西,里面多半藏了不可告人的事情。
我最初接触到奥卡姆剃刀法则是多年前在美国上学期间,是在科弗的教科书中读到的。后来我专门了解了它的背景,觉得里面体现了智慧。我自己对它的体会有这样三点:
1.做减法。
很多时候,我们生怕自己错过一些机会,于是做了很多其实对目标结果不再有帮助的事情。
比如年轻人头几回在大会上作报告时,常常喜欢尽可能多地把自己的工作讲出来。
这样不仅无法在规定的时间里讲完,而且由于传递出的信息其实有很大的重复性,接收者并不因为耐着性子听完了就获得更多的认同。讲东西如此,做事情也是如此,并非做得越多,效果就越好。
2.不要制造伪需求。很多看似很重要的事情,其实是伪需求。我在《硅谷来信》中评论过无人超市是否需要,我讲其实超市有没有人并不重要,重要的是顾客是否能够以最便宜的价格,最短的排队时间买到自己需要的日用品。至于可有可无的奢侈品的销售,更是需要推销的了。
四月份我带人去参观了一家研制无人驾驶汽车的企业。暂且不考虑他们研制的无人车在技术上是否过关,他们想象中的市场就不存在。
按照他们的说法,节省一个司机能够让公交系统从需要政府补贴到盈利,但是他
们的无人驾驶汽车的成本比公交车贵 100 多万元,车子的折旧费远远超过司机的工资。因此,随我一同参观的学员们一致认为那是伪需求。
我们不妨用奥卡姆剃刀法则过滤一下创业的项目,就会发现一大半其实是伪需求。
或者说,奥卡姆剃刀法则可以帮助我们提高判断力。
3.要提高自己寻找基函数的能力。
我们说的做减法,不是把有用的信息剪掉,而是设法只保留少量的,等同于全部信息的有效信息,这就是数学上所说的基函数。
比如说,投资的原则有很多很多,但是真正称得上是基函数的其实很少,比如巴
菲特和芒格的价值投资,马尔基尔的定投指数基金等等就是。而其它一些所谓的秘诀,什么低买高卖,追涨杀跌,则不是。
如果我们保留了那些基函数,我们就获得了最大的效益,但是如果我们保留了一堆似是而非的信息和方法,就得到时灵时不灵的结果。
而提高这个能力,就要对自己进行专业的训练。
36 最大熵原理:模型到底该怎么用?
我们上一讲所讲的奥卡姆剃刀法则,其核心是一个简单性的原则。当我们找到基函数时,而且找到了对一个事物最根本规律的认识时,我们可以得到对它最简单、最有效的描述。这就是牛顿、爱因斯坦、沃森、克里克和门捷列夫等人所做的工作。
但是,在寻找到这样的本质规律之前,我们可能需要有很多过渡性的模型,让它们来帮助我们解决当下的问题。毕竟,人类不可能等到建立起牛顿力学才制定历法,等到门捷列夫画出元素的周期表才开始寻找基本元素。
那么我们在建立那些过渡性的模型时应该遵循什么原则呢?最有效的原则就是所谓的最大熵原理。这也是我在信息论领域的主要研究方向。
……
为什么大家要平均分配剩下来的概率,而不会觉得 1 点朝上的概率比 6 点朝上的概率来得大呢?因为这样对大家来讲风险最小。
听我报告的人每次在作判断时,其实就是基于简单的算术加上直觉。而人作出这种基于直觉的预测,背后的依据是让风险最小,平均分配概率符合这一点要求。所幸的是,让风险最小的直觉碰巧符合了信息论中最大熵原理,因此它作出的判断是基本正确的。
接下来我们就说说最大熵原理,它的含义是这样的。当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要作任何主观假设。
……
如果我们按照上述的方法,去建立一个概率的模型,可以证明这样的概率模型会使得熵,也就是不确定性,达到最大值,因此这种模型被称为“最大熵模型”,而相应的,建立模型的原则就被称为最大熵原理。
最大熵原理也可以用老子的智慧从另一个角度诠释一下,那就是“过犹不及”。我们学了信息论,知道信息是用来消除信息熵,也就是不确定性的。
在上面的例子,大家在猜骰子哪面朝上时,已经利用了所有已知信息,将信息熵减少了,该确定的已经确定了,我们不可能进一步减少信息熵了。于是剩下的信息熵就达到了最大,这就是把信息使用地刚刚好。
如果我们自作主张地想进一步降低信息熵,作了很多主观的假设,作出来的预测反而不准确了,我们在前面学了,不准确的预测风险是极大的。因此这就是老子所说的“过犹不及”了。那么这个最大熵模型在技术上有什么好处,或者相对其它技术有什么优势呢?
首先,它显然和我们所有已知的信息相符合,因为我们的模型就是用已知信息搭建起来的。
其次,这样的模型最光滑。光滑在数学上是一个什么概念?你可以理解为它不会遇到黑天鹅事件,方方面面都考虑得很周全。最大熵模型光滑的原因,在于我们对于未知的信息,没有作任何的主观猜测,就可以保证结果能覆盖所有的可能性,不会有所遗漏。
……
因此,我们可以认为,一个光滑的模型,可以让预测的风险最小。而最大熵原则恰好满足这一点。
我们在投资时常常说这样一句话,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性,而不要随便作主观的假设。
最后,如果你得到的信息是矛盾的怎么办?其实很多时候,我们之所以难以决策,
就是因为它们相互矛盾,我们常常在“如果这样……”可是“又会那样……”的两难境地。
最大熵模型用数学推理的办法解决了整个问题,它无法同时满足两个矛盾的先决条件,会自动地在这两个条件中找到一个中间点,保证信息的损失最小。可以讲,最大熵模型在形式上是最漂亮、最完美的统计模型,在效果上也是最好、最安全的模型。
了解了最大熵模型的这么多好处,很多人会想,那我们就在各种场合使用它吧!凡事有一利就有一弊,最大熵模型虽然有很多好处,但它最明显的弊端是计算量太大,直到 21 世纪之后,由于计算机速度的提升以及训练算法的改进,很多复杂的问题才开始采用最大熵模型来解决,比如自然语言处理。
这个问题一解决,就马上被用在了新技术上。当然,和钱紧密联系的行业总是喜欢最先采用新技术,因此美国的不少对冲基金,包括著名的文艺复兴技术公司,都是最大熵模型的最早使用者,它们也因此取得了很好的收益。
对大部分人而言,最大熵重要的是原理,而不是公式模型,毕竟模型使用的人会非常少。对于最大熵的原理,每一个人都应该记住以下三个结论:
1.如果你获得了全部的信息,事情就是确定的了,就不要用概率模型进行预测了。
所以,最大熵模型的应用场景是你获得了一部分确信的信息,但是没有获得全部的时候。这时你要保证所建立的模型满足所有的经验,同时对不确定的因素有一个相对准确的估计。
2.在没有得到信息之前,不要作任何主观假设。这一点对投资非常重要。很多人觉得股市连续涨了半年就一定会下跌,或者下跌了半年就一定会涨,这些都是主观的假设。
我们在前面介绍投资时讲过,要想获得投资最大的收益,就需要将钱长期放在一个健康的股市中。事实上时机你是把握不住的,而时间是你的朋友。很多人对所谓时机的判断,都是主观的,其实是一种投机行为。
3.不要把鸡蛋放在一个篮子里,而要让凡事变得“平滑”,因为按照最大熵的原理,这样做风险最小。
此外,透过最大熵模型,我还想表述一个事实,那就是形式上简单的东西,获得它未必容易,在数学上漂亮,形式简单,但是实现起来反而难度很大。
我上节课讲到奥卡姆剃刀法则时说简单的方法常常最有效,可能会有人将简单和初级、低水平划等号。形式上简单的东西未必初级,相反,要把道理总结得简单易懂,自己需要有深刻的理解,在科学上,要得到形式简单的规律,反而要做更多的工作。
37 麦克斯韦妖和测不准原理:为什么要保持系统开放性?
我在课程《科技史纲 60 讲》和《全球科技通史》这本书中用能量和信息两条主线来解释近万年的人类科技成就,有读者问,信息和能量之间是否有十分明确的、本质的联系呢?
其实是有的,我们今天就从物理学假说开始,说说它们的联系,这个假说被称为“麦克斯韦的妖(Maxwell’s demon)”。
麦克斯韦大家并不陌生,他可能是牛顿之后,爱因斯坦之前最重要的物理学家,他奠定了电磁学的基础,而且正是因为麦克斯韦电动力学的方程和经典力学的矛盾,才导致了爱因斯坦提出相对论。
在麦克斯韦生活的年代,物理学上发生了一件大事,就是卡诺、克劳修斯和开尔文爵士发现了热力学第二定律。通常我们用的是克劳修斯的描述,“不可能把热量从低温物体传递到高温物体而不产生其他影响”。也就是说,你不可能把冰和热水放在一起让冰变冷而热水变热。
我们今天知道所谓温度高,无非是分子运动快的表象,而温度低则相反。
那么现在如果有个隔断的容器,左边有热空气,右边有冷空气,这种情况被称为相对有序的状态,因为热空气里都是速度快的分子,都到了左边,冷空气里都是速度慢的分子,在右边。
如果这个容器是相连通的,中间有个门,我们把门打开,速度快的热空气分子就要进入到右边,而速度慢的也会进入左边,最后由于空气分子的碰撞,两边的空气分子运动速度差不多快,有序就变成了无序。
于是,克劳修斯就发明了熵这个概念来形容分子运动的无序状态,从有序到无序,是一个不断熵增的过程。
在冷热空气分开时,它们是有序的,熵比较低,合二为一后,它们变得无序,熵达到最大值。克劳修斯讲,在一个封闭的系统中,永远是朝着熵增加的方向变化的,也就是说分子运动的不确定性越来越大。
热力学第二定律不仅告诉我们热机做功的效率会很有限,而且预示了一个非常沮丧的结果,那就是宇宙最终所有地方的温度都会趋同,这就是所谓的“热寂说”。
热寂说想起来就很可怕,未来的宇宙会是死气沉沉的。因此,物理学家从内心里很恐惧热寂说,于是就有人在琢磨,能否有个方式,让熵增加的过程逆转呢?
于是麦克斯韦就假想了一种情形。当两个联通的容器中冷、热空气混合,也就是熵比较大时,他在两个联通的容器之间安排了一个妖怪把门,这个妖怪能探测并控制单个分子的运动。
如果它看到一个速度快的分子从右往左运动,它就让它过去,同样,如果它看到一个慢分子从左往右运动,它也让它过去。但是反过来,它会严格把门,不让分子经过。
左图的是妖怪允许慢分子(红色)从左往右通过,右图是快分子(蓝色)都到了左边,慢分子都到了右边。
那么如果有这样一个妖怪存在,经过一段时间,左边的分子速度越来越快,温度就升高了,右边的分子速度越来越慢,温度就降低了。这样它让原本熵最大的冷热空气混合的无序状态,扭转为有序状态了。
再往后,由于一个容器温度高,另一个温度低,就可以利用温差驱动热机做功了,然后再让妖怪重复熵减的过程,如此循环。这样就造出了一个(第二类)永动机。
麦克斯韦假想的这种情形显然在现实中发生不了,但怎样才能从理论上证明这样一个妖怪不可能存在,却不是一件容易的事情。
我们回想一下麦克斯韦的妖怪工作的过程,它需要先测量分子运动的速度,也就是说需要获取信息,它需要不断的信息输入才能降低热力学上的熵。我们知道信息的输入可以降低一个黑盒子里的信息熵,现在它也可以降低热力学上的熵。
但是,这时麦克斯韦所假定的两个容器,本身已经不再是封闭系统了。也就是说,麦克斯韦想象的系统并非克劳修斯总结热力学第二定律所说的系统。这样麦克斯韦的妖和热力学第二定律就不矛盾了。
接下来的问题是,测量分子运动速度这件事是否需要能量,或者更广义地说,在物理上,测量这件事是否需要能量?答案也是肯定的。我们知道在物理学里有一个测不准原理,也就是说我们“观察”这个动作本身是会改变物质状态的。
霍金在《大设计》一书中介绍这个原理时讲,在微观世界里,当我们测量时,哪怕两个光子照在原子上,它的状态都会改变。也就是说,信息的获取本身需要能量。
也就是说,这个(第二类)永动机确实没有直接消耗什么能量,但是它消耗的是信息,麦克斯韦的妖把信息转化成了能量,或者说通过提高信息熵,降低了热力学的熵。这样算下来,总的熵并没有减少。
这里顺带说一句,在信息科学中也有一个类似于测不准原理的不确定原理,也就是说频率的误差和时域的误差不可能同时变小,这和物理学是一致的。
接下来我们来讲讲热力学第二定律和麦克斯韦的妖同信息时代管理的关系。
……
一个地区也好,机构也罢,从外面引入负熵有两种办法,一种是直接与外界进行人的交换,另一种则是接受外面新的思想。前者可以被看成是引入负的能量熵,后者则是引入负的信息熵。
……
对于个人来讲,什么算是引入负熵呢?那就是行万里路,读万卷书。这两句话当然是比喻,第一件事是指自己走出去和别人接触,我把它等同于在能量上引入负熵。第二件事是指接受新的信息,引入负的信息熵。
我有时听一些朋友讲,我太忙,没时间走出去,没时间学习,或者我太内向,不善于和别人打交道。对此我想说的是,每个人都有自己的困难,但是世界自有安排,不会因为谁困难就照顾谁。不管什么原因,一个人一旦封闭起来,他就离无序的状态不远了。
────◆要点总结◆────
1.我们介绍了热力学第二定律,并且通过介绍麦克斯韦的妖讲述了信息和能量二者的关系。我们还通过物理学的测不准原理和信息科学中的不确定原理,说明了二者的相关性。
2.任何一个封闭系统都是越变越无序的,要想变得有序,就要引入负熵,即能量和信息。对地区,对企业都是如此。
3.对人来讲,引入负熵的方法就是行万里路,读万卷书。
38 第三模块复盘
我们在课程中讲了,CT 和核磁共振(MRI)等医学影像仪器的发明,就是把医学中的一些问题变成了信息处理中的信号检测问题。
亨斯菲尔德是英国的一位电机工程师,他试图通过不同角度进行 X 光照射的成像,恢复人体内一个截面的图像信息,但是他自己不知道如何计算 X 光在人体内的辐射特性。后来他发现美籍南非科学家科马克发明了这种有关 X 射线在人体不同组织内的辐射特性的算法,于是发明了医学上用的 CT 扫描仪器。
这种仪器用 X 光探测器接收透过人体不同组织各个层面的 X 射线,将光信号转变为电信号,再变成计算机可以处理的数字信号,然后通过计算机的处理形成图像,还原我们身体内的结构,展现给医生们看。
亨斯菲尔德和科马克所做的就是将实际问题变成一个信息处理问题,他们很快因为这项发明获得了诺贝尔奖。
很多读者朋友问我,在得到上学了不少有用的课程,怎样才能用来改进我们的生活和工作呢?得到老师所教的内容,相当于科马克给出的有关 X 射线在人体不同组织内的辐射特性的算法。
不同的人得到它,会产生不同的结果,绝大部分人看了看,就放在一边了,亨斯菲尔德看到后,就用它来解决自己在工作上所面临的问题。他的贡献,其实就是将一个现实的、具体的问题,变成了那个算法能够解决的问题。
我在前面的课程中讲述了 D 先生通过大数据和 IoT 解决酒保偷喝酒的问题,他的贡献也是将一个具体的问题变成了一个信息收集和处理的问题。
很多人担心在信息社会里自己落伍,其实每一个自己的专业特长,就是信息时代最大的价值。关键看大家如何利用信息技术,发挥自己的特长了。亨斯菲尔德正是因为有在医疗仪器上的特长,才让科马克的技术发挥出效益。
在这个模块中,我们重点讲了信息论在五个方面的应用:
首先,我们讲述了验证信息的方法,并且给出了一个比较高效的做法,就是交叉验证。人们通常习惯于在自己熟悉的维度中往深里挖,往细了挖,但是这样的做法到后来成本很高,准确性有限。从另一个维度进行交叉验证的效果则好很多。
第二,我们谈到了在信息不可获得时,如何利用等价信息获得相应的效果。当然,在使用等价信息时,要注意不要把相关信息都当作等价信息了。
第三,我们剖析了大数据思维的底层逻辑。虽然今天很多人拿着大数据思维当作新的概念炒,以至于已经被炒得有点烂了,但是如果我们理解了它的本质,就知道它其实是一种全新的思维方式,我们可以通过这样四个层面,对它一层层地深入理解:
第一层:百川入海,从各种枝末细节得到规律;
第二层:逆向思维,先有结论,再找原因;
第三层:洞察枝末,通过宏观规律对比细节,找到差异发现问题;
第四层:相关联系,通过多个维度的强相关性,找到因果关系作决定。
第四,我们介绍了奥卡姆剃刀法则,即简约之法则,它的原意是“切勿浪费较多东西,去做‘用较少的东西,同样可以做好的事情’”。
发现简约的法制,并加以很好的利用,应该是我们日常做事的准则。
接下来,我们介绍了最大熵原则。这个信息论的原则可以从几个角度来理解。人们把它理解为,不要把鸡蛋放在一个篮子里,而要让凡事变得“平滑”,这是没有问题的。
但是,在课程中,我们还强调了这个原则的另一面,那就是在没有得到信息之前,不要作任何主观假设。这一点对投资非常重要。
很多人觉得股市连续涨了半年就一定会下跌,或者下跌了半年就一定会涨,这些都是主观的假设。事实上时机你是把握不住的,而时间是你的朋友。很多人对所谓时机的判断,都是主观的,其实是一种投机行为。
基于最大熵原理构建的最大熵模型,它符合奥卡姆剃刀法则,因为它在形式上非常简单。但是,形式上简单不等于实现起来就简单容易,相反,最大熵模型的训练计算量非常大,这件事告诉我们,任何事情都不是无成本的。
今天你可能会觉得华为手机照相特别好,一键按下去不用修图,就把人拍得很漂亮,但是在你使用简单的背后,是他们工程师大量的工作,以及处理器完成的大量计算。
今天我们每一个人都希望自己在市场上受欢迎,这件事如果有秘诀的话,就是在下面多做工作,让别人感到方便。
随后,我们介绍了幸存者偏差,它形成的原因,以及如何利用它,让自己的利益最大化。此外,我们特别强调了通识教育的重要性,因为瓦尔德能够看到军官们没有发现的盲点,这是因为他的数学常识让他有好的思维习惯,他在得到结论之前会问飞机样本是如何选取的,而军官们恰恰忽视了样本选取不具有代表性这一点。
很多人在看到这门课的时候,都担心它是一门需要很多数学知识的通信课程,但是听了以后发现它其实讲的是方法论。事实上今天信息论在管理上的用处比通信中一点也不少。
因此,也希望你把这个信息传递给你周围的人,让他们不至于被信息论这个名称吓着,不妨也来了解一下我们当下和未来世界的方法。
信息论的基本原理,已经教给大家了,接下来,就看大家如何在工作中将它们用好了。下一讲,我会回答大家在“信息应用”这个模块这个模块遇到的问题。我们下一讲再见。
问答| 从信息论角度看科技发展的方向
。。:无线充电会普及吗?
给特斯拉投资研究无线电的是著名投资人 J.P.摩根,他看到特斯拉净做这些不靠谱的事情,就停止了对他的资助,转而资助另一个年轻人,从意大利来到美国的马可马可尼用无线电传递信息,而传递信息不需要太高的能量,于是马可尼成功了,名利双收,不仅得了诺贝尔奖,而且还创立了 RCA 公司,该公司在很长时间里是世界上最大的收音机、无线广播和电视机公司。
那么为什么用无线电传递信息能传得较远呢?因为信息可以叠加在无线电波(也被称为载波)上传输,在接收时,只要信噪比足够高,就能复原出信号,不需要在接收端具有太高的能量。因此,马可尼的成功在于走对了路,或者说,为无线电这项技术找到了合适的应用场景,而特斯拉没找到。
不过顺便说一句,即使是无线传输信息,比有线传输,带宽也低很多,低好几个数量级。只不过我们对此不敏感罢了。类似的,无线充电,以手机或者电动牙刷为例,其实也比有线的低很多。
那么能否用无线的方式大功率传输能量呢?其实变电站的变压器早就做到这一点了,但是变压器有个大磁圈,把电磁场限制在周围不往远处辐射(辐射不超过 5%)而已。但是远距离无线输电,是不可能有一个大磁圈的。
另外,有些人想,能否用激光进行远距离能量传输?这是可以的,但是如果满大街都是大功率激光,对人的危害极大。
很多时候,我们掌握一些科学方法,对于理解今天的世界,对于判断技术是好是坏,还是非常需要的。
晒太阳的加菲猫:马斯克“星链”计划靠谱吗?
吴军老师,您好。课程里您讲到,“铱星”系统与现代通信发展方向不符。埃隆·马斯克提出“星链”计划,用12000颗卫星实现无线通信并开始部署。您如何评价他的方案呢?
吴军
这个问题问得很有意思。
俄罗斯有一句格言,一种表述不因为提出者的身份就成为真理。很多事情靠谱不靠谱,不在于谁讲,而在于它是否合乎基本的科学法则。很多事情,不因为马斯克说了、做了,就从不靠谱变成了靠谱。
我们在回答前一个问题时讲了,无线通信在接收时,需要保证信号的能量和噪音能量之比足够高。而信号能量是和传输距离的平方成反比的。
卫星离地面的距离,最近也有几百公里,至少是 4G 网络的上百倍,因此到地面上的信号强度只有 4G 基站的万分之一。如果想提高传输率,就要加大功率,但是卫星的功率显然没法和连了电线的基站相比。
因此卫星的传输率其实非常有限,远不如一个基站。此外,你的设备向卫星通信,也需要很高的功率。如果你见过铱星手机,会发现它和大哥大一样蠢笨,它只是传输一路语音数据,数据量极小。
如果你想传视频怎么办?你只要看看今天在演唱会现场外的转播车就可以了,巨大无比,那也只是一路电视信号。即便你想传递的视频清晰度没有电视转播高,恐怕也要推一个婴儿车上街。
就算大家可以按照和基站通信的方式和卫星通信,每个小小的卫星总的传输率也无法和连有光纤的基站相比。实际上大约只有基站的 1/10~1/100。要知道全中国有 500 万个基站,马斯克那一点点卫星(一万个),只能提供 4G 时代中国移动通信量的 10 万分之一左右。当然,你在塔克拉玛干沙漠中央可能有用。
今天给大家算这道题目,也是告诉大家一个在信息时代甄别信息的方法。我在《硅谷来信》第 138 封信中讲,在大数据时代要识数,1 万在不少人看来是个很大的数字,但是,和中国的基站数来讲,少得可怜。
此外,我们在这门课和《全球科技史纲 60 讲》中反复强调了,未来科技发展的总趋势是,用更少的能量,传输、处理和存储更多的信息。5G 取代 4G,符合这个规律,用卫星取代 4G,违背这个规律。
大肚皮狒狒:
想问吴老师个问题。网络传输速度和网络中的节点数是高度正相关的。如果5G加入了这么多的基站,会不会降低传输速度呢?
吴军
不会的,因为 5G 虽然基站多,但是传输的路径并不长。从 4G 之后,电信网络的发展已经用到了计算机网络的很多技术,比如云计算和虚拟化,因此今天通信的很多节点,只是虚拟的,在物理上,它们都在同一个云计算中心。
岳山:奥卡姆剃刀法则是否不适用?
吴军老师,想问您奥卡姆剃刀法则的应用,是不是也要看情况呢,它简洁的属性似乎也有不足之处。比如,从简洁程度看,编程语言中Python似乎是最简洁的,但是它执行的速度却比不上C、Java语言。这是否是一个简洁原则的不适用的情况呢?
吴军
我在前面课程中讲到了,要想给用户提供简洁和便利,背后就要多做工作。Python 就是利用计算机背后多做工作,实现对人的简洁。由于人的时间宝贵,而计算机的资源相对便宜,这种做法是合理的,并不违背奥卡姆剃刀法则。
32 讲“大数据思维的四个层次”课后思考题:
为什么专家收集吸烟的对比数据,要去第三世界国家的农村?
吴军
去第三世界国家的农村有三个其他地方没有的好处,能够促成橘子和橘子的对比。
1.那里同一个村子的人基因相近,因为他们世代生活在那里,相对与世隔绝。
2.那里的人的生活习惯,特别是饮食习惯相近。
此外,那里的人流动性较差,如果进行回访,想取得更多的数据也能办得到。
上面这些条件,是生活中流动性很高,基因和文化多样性很强的城市里不具备的。
问答| 精通各种语言才能做好语言搜索吗?
花花臭臭:
听了课程,知道了大数据很重要,那么问题来了,请问吴军老师,大学生想要择业的话,既没有数据,又没有技术的公司,是不是就不用考虑了?我相信目前还有很多得到同学,也正在既没有数据,又没有技术的公司工作,像这样的情况是不是就要开始考虑新出路了呢?望解惑,谢谢。
吴军
这个问题很有代表性。我从三个角度讲讲自己的看法。
首先,如果能够去一家有数据、有技术的公司当然好,这就如同 30 年前大家喜欢去银行工作一样。但是要注意,如果你去那种公司却做了和数据、技术无关的工作,那就是另一回事了。这就如同你去高盛就是要做交易,而不是 HR,去清华,应该是当老师,而不是厨师。
对于某些专业的人来讲,他们未来的工作场所未必是大数据的公司,因此也不要勉强往里面挤,因为挤进去后,成为那个公司人员金字塔最底端的人,就没有意思了。
其次,怎样才能进有数据、有技术的公司?很多人讲,我们刚毕业,没有经验,人家凭什么要我们?其实像阿里巴巴和腾讯这样的企业每年都有很多校招,而且还会解决户口,只要自己基础不错,还是有机会的。反倒是毕业几年后换工作时,解决户口反而难了。
最后,判断一个公司是否应该待下去,是看自己能否在那家公司里不断有机会成长进步,如果那家公司不错,给你的机会并不好,而且你也看不到通过自己的提高能够获得机会,也不用太留恋。
第34讲“幸存者偏差”课后思考题:
有一天专门从事仙股(股价只有几分钱)交易的弗罗斯特先生向你推荐股票,当然你不会相信他。他说,没关系,我每天发邮件给你,告诉你一只股票的涨跌。在接下来的10个交易日里,你每天收到他的邮件,10天他都说对了。这时,你是否该将钱交给他去炒股?为什么?他是否有什么独到的眼光,还只是运气好?另外他为什么只炒仙股?
吴军
这个问题其实问了两层含义。首先是,为什么连续猜对了十天,依然不能信他?因为他其实挑了一堆股票,向一大堆人发邮件。每次发邮件时他对一半的人说涨,对另一半说跌,因此每天都有一半是对的。十天下来有 1/1024 的人收到的信息和市场情况是一致的。
如果你连续 10 天收到的信息都和市场相符,你不过是 1024 个人中的那个幸存者而已。等到第 11 天、12 天,你就未必再有那种好运了。这一点,很多读者朋友已经指出了。
至于为什么挑仙股,主要有三个原因:
首先,购买仙股的成本很低,一个人花 1 万元,就能买一大堆,入门的成本很低,很容易哄骗小股民。而且很多人搞不懂股票的每一股价格和公司市值的关系,总觉得
10 块钱的股票比 100 块钱的便宜,容易上涨。
至于对仙股的态度更是如此,他们在想,我现在花 1 万元,买了 20 万股,万一一股涨到了 5 毛钱,岂不就值 10 万元了?
其次,仙股的交易手续费其实极高,而且买卖差价极高。很多股票就值个七八分钱,交易一股算下来成本却有一分钱,占了交易额的 1/10,中间商就是在挣这个钱。
相反,那些 100 元一股的股票,交易一股可能成本不过 1 毛钱,占了交易额的 1/1000。
最后,也是很关键的,仙股对应的公司盘子都不大,很容易操控。中间商常常先买一点,然后拉几个冤大头进来,就能把股价炒得很高,然后自己脱手。
在金融市场投资上,如果我们没有很好的渠道,也没有很多专业知识,最好的办法就是记住“上帝喜欢笨人”这句话,不要试图贪便宜,自然也不会吃亏。
Sunny Shao:怎么找等价信息?
请问吴老师,学完课程我有了一个问题,一是我们要怎么去练就一双发现等价信息或者相关信息的慧眼呢?
吴军
今天大家普遍采用的各种基于大数据的方法,其实就是寻找相关信息或者等价信息。
在过去,我们常常是先感觉两种信息相关,然后通过数据来验证,这是传统的数据方法。大数据的方法不同,它不先进行预先的假设,由于数据量大,总是可以总结出一些相关性,然后再分析什么靠谱,什么不靠谱。并非所有看似相关的事情都靠谱。
在课程中有一位读者讲了这样一个笑话。影片 A 比影片 B 在上映时卖掉的冰淇淋多,一些大数据专家就在统计:是否看影片 A 的情侣多,一起吃冰淇淋,是否看影片 A 的年轻人多,喜欢吃冰淇淋,等等。
最后来了一个卖冰棍的老太太说,嗨,影片 A 是夏天放映的,影片 B 是冬天放映了。如果我们一定要统计,可能真能发现看影片 A 和 B 情侣比例的细微差异,但是如果我们就得出情侣看电影一定会吃冰淇淋的结论,就有点荒唐了。
我们在课程中讲了,只有强相关性才有意义,并且用互信息来量化度量相关性的强弱,对于那些看似有关,但是相关性不是很清晰的信息,不必强求联系。
至于如何找到等价信息,这比强相关性的信息更难,通常需要一点领域知识,来缩小搜索的范围,此外可能还需要进行一些量化度量和计算。当然在生活中你显然无法用笔计算之后,再作决定。对此我给出两个简单的操作方法。
首先,如果你无从得到信息 X,要用信息 Y 做它的等价信息,Y 里面的信息量只能比 X 的大,不能小。
其次,虽然在理论上我们认为可以有完全等价的信息,但是在现实中这一点有可能做不到,如果你用 Y 作为等价信息取代 X,最好再用一个正交的信息 Z 做交叉验证。
小李子:
吴老师,冗余和噪音是一回事吗?有信号必有噪音,可以说成有信号必有冗余吗?
吴军
我们在前面已经回答过,噪音和信息冗余不是一回事,虽然它们看上去有些相似的地方。
冗余度讲的是两件事:一是因为信息编码无效,导致信息的(编码)长度超过了信息量。
比如我们用 16 比特表示一个国标汉字,其实 6700 个国标汉字做编码用大约 12.7 个比特就足够表示了,多出来的就是信息冗余。当然,如果考虑到汉字出现的频率不同,用哈夫曼编码,不到 6 个比特,冗余就更大了。
第二件事是重复信息,比如把一句话说了三遍。无论是哪一种,信息显得很长,但是都是准确的。
噪音则是另一回事,它在信息中夹杂了与信息无关的东西。比如一篇报纸出现了一些错别字,这就是噪音。
当然,如果信息没有压缩,带有冗余信息,那么噪音所造成的不确定性,可以通过其它的冗余信息恢复出来,如果没有任何冗余信息。那么错一点就不知道该怎么恢复了。
39 控制论:利用控制论的思维指导我们行动
我们在前面 30 多讲的课程中,以应用为核心介绍了信息论。大家可能知道与信息论几乎同时诞生的交叉学科还有两个,即控制论和系统论,它们被称为“(老)三论”。
这些理论不仅在通信和控制等学术领域有非常重要的地位,而且对管理学和社会学有着深远的影响。
……
二战之后,在 1948 年,维纳将自己在控制论上的研究成果发布了。
控制论的本质可以概括为下面三个要点。
首先,维纳突破了牛顿的绝对时间观。
什么是绝对时间观呢?在牛顿等人看来,时间是绝对恒定的物理量,比如昨天的一小时和今天的一小时是一样的,昨天出去玩了一小时没有做作业,今天多花一小时补上就可以了。
维纳采用了法国哲学家柏格森的时间观,即 Duree 这样一个概念,中文被译为“绵延”,意思是说,时间不是静态和片面的,事物发展的过程不能简单拆成一个个独立的因果关系。
比如昨天浪费了一小时,今天多花了一小时做作业,就少了一小时的休息,就可能造成第二天听课效果不好,因此浪费一小时和没有浪费一小时的人,其实已经不是同一个人了。
如果我们把这种观点应用到企业管理上,那么工厂主强制员工在某一天加班一小时,未必能够多生产出通常一小时生产的产品,因为多加班一小时的员工们已经不是原本的员工了。由于事物发展的过程前后高度耦合,也就是紧密咬合,没有空余。所以,我们在做事情时,就要考虑它的连带影响。
其次,任何系统(可以是我们人体系统、股市、商业环境、产业链,等等)在外界环境刺激(也称为输入)下必然作出反应(也称为输出),然后反过来影响系统本身,这一点很重要。维纳就是根据这个理论改进火炮的。
这一点,也可以很好地帮助我们理解资本市场。比如如果大家都觉得一种股票有利可图,大量购买,就会瞬间抬高股价,于是,炒股的人并不能赚到预想的收益。这便是市场的有效性。
正因如此,根据过去的经验或者任何已知的信号去操作当下的股市,都不可能达到预期。在维纳看来,任何系统,无论是机械系统、生命系统,乃至社会系统,撇开它们各自的形态,都存在这样的共性。最后,为了维持一个系统的稳定,或者为了对它进行优化,可以将它对刺激的反应反馈回系统中,这最终可以让系统产生一个自我调节的机制。
比如上百层楼高的摩天大厦,在自然状态下会随风飘摆,顶层的位移会在一到两米之间,在大楼的顶上安装一个非常重的阻尼减震球,让它朝着与大楼摇摆相反的方向运动,大楼顶端飘移(输入)得越多,它往相反方向运动(输出)也越多,而这种反方向的运动反馈给大楼,最终会让大楼稳定。
在管理上,一个组织为了保证计划的实现,就要不断地对计划进行监控和调整,以防止偏差继续扩大。
维纳的理论后来被卡尔曼等人进一步发扬光大了,并且在阿波罗登月中发挥了巨大的作用。
说到登月所必需具备的条件,大家首先想到的会是火箭技术。但登月其实是一个巨大的系统工程,除了火箭技术,还需要很多相关的技术,比如如何保证火箭运行不出现偏差,准确到达预先设定的降落地点,就是一件很困难的事情。
阿波罗登月用的是土星五号火箭,他的设计师是德国过去的导弹之父冯·布劳恩。在二战后期,他设计并领导制造了著名的 V-2 导弹。虽然纳粹德国向英国发射了3000 多枚,但是那些导弹完全没有准头,开始的一点点误差在长距离飞行后被各种因素(比如风力、温度、气压等等)不断叠加放大,落地完全不是预想的了。
到了美苏太空争霸时,加加林乘坐的飞船仅仅围绕地球转了一圈,最后他降落的地点和预想的还差出了上百公里。阿波罗登月火箭的飞行距离远比 V-2 导弹和加加林的飞船飞行的距离长得多,如果按照机械思维的方式继续改进火箭,即便考虑了所有能想到的因素,最终向月球发射的火箭恐怕会与预期落点要偏差出十万八千里。
所幸的是,就在冯·布劳恩等人研究火箭的同时,卡尔曼改进了维纳的控制理论,提出了著名的卡尔曼滤波,可以让火箭随时动态调整方向,这样才保证了它最终准确着陆。对比 V-2 和土星五号,可以看出确定的机械思维和不断调整的控制论思维两种方法论的差异,前者是对未来作一种尽可能确定的预测,后者则是根据变化不断进行调整。
我经常讲,在当今这个时代,我们要轻预测,重反应,其背后的科学原理就是控制论。我们在前面第 7 讲中介绍霍夫曼编码和风险投资时讲的方法,即不断对好的项目加倍投入,其实就是在投资上重反应的表现。
不仅在投资时应当如此,在做很多事情时,也需要不断调整策略。我经常讲,创业者要成为变色龙,而不是恐龙,也是这个道理。什么是恐龙呢?它们架子很大,很唬人,但是适应性差。
今天不少创业者喜欢一开始就给投资人画一个大饼,五年后的发展前景。其实稍微有点经验的投资人都不会看它,因为即便有稳定市场、核心技术、专业团队的上市公司,都很难对一年后的财报作准确预测,更何况一家初创公司呢?
很多成功的企业,它们最终做成的事情和创始人最初的想法相差十万八千里呢,因为环境和市场在不断变化。一个好的创始人需要是变色龙,他能不断应对环境变化作出调整,而不是一开始就把摊子铺得很大。希望这种做事方法对你能有所启发。
────◆要点总结◆────
1.我们介绍了控制论的由来和它的应用,以及它的三个本质要点,即突破了传统的绝对时间观,利用反馈对系统进行控制,以及利用反馈让系统稳定。
2.我们用阿波罗登月的例子,说明了控制论思维和传统的机械论思维的差异,并且强调了我们今天需要轻预测,重反应,做变色龙。
40 系统论:让整体效用大于部分之和
如果说信息论和控制论都有一个明确的主要发明者,那么系统论则是一批学者各自独立研究,共同创建和完善的一门新理论。
不过,一般认为,1948 年奥地利生物学家贝塔朗菲出版的《生命问题》一书,标志着系统论的问世。虽然系统论最初源于对生物系统的研究,但是它适用于各种组织和整个社会。贝塔朗菲和其他系统论的奠基人主要的观点如下。
首先,一个有生命的系统和非生命的系统是不同的。前者是一个开放的系统,需要和外界进行物质、能量或者信息的交换。后者为了其稳定性,需要和外界隔绝,才能保持其独立性,比如一瓶纯净的氧气,盖子一旦打开,就和周围环境中的空气相混合,就不再是纯氧了。
其次,根据热力学第二定律,一个封闭系统总是朝着熵增加的方向变化的,即从有序变为无序。这一点我们在前面已经讲过了,无论对一个热力学系统,还是一个信息系统,或者一个组织机构都是如此。
特别需要强调的是,对于一个复杂的系统,比如我们的生命体,或者一个公司、一个组织,一旦它成为了一个封闭系统,一定是越变越糟糕。相反,对于一个开放的系统,因为可以和周围进行物质、能量和信息交换,有可能引入所谓的“负熵”,这样就会让这个系统变得更有序。
最初薛定谔等人用负熵的概念来说明为什么生物能够进化(越变越有序),后来,管理学家们借用这个概念来说明一个公司或组织在外界环境的影响下,可以变得更好。
中国的俗话“他山之石、可以攻玉”就是这个道理。
最后,贝塔朗菲认为,对于一个有生命的系统,其功能并不等于每一个局部功能的总和,或者说将每一个局部研究清楚了,不等于整个系统研究清楚了。比如熟知人体每一个细胞的功能,并不等于研究清楚了整个人体的功能。相反,多出了一个部分,整体的功能未必会增强,而少掉一个部分,相应的功能未必会失去。
我们今天很多人喜欢大量吃补品,比如各种维生素,事实上,当我们的身体获取了所需要的维生素后,多余的全部代谢排出体外了。很多人迷信吃碱性食品能够中和体内过多的乳酸,但事实上人体会自动平衡酸碱性,而不会因摄入了所谓碱性食品就降低酸性。
类似的,一些胆固醇高的人以为只吃不含胆固醇的素菜就能降低胆固醇。虽然少摄入胆固醇对降低指标有好处,但是即使不摄入胆固醇,人体也会自己产生,也就是说健康饮食其实是一项系统工程。系统论的思想对我们有什么启示呢?这里我不妨分享一下我的体会。
首先要想办法做到整体大于部分之和。
我们知道,在机械思维中的“整体总是能够分解成局部,局部可以再合成为整体”。
这种思维方式有它的道理,只有相信这一点,才有可能将复杂的系统分解之后,一部分一部分了解,也才有可能通过完成对每一个局部的构建,搭建起一个大系统。这一点并没有错。
……
人是一个完整鲜活的系统,增加局部的能力之后,单独衡量那项能力,肯定是提高了,但是人作为一个整体是否提高了,则是另一回事。因此,每一个人往哪个方向努力才能提高整体能力,就有讲究了。
我的第三个体会涉及到利用系统论改进做事方法,毕竟我们光发现问题还不够,还需要有行动指南。我把它们总结成四点:
1.整体。任何局部的改进,都需要放回到整体中去考察。
2.综合。iPhone是一个很好的例子。
3.科学。在分析问题时必须要遵循科学方法,而不是简单的经验,因为只有这样才能获得可重复的成功。20多年前,公牛队称霸NBA,靠的是乔丹等人的天赋,那是不可重复的。今天勇士队的成功,靠的是科学训练,特别是找到了投三分球这个秘诀,以至于整个联盟的比赛都成了三分球的比拼。这说明它的成功是可以重复的。
4.发展。系统工程不仅要求在空间上,作整体考虑,还需要在时间上考虑一件事情的影响力,然后决定做不做。
附录
豆瓣书评——吴军·信息论40讲
远行客2024-03-26 15:54:18 已编辑 北京
00 信息时代每个人的必修课
欢迎来到我的信息论40讲。 信息时代最显著的特征是不确定性,而信息论是应对不确定性最有效的方法论。 人类在近代300年中经历了认知革命,进入了理性认知的机械时代。 牛顿等科学家确立了机械思维,使人们能够掌握规律并应用于各个领域。 然而,现代世界充满了不确定性,人们面临着跳跃式变化和各种困惑。 信息论为解决不确定性提供了方法,通过利用信息消除不确定性。 信息论被广泛应用于各个领域,如大数据思维和互联网技术。 学习信息论可以帮助人们在不确定性的世界中做出更明智的决策和把握机遇。 信息论课程通常在大学中作为通信和信息处理专业的必修课,但对其他专业的学生而言也很重要。 在信息论课程中,学生将了解信息的产生、传输和应用的原理和方法。 学生能够掌握排除噪音、提取有效信息、平衡分配资源和抓住机遇的能力。 信息论是解决当今不确定性和变化的重要工具,通过学习信息论,人们可以更好地适应和应对这个充满挑战的时代。
导论
01 影响世界的三比特信息
介绍了信息的作用和重要性。发言人通过三个例子来说明信息的价值,其中包括二战时期的情报战,盟军登陆诺曼底战役和中国古代的长平之战。虽然这些例子展示了信息的重要性,但信息量的大小和不确定性有关,而且一些信息可能被更高明的应对策略所抵消。信息的作用可以比喻为四两拨千斤,控制理论中的开关电路也说明了少量信息可以驱动大量能量。最后,他提醒读者在生活和工作中要重视信息的价值,并举例子来帮助理解信息论的理论。
02 解开世界之谜的三篇诺贝尔奖论文
本章提到了信息论的一些基本原理和诺贝尔奖得主的研究成果。发言人通过三篇诺贝尔奖论文的例子,说明了信息的简洁和传递效率的重要性。他还提到了宇宙的起源和演化,以及生命的信息传递过程。他强调了信息量和信息传播的效率的重要性,并指出了奥卡姆剃刀原则。最后,他提到了下一讲将介绍信息论与方法论的关系。
03 大数据思维的科学基础
作者提到了四个主要类别的应用:解决人工智能问题、利用大数据进行精准服务、动态调整做事策略和发现未知规律。通过贾里尼克在语音识别问题上的成功案例,说明了利用大数据解决问题的思维方式。另外,通过滴滴公司在动态调整做事策略方面的成功,展示了数据对于优化效率的重要性。最后,作者提到了利用大数据发现未知规律的案例,如斯坦福大学医学院通过重新匹配药物和疾病来缩短研发周期。总的来说,这段对话强调了大数据思维对商业的指导意义和应用前景。
第一模块:信息产生
04 信息的量化度量:世界上有稳赚不赔的生意吗?
本节课介绍了信息论的基本内容和概念。首先,介绍了信息的作用和交叉科学的背景,以及信息论在当今信息时代的应用。然后,从信息的产生、传播、应用和量化度量等方面详细讲解了信息论的发展历程。特别是,香农在信息熵的基础上提出了比特作为信息的单位,并介绍了信息熵的公式和原理。最后,讨论了信息的可度量性及其在金融市场和复杂交易中的应用,并提到了下一讲将讲解信息的编码和具体内容。
05 信息编码:数字和文字是如何诞生的?
作者介绍了信息编码的概念和历史。他提到,不仅动物,甚至植物也具有信息编码的能力,比如非洲大草原上的动物通过发出怪叫来进行信息传播。随着人类文明的发展,需要表达的信息越来越多,语言和数字就此产生。作者还介绍了不同编码方法的信息量,并指出它们在数学上是等价的。对于数字的编码,作者讲解了十进制、二进制等不同编码方式的优缺点。对于文字的诞生过程,作者提到了象形文字的出现和发展,以及文字的普及问题。最后,作者提出了思考题,引导读者思考编码的平衡之道。
06 有效编码:10个手指能表示多少个数字?
信息编码是一个基本原理,不同的编码系统在信息论上是等价的,但不同的编码系统可以有好有坏。易识别是编码的第一个原则,便于区分不同的信息;有效性是第二个原则,需要考虑编码的有效性和异变时的原则。在谷歌面试中,会用一道涉及64瓶药的题目来考察编码能力,解决这个问题只需要六只小老鼠。有效编码的思想在IT产品的性能比对测试中也有直接的用途。学习信息论的知识要学以致用,才能真正提高自己。下一讲将介绍哈夫曼编码及其在各个领域的应用。
07最短编码:如何利用哈夫曼编码原理投资?
如何对信息进行编码以最有效地传输。讲述了莫尔斯电码的编码方法以及其优劣之处,以及哈夫曼编码的原理和应用。并且讨论了如何根据哈夫曼编码的原则进行资源分配,在投资和工作生活中获得更高的回报。最后,提出了一个关于如何在巴黎度假安排的思考题。下一讲将探讨语言编码的变迁以及不同编码方法的有效性。
08 矢量化:象形文字和拼音文字是如何演化的?
信息的矢量化原理以及它在文字和语言演化中的应用。发言人指出,文字和语言的演化是一个自然的过程,不能仅仅照顾易辨识性和有效性,而应该考虑人类接受它们的难度和演化过程。矢量化是一个将信息投射到两个维度的过程,可以使信息更容易处理和表达。象形文字和拼音文字都利用了矢量化的原理,虽然它们的形成和进化代表了两种不同的信息编码方式,但它们都能够传达信息。矢量化在生活中也有广泛的应用,比如矢量字体和在某些情况下对人员进行评估的方案设计。最后,他提出了一个思考题:为什么中文比西方拼音文字更精炼,也因此更难学呢?
09 冗余度:《史记》和《圣经》哪个信息量大?
通过信息论来证明中文是否简洁的方法。他首先采样了史记和圣经的信息量,并对比了它们的大小。然后,他还比较了不同语言的圣经的信息量,并得出了英文比中文简洁的结论。接下来,他讨论了信息冗余度的概念及其带来的好处,包括便于理解、消除歧义和容错性。然而,信息冗余也有一些问题,比如存储和传输的浪费以及冗余信息混淆的情况。最后,他提到了下一讲将介绍信息等价性原理,并留下了一个问题:如何写文章才能最高效地传递信息。
10 等价性:信息是如何压缩的?
本讲介绍了信息的等价性原理以及其在信息压缩中的应用。通过史记中关于秦王子婴身世的例子,说明了如何利用等价信息理清思路、解决问题。接着介绍了傅立叶变换和离散余弦变换等信息压缩工具的原理和应用,包括对语音和图像的压缩编码。最后,提出了等价信息在信息处理中的重要性,并举例说明了核磁共振等应用。下一讲将继续讨论信息压缩中可能存在的信息损失问题。
11 信息增量:信息压缩中的保守主义原则
本节讲述了信息的压缩和保守主义的做事方法。发言人首先讲述了视频压缩和图片压缩的差异,指出视频压缩利用了信息的相关性,能够达到近千倍的压缩效果。然而,他指出单一图片中不具有太多的相关性,因此不能使用视频压缩的方式来压缩图片。接着,他解释了对数据进行编码的原理,以及对数据进行增量编码的方法。他用五个比特来表示后面每一帧视频和前一帧的差异,从而实现了视频的压缩。他还提到了谷歌搜索引擎的索引方法,即利用单词出现位置的差异进行压缩,以节省空间。最后,他通过对比保守主义的做事方法和革命性的做事方法,强调了渐进改变的重要性,并指出保守主义是成本最低的做法。他以视频压缩和学区划分为例,说明了在绝大多数时候,世界是渐变的,不需要推倒重来,只需要对变化进行修补。他提出了思考问题的角度,即在生活中找到自己的主帧,以及在信息压缩中找到等价信息的重要性。
12 压缩比和失真率:如何在信息取舍之间做平衡?
信息压缩的原理和方法。首先,信息压缩分为有损和无损两种类型,有损压缩会丢失一部分信息,但在很多情况下是必要的。其次,失真率和压缩比密切相关,压缩比越大,失真率越高。最后,信息压缩的原则包括明确压缩目的、考虑信息数量和应用场景,并且遵循妥协的原则。这些原则在计算机存储、通信、信息处理和生物等领域都有应用。对于无损压缩,信息原先的情况能够完全复原,但通常压缩比不会太高;而对于有损压缩,信息复原后会有一定程度的失真。在实际应用中,需要根据具体场景选择合适的压缩方法和压缩程度。本讲最后提出一个问题,即无损音乐和电影对听觉和观感上是否有明显的区别,以及还有哪些其他影响因素。下一讲将学习面对多种信息时的取舍之道。
13 信息正交性:在信息很多的情况下如何做决策?
言人讨论了如何利用和组合信息提高决策水平。他解释了信息和能量的相关性和区别,并给出了三个获得有效信息和利用好信息的要点。首先,相同的信息使用两次不会产生两倍的效果,所以在使用信息时要注意不要反复使用。其次,要发挥信息叠加的力量,采用正交或垂直的信息进行消除不确定性的时候效果最好。最后,要避免使用相互嵌套或相互包含的信息,并注意选择来自不同信息源的正交信息。他还提到了两个例子,即语音识别和名片识别,说明了如何利用垂直信息最大化的方法。总之,本讲介绍了选择正交信息的原则和方法,并指出成功是有运气成分的。下一讲将介绍互信息的概念和应用。
14 互信息:相关不是因果,那相关是什么?
介绍了衡量两条信息之间相关性的新工具户信息,以及如何利用互信息找到可靠的信号和过滤不太灵的信息。通过介绍股市和裙摆长度的例子,讲述了互信息的计算方法和含义。互信息可以衡量两件事情之间的相关性大小,强相关性的互信息较高,而弱相关性的互信息较低。然而,在利用互信息时需要注意因果关系的颠倒,不能将两件强相关的事情之间的因果关系搞反了。最后,提到专业人士在寻找高相关性的事物时会使用特定的工具,而业余人士则可能凭感觉做判断。
15 条件熵和信息增益:你提供的信息到底值多少钱?
如何量化分析信息的价值。他使用了裙摆指数和条件熵的概念来说明股市信息的不确定性和消除不确定性的方法。他指出,已知的有用信息对投资没有太大意义,因为股市的不确定性已经被充分反映在市场价格中。他还强调了信息增益的重要性,解释了为什么最初的发现对研究和影响力最大,并提出了在个人决策和学术界中如何提高自身影响力的建议。
16 置信度:马斯克犯了什么数学错误?
特斯拉汽车公司的辅助驾驶功能与致命车祸事件的关系。对于特斯拉的辅助驾驶是否安全这一问题,一些科学家嘲笑了马斯克的说法,并指出他没有理解置信度的概念。置信度是衡量信息可靠性的重要指标,它可以帮助人们判断信息是否可靠。然而,很多人在总结经验时常常忽视置信度,将完全随机的事情当成必然的事情。要提高置信度,需要增加所统计的样本的数量。对于特斯拉的辅助驾驶是否安全这一问题,要证明它比人开车更安全需要很多年的数据。在信息传递中,人们应该重视置信度,避免误信不可靠的信息。下一讲将讨论如何量化错误信息带来的损失以及如何避免制定与事实相反的计划。
17 交叉熵:如何避免做出与事实相反的计划
如何避免制定与事实相反的计划。他提到了影响战争结果的3比特信息的重要性,以及德军和赵括在预测登陆地点时的错误判断所带来的损失。接着,他介绍了库尔贝勒交叉熵这个代价函数,它用于衡量在信息误判时的损失。他还提到了五个思考,包括猜测与真实情况一致时不会有损失,猜测与真实情况相差越大损失越大,自大的人容易遗漏应考虑的事情,过分防范各种情况可能会损失信息,以及硬性决定会损失信息。最后,他鼓励读者在平时灵活应用这些原则,并思考自己的经历以获得新的启发。
18 第-模块复盘
本段对话是关于如何识别误导人的信息的讲解。首先,讲师介绍了识别误导人信息的重要性,并提到了误导人的信息的三个特征:耸人听闻、缺乏出处和缺乏上下文。接着,讲师给出了对付这些信息的三个方法:将其放在更大的时空考量、看信息的一致性和看是否刻意过滤低频信息。最后,讲师提醒大家记住五个重要的原则,并介绍了信息熵、冗余度和不同信息的正交性等概念。整段对话旨在帮助大家识别和避免误导人的信息。
第二模块:信息传播
19 信噪比:历史有真相吗?
课程介绍了信息传播和噪音的主题。马未都先生在一次电视节目中与北大教授就历史真相进行辩论,提出了历史没有绝对真相的观点。他认为历史的重要性在于正确的历史观,而细节的真相并不准确。马先生通过讲解自己的证据,表明历史细节和证据的不完整性。在信息论中,噪音是指未知、随机、不含有用信息的信号,而信噪比是信号和噪音的比例,决定了我们能否恢复有用的信息。历史的很多细节由于噪音的干扰而不可靠,但历史的整体轮廓仍然可见。要去除噪音并提高信噪比,需要提高信息的准确性和判断力。
20 去除噪音:如何获得更多更准确的信息?
本文介绍了噪音的分类和来源,并且提出了两种去除噪音的方法。第一种是利用信息的冗余度,通过减去已知噪音的信号来去除噪音。第二种是将有噪音的信息分解到不同的维度上,通过在不同维度上比较信息的大小来过滤噪音。同时,也介绍了噪音在信息传输中的重要性,并且预告了下一讲将会探讨噪音与信息传输的关系。
21 信道容量:信息传播的成本是什么?
这段对话讲述了信道容量的概念和重要性。信道是传输信息的通路,比如声带到空气再到耳蜗构成了一个真实的信道。不同频率的信号不会相互干扰,但是在信道容量有限的情况下,信息传输效率会受到影响。香农给出了对信道容量的量化度量,也被称为带宽。带宽决定了传输效率,有线通信的效率通常是高于无线通信的。无线电波的频率是有限的,因此它们成为了最有价值的资源,需要通过拍卖的方式有偿提供给运营商。了解做事情的边界,在边界内尽可能把事情做好是非常重要的。
22 香农第二定律(一):互联网思维的科学基础
信息论中的重要理论香农第二定律被介绍了。该定律指出,如果信道容量有限,无论如何努力传输信息,传输率都不可能超过信道容量。香农第二定律的结论是数学上严格证明的,但具体原理在这里没有详细讲解。为了便于理解,通过一个例子说明了为什么网页打开速度会受到网络容量的限制。文章还提到了在学习中要根据个体的潜质选择合适的内容,选择适合自己的学校,以及在两个人的关系中要保持三观一致。总之,香农第二定律强调了在有限资源下合理利用的重要性。
23 香农第二定律(二):到底要不要扁平化管理?
本文讨论了信息时代的企业是否需要扁平化管理。文章指出,扁平化管理是指管理层级较少,但这种管理方式在历史上曾导致企业失败,因为中间层级的冗余人员使得企业成本剧增,上下沟通的带宽变得狭窄。然而,随着信息交流的通畅和新的通信手段的出现,扁平化管理的流行是有原因的,它可以提高信息沟通的效率和市场适应性。文章还强调了带宽是由通信双方的互信息决定的,信任是建立带宽的关键。互联网的出现进一步拓宽了带宽,同时也带来了信任的问题。最后,文章提出了思考哪些企业适合扁平化管理和哪些企业必须采用这种管理方式的问题,并暗示下一讲将讨论对待错误的正确态度。
24 纠错码:对待错误的正确态度是什么?
这段对话讲述了信息传输中可能遇到的错误以及解决方法。发言人指出,由于机器处理和传输数据的总量非常大,即使采用正向思维和努力检查线路等方法,错误仍然难以避免。因此,需要通过信息冗余和巧妙的编码来解决错误问题。他提到了海明码和纠错编码的原理,并强调了合理编码的重要性。最后,他总结了不要高估自己的能力和要考虑到不确定性的重要性,并提出了下一讲将讨论加密的问题。
25 信息加密:韦小宝说谎的秘诀
通过介绍金庸小说中的韦小宝说谎的例子,从信息论的角度分析了信息的加密和保护。韦小宝通过说九句真话一句假话的方式,让人们对他产生基本的信任,同时也利用了信息论密码传输中的保密原则。从信息论的角度出发,加密的目的是使敌方无法通过截获密码获得更多的信息。一次性密码是最安全的加密方式,因为重复使用的密码容易被破解。保护隐私的方法包括经常更换密码、将隐私埋在随机噪音中以及明确表述观点,同时避免误导他人。
26 极简通信史:从1G到5G通信,到底经历了什么?
5G是一个热门话题,了解5G的发展历程和技术趋势非常重要。从1G到5G,通信标准不断更新,每一代标准的出现都带来了技术的飞跃。从2G到3G实现了从语音通信到数据通信的转变,从3G到4G实现了移动通信网络和传统电信网络的融合,而5G则将移动互联网和有线互联网融为一体。5G的革命性变化包括基站距离的缩短、单位能耗传递信息的效率提高、各种网络的融合以及光纤通信的需要增加。6G的进步方向值得期待。
27 通信趋势:5G和loT的商机在哪里?
讲述了5G和IOT的商机以及万物互联的概念。每一代移动通信的进步都会带来新的商机,而5G将会带来更大规模的商机。华为和高通无疑是5G时代的赢家,但还会有新的赢家出现。IOT是万物互联的核心,它将所有东西连接在一起,包括人类自己。第一代互联网是计算机和计算机的联网,第二代互联网是移动设备和个人的联网,而万物互联将涉及到大量设备和个人。万物互联将带来巨大的市场规模,预计到2030年将让电信市场扩大一倍。在万物互联时代,控制处理器和操作系统的公司将成为最大的受益者。新的半导体公司和关键性配件公司也将崛起。每一代互联网都有掌握产业链的龙头公司,而在万物互联时代也会有新的公司出现。能量的节约是未来的发展方向。最后,发言人提出了两个问题,让读者思考如何利用IOT提高学习成绩以及如何利用IOT节省时间。
28 第二模块复盘
主要介绍了香农第二定律和信道容量的概念。香农第二定律指出,信息传输的速率不可能超过信道的容量。为了增加信道容量,我们需要选择带话不走样的人,准备多个信道,采用有针对性的方式表达意思,选择适合自己的学校,增加和孩子之间的互信息,在对等条件下进行沟通,以及建立信任和统一的通信协议。这些做法可以增加信息传输的效率和稳定性。同时,文章还提到了互联网思维和5G技术在信息传播中的作用。
第三模块:信息应用
29 交叉验证:电信诈骗为什么能成功?
主要介绍了交叉验证的概念和应用。交叉验证是一种解决信息不确定性的有效方法,通过比较不同维度的信息来确定真实情况。王国维的历史研究方法、投资人的背景调查以及大数据的应用都是利用交叉验证的例子。同时,文中还提到了跨界的意义,通过引入另一个维度的信息来帮助定位答案的范围。
30 等价性:如何从等价信息里找答案?
艾伦坡的故事讲述了如何通过破解密码来获得宝藏,以及密码中出现频率最高的词汇与英语中字母E的高频词相对应。作者提到了信息的等价性和相关性的区别,等价信息可以用来破解谜团,而相关信息只是有用但不具有确定性。他举例说明了通过等价信息可以推导出穿衣服的时间和人类起源的时间。文章还提到了身份认证中等价信息的使用和人类行为中等价信息的存在。最后,作者呼吁读者思考如何利用等价信息来解决问题。
31 大数据(一):从四个特征把握大数据的本质
32 大数据(二):大数据思维的四个层次
介绍了大数据的特点和英文名称Big Data,并探讨了为什么使用“Big”这个词。他解释了Big Data思维是一种全新的思维方式和做事情的方法,强调了大数据思维是一种抽象意义上的大,并且传递了一种信息,即大数据思维方式是一种准确的方法。文章提到,大数据思维的第一层含义是从大量的数据点总结出原来找不到的相关性,第二层含义是通过数据的应用,以逆向的方式找到问题的解决方法。他还用大数据思维来分析了医疗制药方面的应用和一个连续创业者的案例。最后,他提出了大数据思维的四个层次,并邀请读者思考一个关于收集吸烟对比数据去第三世界国家农村的问题。下一讲,他将介绍谷歌如何应用信息来提供更好的广告服务。
33 个性化服务:为什么Google搜索的广告效果好?
发言人介绍了互联网广告的两种形式:谷歌的搜索广告和Facebook的个性化展示广告。他使用信息论的原理来量化计算不同广告形式的效率,并得出搜索广告的效果比个性化展示广告更好。他还讨论了广告主数量、关键词的重要性以及广告系统的选择。他指出,使用用户输入的信息可以提高广告的效果,而个性化服务的效果相对较小。同时,他提到了电商平台上的广告系统,它可以利用用户的购买行为信息来提高广告的效果。最后,他强调了理解信息论原理的重要性,以及将需求直接放到交易环节中可以提高广告的效果。
34 幸存者偏差:如何避免被已知信息误导?
学习一些看似无用的通识课程,如数学和信息论,可以帮助我们透过表象认识问题本质,并提供基准和经验。幸存者偏差是一个重要的概念,可以帮助我们避免被媒体和基金经理误导。通过学习数学和信息论,我们可以更好地理解世界并做出更明智的决策。
35奥克姆剃刀法则:最简单的往往是最有效的
奥卡姆剃刀法则是一个简单但有效的原则,它是由14世纪圣方济各修道士奥卡姆的威廉提出的。这个法则是用信息论解释的,它指出如果有多个理论能够做出同样准确的预测,那么应该选择使用假定最少的理论。这个法则在科学和经济学中都有应用,并且有科学根据。掌握和利用奥卡姆剃刀法则可以帮助减少不必要的信息,提高效率。在实践中,这个法则被不断验证是有效的。最后,毕加索的绘画风格的演变也符合奥卡姆剃刀法则,因为他的绘画方法在表达主观想法上更有效。
36 最大熵原理:模型到底该怎么用?
本片段介绍了最大熵原理及其在信息论中的应用。最大熵原理是一个用于预测随机事件概率分布的原则,它要求预测应当满足已知条件,并不做任何主观假设。最大熵模型是一种基于最大熵原理的概率模型,它具有光滑、准确的特点,能够用于解决涉及不确定性的问题。最大熵模型的应用场景是在获得部分确信信息的情况下,保证模型满足所有经验,并对不确定因素有一个相对准确的估计。最后,文章提到最大熵模型的计算量较大,但随着计算机速度的提升和算法改进,它已被广泛应用于自然语言处理等领域。
37 麦克斯韦妖和测不准原理:为什么要保持系统开放性?
这段对话主要讲述了信息和能量之间的关系,以及热力学第二定律和麦克斯韦的妖精假设。根据热力学第二定律,一个封闭的系统会朝着熵增加的方向发展,变得越来越无序。为了扭转这种局面,需要引入负熵,也就是能量和信息。这可以通过开放系统的方式来实现,使系统与外界进行交换,引入新的思想和资源。举例来说,硅谷地区因其开放的文化和对外界的交流,成为了经济活力的代表。同样地,一个封闭的社会会变得死气沉沉,而一个开放的地区则会有更多的机会和发展潜力。个人也需要引入负熵,通过行万里路、读万卷书等方式来开阔眼界,接受新的信息和经验。总的来说,这段对话强调了信息和能量的相互关联,以及开放系统的重要性。
38 第三模块复盘
是关于信息论的应用和原理的讲解。首先,将现实问题转化为数学问题,然后将数学问题转化为计算机能够处理的问题,这个过程就是将人的自然语言变成计算机程序语言。信息论的应用包括验证信息的方法、利用等价信息获得相应效果、大数据思维的底层逻辑、奥卡姆剃刀法则和最大熵原则等。最后,强调了通识教育的重要性和信息论在管理上的应用。
39 控制论:利用控制论的思维指导我们行动
控制论是一种重要的理论,由诺伯特维纳在二战期间提出。维纳的研究突破了牛顿的绝对时间观,强调时间的连带影响。他认为任何系统都可以通过反馈机制来进行控制和优化,从而实现自我调节。控制论思维与传统的机械思维不同,强调不断调整和适应变化。这种思维方式在阿波罗登月计划中得到了应用,保证了火箭准确着陆。在当今时代,我们应该轻预测重反应,灵活调整策略,像变色龙一样应对环境变化。
40 系统论:让整体效用大于部分之和
系统论是一门新理论,由奥地利生物学家贝塔朗菲于1948年首次提出。系统论适用于各种组织和整个社会,强调了开放系统与封闭系统的区别。系统论的核心观点包括:一个有生命的系统和非生命的系统不同,封闭系统总是朝着熵增加的方向变化,对于复杂系统来说,一旦成为封闭系统,可能变得更糟糕。系统论的思想对我们的启示包括:做到整体大于部分之和,利用系统论改进做事方法,以及保证多个任务的结果是整体的效果大于部分之和。