作者:未知作者 笔记数:86 条
批判性思维,是针对一个信念或所谓的知识,我们对支持它的理由及它引申出来的结论所进行的积极、持久和谨慎的思考。
似然概率P(观测的现象 原因i),不仅可以理解成原因i的情况下观测到该现象的概率,也可以理解成原因i对于观测的现象的“解释力度”。似然概率越大,说明该原因对于该观测现象解释得越好。
所以,“飞机遇见气流”产生“剧烈颠簸”的概率,比前者要低很多。换句话说,“飞机失事”能够更好地解释“剧烈颠簸”这一现象。
所以按照最大似然估计的思想,只要发现检查结果为阳性,那一定是“得病”的概率更高。
然而,你有没有想过,在上面小节中的几个例子,用最大似然估计得到的结论,很可能都是错的呢?
先验差异
用最大似然估计来思考问题,容易忽略一个隐藏很深的因素,这个因素就是:不同原因发生的概率是不同的。
如果某个医生或者检查仪器告诉你患了一种很罕见的疾病,那么你应该做的,就是换一家医院重新检查一次,而不是让自己立刻陷入恐慌,因为这更有可能是一次误诊。
抽象成数学问题,可以更好地看清楚用最大似然估计做信息推断与用贝叶斯定理做信息推断的区别。
信息推断,是观测到某个现象之后,找到该现象背后最有可能的原因。
第一步,对于每个可能的原因,找到“在观测到该现象之后,某个原因的概率”;第二步,挑选出概率最大的原因。
信息推断的本质是比较不同原因下,条件概率的相对大小
信息推断将对应的条件概率P(原因i 观测的现象)作为概率最大的原因;而最大似然估计,则是将P(观测的现象 原因i)作为概率最大的原因
P(原因i 观测的现象)这个概率,被称为后验概率(posterior probability)。后验概率中的“后”,就是看到观测/证据以后,再判断该原因的概率的含义。
第一项P(原因i),是我们在看到现象/观测之前,我们对于原因i本身成立的概率的评估,这个通常称为先验概率(prior probability)
的现象 原因i),是在原因i情况下能够观测到该现象的概率,这就是我们在介绍最大似然估计中提到的似然概率。这个似然概率,也是我们在前面提到的“解释力”。
第二,我们来看看最大似然估计的问题。最大似然估计选择的是似然概率最大的原因,也就是解释力最强的原因,因此,最大似然估计只考虑了解释力,而没有考虑不同原因本身的概率。
最大似然估计有一个假设:不同原因的先验概率是相同的。
后验概率就是在先验概率上的调整,调整的比例就是“标准化的似然概率”。
[插图]
贝叶斯定理中包括三个概率:后验概率、先验概率和似然概率。后验概率是我们最终想要知道的,也是我们选择最后原因的依据;先验概率是原因本身的概率;似然概率反映了该原因解释观测的好坏程度。
More things should not be used than are necessary)
奥卡姆剃刀“如非必需,勿增实体”的本质就是,如果多个原因都可以很好地解释某个观测的现象的话,我们应该选择那个最简单的原因。
我们应该在所有可以解释观测的现象的原因中,选择那个先验概率最大的。所以我们可以说,奥卡姆剃刀是贝叶斯定理的一种特殊情况。
“能用愚蠢解释的,就不要解释为恶意”(Never attribute to malice that which is adequately explained by stupidity)。
能解释为愚蠢的,就不要解释为恶意。● 能解释为无知的,就不要解释为愚蠢。● 能解释为可原谅的错误的,就不要解释为无知。● 能用你未知的其他原因解释的,就不要解释为错误。● 能用一群人在复杂系统中的互动解释的,就不要解释为恶意或者愚蠢。● 能解释为情绪的,就不要解释为策略。
这说白了有点扎心:你和其他人并没有什么不同。
外部视角,就是贝叶斯定理中的先验概率
从这个角度来说,如果想贬低一个人,光找到他做得不好的地方往往不够,还需要抬高另外一个人,也就是树立一个榜样。
信息量大的观测,都具有“排他性”:只有一个原因能解释,其他完全不能解释。这种具有排他性的观测,就是信息量大的证据。
拿到这个观测前后,我们对H的认知没有发生任何变化,那么这个观测一定没有信息量。
某个观测的信息量,和它改变先验概率的大小有关。调整幅度越大,那么这个信息量就越大
见多识广
看,要论神鬼莫测之机,我这台笔记本一点儿不输给《易经》啊!
事件A和事件B关于事件C条件独立
事件A和事件B关于事件C条件独立
如果事件A和B关于事件C条件独立,那么在已知C发生的条件下,B是否发生这个信息,不能够帮助我们更好地推断出A发生的概率。
很多事情统计意义上是相关的,但实则是关于某个隐藏变量条件独立的。
了一件奇怪的事情。他发现,如果当天买的是香草味冰激凌,那么买完返回车子后,车子就打不着火;而如果买其他口味的,就不存在这个问题。
经过仔细分析,工程师发现区别在于购买不同口味的冰激凌所花的时间不同。因为
停车时间的长短,而非冰激凌的口味,是产生这一“问题”的真正原因。
穿夹克”和“车祸”关于“下雨”条件独立
图5.3 “穿夹克”和“车祸”关于“下雨”条件独立
情绪ABC理论认为,我们不应该试图通过改变激发事件来改变最后的结果,因为很多激发事件是我们无法控制的,我们应该通过改变自己对某件事情的信念来改变结果。
情绪ABC
古罗马最著名的斯多葛学派哲学家之一爱比克泰德(Epictetus)说过一句话:“人并不是被事物本身所影响,而是被他们自己对事物的看法所左右
如果两个事件同时发生的概率P(A, B),等于各自单独发生概率的乘积P (A)×P (B),那么这两个事件就是独立的
在现实生活中,完全独立的事件极其罕见,大部分的事件之间都是条件独立的。我们来举个例子。
因为有很多背后的因素,会同时影响你和张阿姨是否出去散步。例如,天气不好,那么你们两个都不会出去散步。这就意味着,你们两个出去散步这两个事件,在统计意义上是相关的,并不是独立的
你和张阿姨出去散步这两个事件,是关于天气条件独立的
[插图]
条件独立是关于三个事件的概率关系:如果事件A和事件B关于事件C条件独立,那么我们一旦知道C发生了,那么A或者B中任意一个的信息,不能够帮助我们更好地推断出另外一个发生的概率。
当只有一个人外出散步时,晴天的概率为81.82%;如果两个人都外出散步,那么晴天的概率提高到99.55%。这也非常符合我们的认知:两个人都出去了,天气没有下雨的概率很大。
幸存者偏差(survivorship bias)
幸运数字实际上是有偏采样带来的结果:当幸运数字出现时你立刻记住了,而幸运数字之外的数字出现时,你却选择性地遗忘了。
墨菲定律:如果一件事情可能会变坏,那么真的会变坏
刻意收集反对自己观点的证据
非常有意思的是,如果你收集到了那些反对自己观点的证据,结果又被证明可以用自己的观点来解释,那这个证据就会变成更强有力的证据来支持你的观点
而“盲维”指的是人对某一个维度缺乏意识和感知,而漏掉某一个维度的证据。
人的认知,一旦建立了一个维度,他就会吸附大量证据来证明这个维度的正确性,你就很有可能漏掉其他维度的信息,这就产生了“盲维”。
稽古者,当论其世;论人者,勿求其全
稽古者,当论其世;论人者,勿求其全
用历史积累的所有观测来计算后验概率
来一个新的观测,用该观测更新上一次的后验概率
首先,“先验概率”和“后验概率”都是相对于某个具体时间点而言的。同一个概率,对于某个时间点是先验概率,但对另外一个时间点又可能是后验概率。
原始贝叶斯定理中的先验概率P (H),表面上不基于任何观测,但实际上是基于历史上所有观测的,即
换句话说,当前的先验概率,实际上是历史的后验概率。或者说,先验概率是对所有历史积累信息的沉淀和总结。
Minimum Viable Product
完成比完美更重要”(Done is better than perfect)。
观点要基于新证据不断调整
第一,不要固执己见,要允许用新的证据来调整你之前的认知。这就是“成长型思维”的一个典型特点,也是孔子所说“毋意、毋必、毋固、毋我”中的“毋固”。
依据新的证据不断调整理论,这就是科学的精髓,也是为什么科学能够稳步前进的底层原因。
分组的原则用一句话就可以说清楚,即“统计容易找,观测信息大”。
假设现在有5种可能的疾病,H1,…,H5;假设拿到手里的观测是集合[插图],如果用原始的贝叶斯定理来计算,我们需要计算5个后验概率,P (H1 [插图]),…,P (H5 [插图]),并且从中间挑一个后验概率最高的
多分类变二分类
而医生是分别针对某种疾病来判断的。每种疾病,只需要判断“是”还是“否”,这是一个“二选一”的问题。例如,针对H1,医生实际上把H1,…,H5划分成了两个集合,即H1和[插图],其中后者为[插图]={H2,H3,H4,H5}
越令人震惊的观点,就越需要强有力的证据来支持。
证据就需要有较强的排他性:只能用文章的观点来解释,而很难用其他观点来解释
新闻学法宝
证据不可信、证据不量化、用个例代替统计
按照热度推荐 按照用户偏好推荐
从被动灌输到主动学习。
阴谋论者: 用的是极大似然估计,而不是贝叶斯估计
阴谋论的一个最大问题,就是似然概率完美,但是先验概率太低
用贝叶斯思想来建立自己的世界观,就是努力先建立基本正确的世界观,并且用公正的观点来接纳新证据和新观点,用科学的方法检验它们的真伪,然后用迭代的方式来升级你原有的认知
真正的英雄,是那些能看透这个世界,但仍然无限热爱它的人。