Skip to content

贝叶斯派在AI中更接近"本质"——比如神经网络的随机初始化权重、正则化项对参数大小的偏好、或者预训练模型学到的通用知识——然后通过观察数据(似然)来修正这个假设,最终得到更新后的"信念"(后验),也就是训练好的模型。正则化是在编码先验,过拟合是先验太弱,迁移学习是利用强先验,模型架构本身就隐含了对问题的先验假设。所以监督学习、深度学习、强化学习本质上都在做同一件事:用数据更新对世界的认知,这正是贝叶斯定理 P(模型|数据) ∝ P(数据|模型) × P(模型) 描述的过程——哪怕实践中我们用的是最大似然、梯度下降等频率派工具,底层的认知逻辑仍是贝叶斯式的。

视频里面有句说得好,概率是对无知和无能的度量。

  • 扔一对骰子,扔到想要的点数的概率是1/36,但对于熟练的老千来讲概率几乎是100%。
  • 打一颗台球,斯诺克长台五分点灌进的概率是1/5,但对于奥沙利文来讲几乎是100%
  • 查学生名字,陌生人查询到的概率是1‰,但他妈查到的概率一定是100%。

初学者往往误以为频率派和贝叶斯派是两种计算概率的方法。而实际上是对“概率”的两种定义

当实验次数趋向于无穷大时,频率派和贝叶斯派得出的概率值是一样的。

当实验次数是有限次时,频率派和贝叶斯派得出的概率值很可能是不一样的。此时不存在说哪个对了哪个错了,哪个准确哪个不准确。

现实世界都是有限的。宇宙的时间空间都是有限的,不可能做无限的实验。所以“唯一的、正确的、准确的概率”根本不存在。所有的概率,都只是为了研究“可能性的大小”建立的数学模型而已。频率派和贝叶斯派就是两种不同的模型给出的预测参考值而已。现实世界中的概率(例如数据科学)全都粗糙的可怕,大部分实验的次数都少的惊人(如地震、战争、股灾等等)。实践中你只要知道20%比5%大就可以了。至于是5.3%还是5.5%,大部分情况下没有任何区别。

小样本 贝叶斯,大样式频率论。

前人的工作就是先验知识 后人来接手工作,那他一定是贝叶斯的,除非有充分证据,证明前人的工作完全方向错误。

学统计的时候我很难理解贝叶斯概率,为什么客观事实不变,只是你的认知发生了改变,概率就发生了改变,简直是意识决定物质。但看这个视频中间今天会不会下雨这个例子突然有点理解,因为事件之间的关联性,某些事情是伴随发生的,所以一件事的发生会证明另一件事大概率会发生,这可比猜大奖在哪个门后面的概率学问题好理解多了。 另外,《思考快与慢》介绍,人类的大脑是贝叶斯学派的而不是频率派的,所以人会锲而不舍贴标签,会按刻板印象识人,这就是先验概率。因为这节省能量,你不必大量收集信息就能早早得到判断,只需要在后续接触中不断更新印象就好了。