贝叶斯学派与频率学派有何不同?

关注者
8,199
被浏览
1,056,401

126 个回答

简单地说,频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。举例而言,想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。

然而,贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下,观察者又试图通过已经观察到的「证据」来推断这一事件的结果,因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。

总的来说,贝叶斯概率论为人的知识(knowledge)建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程,贝叶斯概率论假设观察者对某事件处于某个知识状态中(例如:小明先验地相信一枚硬币是均匀的,可能是出于认为均匀硬币最常见这种信念),之后观察者开始新的观测或实验(小明开始不断地抛硬币,发现抛了100次后,居然只有20次是正面朝上)。经过中间的独立重复试验,观察者获得了一些新的观测结果,这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念(小明开始怀疑这枚硬币究竟是不是均匀的,甚至开始断定硬币并不均匀)。在这一过程中,观察者无法用简单的逻辑来推断,因为观察者并没有完全的信息作为证据,因此只能采用似真推断(plausible reasoning),对于各种各样可能的结果赋予一个「合理性」(plausibility)。例子中,小明原先认为硬币的分布是均匀的,于是根据小明原有的信念,这个论断合理性非常高;在观察到100次抛掷中只有20次正面朝上后,小明开始怀疑硬币的均匀性,此时小明很可能认为「硬币不均匀」这一推断的合理性很高,支持的证据就是他刚刚实验的观测结果。

上面的例子用贝叶斯概率论的语言来描述,就是观察者持有某个前置信念(prior

belief),通过观测获得统计证据(evidence),通过满足一定条件的逻辑一致推断得出的关于该陈述的「合理性」,从而得出后置信念(posterior belief)来最好的表征观测后的知识状态(state of knowledge)。这里,贝叶斯概率推断所试图解决的核心问题就是如何构建一个满足一定条件的逻辑体系赋予特定论断一个实数所表征的论断合理性的度量(measure of plausibility),从而可以允许观测者在不完全信息的状态下进行推断。这里,观察者对某变量的信念或知识状态就是频率学派所说的「概率分布」,也就是说,观察者的知识状态就是对被观察变量取各种值所赋予的「合理性」的分布。

从这个意义上来讲,贝叶斯概率论试图构建的是知识状态的表征,而不是客观世界的表征。因此,在机器学习、统计推断中,许多情况下贝叶斯概率推断更能解决观察者推断的问题,而绕开了关于事件本体的讨论,因为没有讨论本体的必要性。

参考:《概率论沉思录》

// 补充(从对其他回答的评论中转移过来):

贝叶斯概率仍然只是一个实数,而概率分布是推断者根据自己的知识状态赋予参数在某集合内取各个值的可信度,因此概率分布表征了推断者的知识状态。

例如:一个硬币可能取正面或反面,某推断者的知识状态是对于「下一次会得到正面」赋予1/3的可信度(概率),「下一次得到反面」赋予2/3的可信度(概率),总的这个知识状态才是表证这个推断者的概率分布,这边是一个先验分布(可能来源于对这枚硬币的事先了解),随着他一直投掷硬币作实验,这位观测者会不断更新自己的知识状态,一个后验分布(另一组更新后的对正反面的看法,即赋予的可信度)来最好地表征推断者的最新的知识状态。

因此,贝叶斯概率和分布仍然是两个不同的概念,只是设定概念的动机不同。

第一名答案的例子其实并不对。贝叶斯学派和频率学派的最大区别并不在于信息的利用和整合上。虽然贝叶斯方法可以用先验分布来引入以往的信息,但是频率学派也有方法来整合各种domain knowledge,比如在最优化likelihood的时候加入各种constrain。以麻将为例,频率学派的人同样可以把每个人的信息加入的模型中进而找出最有策略,这也是“统计决策”(Statistical decision theory)领域里早期大牛们的做法(虽然他们的定理证明了所有可能的决策选择中最佳的决策就是贝叶斯后验的Mode)。从这个意义上来说两者其实差别并不大。

频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上。所谓参数空间,就是你关心的那个参数可能的取值范围。频率学派(其实就是当年的Fisher)并不关心参数空间的所有细节,他们相信数据都是在这个空间里的”某个“参数值下产生的(虽然你不知道那个值是啥),所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。于是就有了最大似然(maximum likelihood)以及置信区间(confidence interval)这样的东西,你从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数。而贝叶斯学派恰恰相反,他们关心参数空间里的每一个值,因为他们觉得我们又没有上帝视角,怎么可能知道哪个值是真的呢?所以参数空间里的每个值都有可能是真实模型使用的值,区别只是概率不同而已。于是他们才会引入先验分布(prior distribution)和后验分布(posterior distribution)这样的概念来设法找出参数空间上的每个值的概率。最好诠释这种差别的例子就是想象如果你的后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。

如果从概率的角度看,贝叶斯学派的想法其实更为自然,这也是为什么贝叶斯学派的产生远早于频率学派(去年是贝叶斯250周年)。但是贝叶斯方法本身有很多问题,比如当先验选的不好或者模型不好的时候你后验分布的具体形式可能都写不出来,跟别说做统计推断了。在当年电子计算机还没发展出来的时候,对这些情况做分析几乎是不可能的,这也就大大限制了贝叶斯方法的发展。而频率学派主要使用最优化的方法,在很多时候处理起来要方便很多。所以在频率学派产生后就快速地占领了整个统计领域。直到上世纪90年代依靠电子计算机的迅速发展,以及抽样算法的进步(Metropolis-hastings, Gibbs sampling)使得对于任何模型任何先验分布都可以有效地求出后验分布,贝叶斯学派才重新回到人们的视线当中。就现在而言,贝叶斯学派日益受到重视当然是有诸多原因的,所以这并不意味这频率学派就不好或者不对。两个学派除了在参数空间的认知上有区别以外,方法论上都是互相借鉴也可以相互转化的。当代学术领域批评的最多的仅仅是频率学派里的Hypothesis testing的问题,尤其是对于p-value的误用造成了很多问题,最近有一个心理学杂志BASP也已经禁用了Hypothesis testing (

Psychology journal bans P values : Nature News & Comment

)。 不过这只是Hypothesis testing这种研究方法本身的问题(testing是Fisher自己脑补出来的方法,confidence interval是Neyman提出来相对应的方法)。对应于Hypothesis testing,贝叶斯学派有自己的一套方法称为

Bayes factor

。虽然Bayes factor本身比p-value要合理很多(个人见解),但是我并不觉得单靠Bayes factor的方法就可以有效解决当下p-value滥用导致的问题,因为Bayes factor同样可以导致

Multiple comparisons problem

最后说说

Fiducial inference

这个东西。Fisher本人是hard-core frequentist,大肆批判贝叶斯方法。但是他提出的这个东西本质上是变着花样的贝叶斯理论。所以说Fisher其实是个大傲娇233