贝叶斯推断的原理和应用

原理说明

朴素贝叶斯分类器（Naive Bayes classifier），它是一种简单有效的常用分类算法。

条件概率

贝叶斯定理实际上就是计算”条件概率”的公式。所谓”条件概率”（Conditional probability），就是指在事件B发生的情况下，事件A发生的概率，用P(A|B)来表示。

对条件概率公式进行变形，可以得到如下形式：
P(A|B)=P(A)*P(B|A)/P(B)

我们把P(A)称为”先验概率”（Prior probability），即在B事件发生之前，我们对A事件概率的一个判断。P(A|B)称为”后验概率”（Posterior probability），即在B事件发生之后，我们对A事件概率的重新评估。P(B|A)/P(B)称为”可能性函数”（Likelyhood），这是一个调整因子，使得预估概率更接近真实概率。
所以，条件概率可以理解成下面的式子：
　　后验概率　＝　先验概率ｘ调整因子
这就是贝叶斯推断的含义。我们先预估一个”先验概率”，然后加入实验结果，看这个实验到底是增强还是削弱了”先验概率”，由此得到更接近事实的”后验概率”。
在这里，如果”可能性函数”P(B|A)/P(B)>1，意味着”先验概率”被增强，事件A的发生的可能性变大；如果”可能性函数”=1，意味着B事件无助于判断事件A的可能性；如果”可能性函数”<1，意味着”先验概率”被削弱，事件A的可能性变小。

全概率公式

由于后面要用到，所以除了条件概率以外，这里还要推导全概率公式。
假定样本空间S，是两个事件A与A’的和。
P(B)=P(B∩A)+ P(B∩A`)
我们已知
P(B∩A) = P(B|A)P(A)
所以，
P(B) = P(B|A)P(A) + P(B|A’) P(A’)
这就是全概率公式。它的含义是，如果A和A’构成样本空间的一个划分，那么事件B的概率，就等于A和A’的概率分别乘以B对这两个事件的条件概率之和。
将这个公式代入上一节的条件概率公式，就得到了条件概率的另一种写法：

过滤垃圾邮件

贝叶斯推断及其互联网应用（二）：过滤垃圾邮件

选出这封信中P(S|W)最高的15个词，计算它们的联合概率。（【注释】如果有的词是第一次出现，无法计算P(S|W)，Paul Graham就假定这个值等于0.4。因为垃圾邮件用的往往都是某些固定的词语，所以如果你从来没见过某个词，它多半是一个正常的词。）
所谓联合概率，就是指在多个事件发生的情况下，另一个事件发生概率有多大。比如，已知W1和W2是两个不同的词语，它们都出现在某封电子邮件之中，那么这封邮件是垃圾邮件的概率，就是联合概率。

拼写检查

贝叶斯推断及其互联网应用（三）：拼写检查