朴素贝叶斯是基于贝叶斯公式和属性条件独立假设的一种分类方式。它是一种“生成式模型”,先通过样本估计先验概率,然后用它来求出后验概率。

      要理解朴素贝叶斯,首先需要理解贝叶斯公式,而贝叶斯公式可以通过乘法公式和全概率公式推导出来(如下所示)。

naiveBayes0

      接下来我们借用上述贝叶斯公式来分析一个有关数据集D的k分类问题(如下所示)。

naiveBayes1

      对于该问题,我们根据贝叶斯公式得出一个贝叶斯分类器,它最终目的是根据测试集中的属性(x1,x2,…,xn),判断出该组属性最有可能的分类y。P(yi)的概率可通过数据集D中y出现的频率近似估计出来。而对于不同的y=yi,上述公式中P(x1,x2,…,xn)是相同的,则可以无需计算P(x1,x2,…,xn)。

      接下来需要计算P(x1,x2,…,xn|yi),但联合概率很难求出来。为了简化这一问题,我们假设属性条件独立,这样P(x1,x2,…,xn|yi)就可以通过如下公式计算出来,而其中的P(xj|yi)可通过数据集D中的数据估计出来。也是因为这个假设,该方法得名为naive Bayes。

naiveBayes2

      另外需要注意的是,在估计P(xj|yi)时,若属性xj为离散值,可通过出现频率来估计;但若为连续值,则可通过假设其服从某一分布,然后通过计算其概率密度函数来估计。


参考文档:

       1. 概率论与数理统计(第四版)       盛骤 等著

       2. 机器学习                                       周志华 著

       3. 统计学习方法                               李航 著