朴素贝叶斯基本框架,c类别,A特征
朴素贝叶斯分类器:
比较流行的朴素贝叶斯分类器有:
高斯朴素贝叶斯(Gaussian naive Bayes):适用于多个类型变量,假设特征符合高斯分布。
多项式朴素贝叶斯(Multinomial naive Bayes):用于离散计数,如一个句子中某个词语重复出现,我们视它们每个都是独立的,所以统计多次,概率指数上出现了次方。
伯努利朴素贝叶斯(Bernoulli naive Bayes):如果特征向量是二进制(即0和1),那这个模型是非常有用的。不同于多项式,伯努利把出现多次的词语视为只出现一次,更加简单方便。
可以根据特定数据集选取上述3个分类器中的合适者。
算法优点:
1)既简单又快速,预测表现良好。
2)如果变量独立这个条件成立,相比Logistic回归等其他分类方法,朴素贝叶斯分类器性能更优,且只需少量训练数据。
3)相较于数值变量,朴素贝叶斯分类器在多个分类变量的情况下表现更好。若是数值变量,需要正态分布假设。
4)对缺失数据不太敏感,算法也比较简单。
算法缺点:
1) 如果分类变量的类别(测试数据集)没有在训练数据集总被观察到,那这个模型会分配一个0概率给它,同时也会无法进行预测。这通常被称为“零频率”。为了解决这个问题,可以使用平滑技术,拉普拉斯估计是其中最基础的技术。
2) 朴素贝叶斯也被称为bad estimator,所以它的概率输出predict_proba不应被太认真对待。
3) 删除重复出现的高度相关的特征,可能会丢失频率信息,影响效果。
4) 朴素贝叶斯的另一个限制是独立预测的假设。在现实生活中,这几乎是不可能的,各变量间或多或少都会存在相互影响。
主要应用:
1) 实时预测:运用朴素贝叶斯进行很快地实时预测。
2) 多类预测:这个算法以多类别预测功能闻名,因此可以用来预测多类目标变量的概率。
3) 文本分类/垃圾邮件过滤/情感分析:相比较其他算法,朴素贝叶斯的应用主要集中在文本分类(变量类型多,且更独立),具有较高的成功率。因此被广泛应用于垃圾邮件过滤(识别垃圾邮件)和情感分析(分辨积极情绪和消极情绪的用户)。
4) 推荐系统:朴素贝叶斯分类器和协同过滤结合使用可以过滤出用户想看到的和不想看到的东西。
结语:
朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。朴素贝叶斯在有些领域很有用,比如文本分类、垃圾邮件过滤、情感分析等;朴素贝叶斯原理和实现都比较简单,学习和预测的效率都很高,是一种经典而常用的分类算法。在人工智能领域,朴素贝叶斯方法是一种十分有代表性的不确定性知识表示和推理方法。