当前位置：首页 > 数据挖掘 > 正文

数据挖掘十大算法pdf

数据挖掘
2012-12-07 10:51:25
3608

本文目录一览

⑴数据挖掘十大经典算法之朴素贝叶斯
⑵数据挖掘算法有哪些
⑶、常用的数据挖掘算法有哪几类？

⑴数据挖掘十大经典算法之朴素贝叶斯SIMPLEBayes是一种简单但功能强大的预测建模算法。它被称为朴素贝叶斯，因为它假设每个输入变量是独立的。 **这是一个非常粗略的假设，在现实生活中并不完全满足，但这项技术对于最复杂的问题仍然非常有效。贝叶斯原理、贝叶斯分类和简单贝叶斯之间存在差异。
原则是一个重要的概念。它解决了概率论中的“逆概率”问题。分类器，也是最简单、最常用的分类器。朴素贝叶斯是盲目的，因为他假设属性是相互独立的，所以在现实中他有一些局限性。 **但幸运的是，大多数情况下，朴素贝叶斯的班级表现都不错。
朴素贝叶斯分类器基于准确的自然概率模型，可以在监督学习模型中取得最佳的分类结果。在许多应用中，朴素贝叶斯模型参数估计使用最大似然估计方法。换句话说，朴素贝叶斯模型可以在没有贝叶斯概率或任何贝叶斯模型的情况下运行。
朴素贝叶斯分类常用于文本分类，特别是对于英语这样的语言，分类性能非常好。它通常用于过滤垃圾文本、观点、预测、推荐等。
1.在传统概率论中，先验概率可以通过大量重复实验，通过各种样本的结果频率来近似获得。在被称为“贝叶斯主义”的统计数学学派中，他们相信时间是一的，许多事件的结果不能凭信心重复。
2.先前存在的各种概率。当获得更多关于样本特征的信息时，可以根据贝叶斯公式修改先验概率，得到后验概率，提高分类决策的准确性和置信度。
3.例如，羽毛值就不能。
第一阶段：准备阶段
在这个阶段需要定义特征属性并明确预测值是什么。对每个属性进行适当划分，然后手动对一部分数据进行索引，形成样本。
第二阶段：训练阶段
该阶段是生成分类器。主要任务是计算体育运动中各个类别出现的频率以及各个特征属性的分类。
第三阶段：应用阶段
该阶段使用分类器来引用新数据。
优点：
(1)朴素贝叶斯模型源于经典数学理论，效率稳定。
(2)在小数据上表现良好，可以处理多种分类功能，适合增量训练。
(3)对缺失数据不太敏感，算法比较简单，常用于文本分类。缺点
缺点：
(1)理论上，海湾国家模型相比其他分类方法具有最低的错误率。但实际上，这种情况并不总是发生。这是因为简单贝叶斯模型假设属性是相互独立的，当给定输出类别比较大或者属性之间的关系很大时，划分效果不好。当相关性较小时，朴素贝叶斯表现最好。为此，有一些算法，例如半平方海湾，通过考虑部分相关性来进行适度改进。
(2)首先要知道概率，而先验概率往往取决于假设。分子的例子可能有多个，所以有时会是由前一个分子引起的。
(3)当我们通过先验和数据确定后验概率和分类时，分类决策存在一定的错误率。
(4)对输入数据的表达形式非常敏感。
参考：
http://blog.csdn.net/qiu_zhi_liao/post/details/90671932
http://blog.csdn.net/u011067360/post/details/24368085