当前位置:首页 > 数据挖掘 > 正文

数据挖掘算法讲解

4、最近邻算法——KNN KNN即最近邻算法,其主要过程为:计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);对上面所有的距离值进行排序;选前k个最小距离的样本;根据这k个样本的标签进行投票,得到最后的分类类别;如何选择一个最佳的K值,这取决于数据。

1. 朴素贝叶斯算法(Naive Bayes, NB)以其简洁性著称,类似于进行基础的计数任务。 在满足条件独立性假设的前提下,NB能够迅速收敛,尤其适用于训练数据有限的情况。 在半监督学习环境中,或者当需要平衡模型复杂度与性能时,NB是一个不错的选择。