当前位置:首页 > 数据挖掘 > 正文

数据挖掘四个基本算法

1、 4、最近邻算法——KNN KNN即最近邻算法,其主要过程为:计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);对上面所有的距离值进行排序;选前k个最小距离的样本;根据这k个样本的标签进行投票,得到最后的分类类别;如何选择一个最佳的K值,这取决于数据。

2、 聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。 根据定义可以把其分为四类:基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。 常用的经典聚类方法有K-mean,K-medoids,ISODATA等。

3、 数据挖掘算法主要包括以下几种:1. 分类算法:如决策树、随机森林、支持向量机(SVM)等。 这些算法可以用于预测类别型数据。 2. 聚类算法:如K-means、层次聚类、DBSCAN等。 这些算法用于将数据分组,使得相似的数据点聚集在一起。