当前位置:首页 > 数据挖掘 > 正文

数据挖掘是怎样进行的

1、理解数据和数据的来源(understanding)。 2、获取相关知识与技术(acquisition)。 3、整合与检查数据(integration and checking)。 4、去除错误或不一致的数据(data cleaning)。 5、建立模型和假设(model and hypothesis development)。 6、实际数据挖掘工作(data mining)。

数据的一致性,比如不同来源的不同指标,实际的内涵与表示意义是一样的 数据清洗的结果是对各种脏数据进行对应标准的干净的、连续的数据,提供给数据统计、数据挖掘等使用。

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 定义问题清晰地定义出业务问题,确定数据挖掘的目的。

从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。 理解数据收集初步的数据,进行各种熟悉数据的活动。 包括数据描述,数据探索和数据质量验证等。 准备数据将最初的原始数据构造成最终适合建模工具处理的数据集。 包括表、记录和属性的选择,数据转换和数据清理等。