当前位置:首页 > 数据挖掘 > 正文

数据挖掘6个基本流程

1、数据挖掘的基本流程是什么数据挖掘有很多种不同的实现方法,如果只是将数据拉入Excel电子表格并进行计算,那只是数据分析,而不是数据挖掘。 本节主要讲解数据挖掘标准化的基本流程。 CRISP-DM和SEMMA是两种常用的数据挖掘过程。
考虑到数据本身,数据挖掘通常需要八个步骤:信息收集、数据集成、数据规范、数据清理、数据转换、数据挖掘实施过程、模式评估和知识表示。
步骤(1)信息收集:根据具体的数据分析对象,抽象出数据分析所需的特征信息,然后选择合适的信息收集方式,并将收集到的信息存储到数据库中。 对于海量的数据,选择合适的数据仓库进行数据存储和管理至关重要。
步骤(2)数据集成:集成不同来源、格式和属性的逻辑或物理数据,为企业提供全面的数据共享。
步骤(3)数据缩减:如果执行大多数数据挖掘算法,即使是少量数据,也会花费很长时间,而在进行商业运营的数据挖掘时,数据量往往非常大。 利用数据约简技术可以实现数据集的约简表示,数据集小得多但仍接近保持原始数据的完整性,约简后的数据挖掘结果与之前相同或几乎相。 减少。
步骤(4)数据清洗:数据库中的某些数据不完整(某些感兴趣的属性缺少属性值)、有噪声(包含错误的属性值)和不一致(相应地,信息以不同的方式表示),因此需要进行数据清洗,以在数据仓库中保存完整、正确、一致的数据信息。 否则,挖掘的结果将不理想。
步骤(5)数据转换:通过平滑聚合、数据泛化、标准化等将数据转换成适合数据挖掘的形式。 对于一些真实数据,通过概念分层和数据离散化对数据进行转换也是一个重要的方法步。
步骤(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具并使用统计方法、案例推理、决策树、规则推理、模糊集甚至神经网络和遗传算法的过程信息以获得有用的分析信息。
步骤(7)模式评估:从业务角度,由行业专家验证数据挖掘结果的正确性。
步骤(8)知识表示:将数据挖掘获得的分析信息以可视化的方式呈现给用户,或者将其作为新知识存储在知识库中以供其他应用程序使用。
数据挖掘的过程是一个迭代的过程,如果每一步都没有达到预期的目标,就需要回到上一步,调整并执行。 并非所有数据恢复作业都需要此处列出的每个步骤。 例如,当特定作业中不存在多个数据源时,可以省略步骤(2)。
步骤(3)数据缩减、步骤(4)数据清洗和步骤(5)数据转换统称为数据预处理。 在数据挖掘中,至少60%的成本可以花费在步骤(1)信息收集阶段,并且至少60%的精力和时间花费在数据预处理过程。