当前位置:首页 > 数据挖掘 > 正文

数据挖掘流程6个步骤(数据挖掘的基本过程和步骤)

本文目录一览

1、数据挖掘标准作业流程,主要分为哪几个步骤

数据挖掘建模的过程也称为跨行业标准作系统挖掘。 威胁数据主要分为业务定义、数据理解、数据预处理、模型建立和实现六个步骤。 每个步骤都有描述。 如下:

1.定义业务成果。 数据挖掘的核心价值主要在于商业交易。 所以,在台上,一定要了解深层次的问题和组织。 经过与组织的不断讨论和确认,制定详细的、推演的解决方案。

2.理解数据,定义所需数据,收集完整数据并对收集到的数据进行初步分析,包括识别质量特征、进行基本观察、去除噪音或不完整数据。 数据可以提高数据预处理和建立假设的效率。

3.数据预处理,由于来源不同,经常会出现格式不一致等问题。 因此,在建立模型之前必须进行多次检查和修正,以使数据完整和纯化。

4.建立模型,根据数据选择最合适的挖掘技术,并使用不同的数据来测试模型的预测模型,以优化模型。 和推荐。 为了做出正确的决定,做出决定更有用。

5.理解并理解实验中获得的结果仅具有描述性意义。 在实际应用中,使用不同数据的精度会有所不同:因此,这一步的主要目的是了解业务交易中是否存在未考虑到的盲目问题。 6.实施时,数据挖掘过程经历一个像样的循环,最后将集成模型应用到任务中,但模型的完成并不意味着整个项目的完成。 还通过组织和自动化等工具获得:应用预测,这个阶段是部署计划、监控、维护、继承和最终结果报告,形成整个工作周期。


2、数据挖掘的过程包括

数据提取过程包括以下输入:

1.定义问题

开始知识发现之前的首要也是最重要的事情是理解数据和业务问题。 你必须对你的目标有一个清晰明确的定义,也就是决定你要做什么。 例如,当您想要提高电子邮件使用率时,您可能想要“提高用户的使用率”,或者您可能想要“提高用户的使用价值”。 为解决这两个问题而设计的模型几乎完全不同。 ,必须做出决定。

2.创建数据挖掘库

建立数据挖掘库涉及以下步骤:数据采集、数据描述、选择、数据质量评估、数据清洗、数据合并集成、构建元数据、加载数据数据挖掘库并维护数据挖掘库。

3.分析数据

分析的目标是找到对预测生产影响最大的数据字段,并决定是否定义导出字段。 如果数据集包含数百或数千个字段,那么浏览和分析数据将是一项耗时且乏味的任务。 在这种情况下,您应该选择一个界面良好、功能强大的软件工具来帮助您执行这些任务。

4.准备数据

这是构建模型之前准备数据的最后一步。 该步骤可分为四个部分:选择变量、选择数据、创建新变量、转换变量。

5.构建模型

构建模型是一个迭代过程。 应仔细检查不同的模型,以确定哪种模型于当前的业务问题最有用。 首先使用部分数据构建模型,然后使用剩余数据测试和验证生成的模型。 有时还有第三组数据,称为验证集,因为测试集可能会受到模型特性的影响,需要一组独立的数据来验证模型的准确性。

训练和测试数据挖掘模型需要将数据至少分成两部分,一部分用于模型训练,另一部分用于模型测试。

6.评估模型

模型创建后,需要评估获得的结果并解释模型的价值。 从测试集中获得的准确性仅对用于构建模型的数据有意义。

在实际应用中,需要进一步了解错误的类型以及由此带来的相应成本。 经验表明,有效的模型不一定是准确的模型。 造成这种情况的直接原因是模型构建中隐含的不同假设,因此在现实世界中直接测试模型非常重要。 先小范围推广,拿到测试数据,感觉满意后再推广到大范围。

7.实现

模型建立并验证后,主要有两种使用方式。 一是给分析师一个参考;另一种是将这个模型应用到不同的数据集上。


3、数据挖掘的实施步骤

从业务角度理解项目目标和要求,将其转化为数据挖掘问题定义,并制定实现目标的初始计划。
📊理解数据
收集初始数据并进行各种活动以熟悉数据。 其中包括数据描述、数据探索和数据质量验证等。
📝数据准备
将最初的原始数据形成适合建模工具处理的最终数据集。 其中包括表、记录和属性选择、数据转换和数据清理等。
🤖建模
选择并应用不同的建模技术并优化其参数。
📈模型评估
对模型进行更彻底的评估,并检查构建模型的每个步骤,以确认其是否真正实现了预期的业务目标。
🚀模型部署
创建模型并不意味着项目的结束。 尽管模型的目的是提高对数据的理解,但获得的知识必须采用用户可以使用的形式。 组织和表达的方式。 活动模型经常应用于决策过程。 此步骤可以像生成报告一样简单,也可以像在整个企业中实施可重复的数据挖掘流程一样复杂。 控制是举世公认的。