当前位置:首页 > 数据挖掘 > 正文

数据挖掘的主要特点


1、数据仓库与数据挖掘技术—特点及元数据
数据仓库具有以下特点
数据仓库中的数据按主题组织
提供了对分析对象数据的完整一致的描述,可以有效地描述分析对象所包含的各种数据以及数据之间的联系。 主题通常是对数据进行高级别分类的标准,每个主题对应于一个整体分析领域。 数据仓库中的数据必须重新组织,才能完成业务数据到主题数据的转换。 主题的提取应根据分析的要求确定,并根据所需的信息,将数据分类为不同类别、不同角度和其他主题,然后将数据存储在数据中。 集成仓库
在进入数据仓库之前,事务处理系统中的操作数据必须经过标准化和集成,并发展为分析数据。 需要完成的工作包括:处理字段含义不同、意义不同、名称相同、单位不一致、长度不一致等问题,然后对源数据进行编译计算,生成高层次、全面的数据主题分析
数据仓库中的数据是稳定的
数据仓库存储用于分析和决策的历史数据,而不是用于在线事务处理的当前数据。 涉及到的数据操作主要是数据查询,一般不会对数据进行增删改查
数据仓库中的数据随着时间的推移而变化
数据仓库系统需要不断地从事务处理系统获取不同时间的在线数据,集成后添加到数据仓库中
数据仓库中的数据分为四个级别,早期明细级别、当前详细级别、综合级别轻、超综合级别
首先进入当前详细级别,然后根据具体需要进行调整,从而进入轻综合级别甚至超综合级别——综合水平。 历史数据进入早期的粒度级别,数据仓库中有不同级别的集成,一般称为粒度。 越详细,详细程度越低,全面程度越高。 元数据是“关于数据的数据”,是数据仓库新一轮迭代开发和维护的主要技术指南。 如数据仓库浏览器,可以快速高效地定位信息,实现数据检索和提取
1.技术元数据
有关数据仓库系统技术细节的数据存储,旨在开发和管理数据仓库使用的数据。 主要包括数据仓库结构、业务系统、数据仓库和数据集市的架构和模型的描述,以及用于聚类和映射数据仓库环境运行环境的算法
2.业务元数据
业务元数据从业务角度描述数据仓库中的数据
创建数据仓库一般有两种方式,“自上而下”和“自下而上”-向上”和“向上”。
从上到下:先构建企业级数据仓库,然后在此基础上构建部门级数据集市。
自下而上:先创建一些数据集市,最后将它们聚合成企业级数据仓库。