当前位置:首页 > 数据分析 > 正文

数据分析完整流程实例

  通常情况下,我们会按照结构模型把系统产生的数据分为三种类型:结构化数据、半结构化数据和非结构化数据。 结构化数据,即行数据,是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。 最常见的就是数字数据和文本数据,它们可以某种标准格式存在于文件或记录的固定字段中。 相对应的,没有固定结构不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

明确了数据分析目的之后, 第二步就是根据我们的分析目的,提取相对应的数据,通常这一个环节是利用 hive sql 从数据仓库中提取数据。

A/B测试就是同时进行多个方案并行测试,但是每个方案仅有一个变量不同;然后以某种规则(例如用户体验、数据指标等)优胜略汰选择最优的方案。 数据分析需要在这个过程中选择合理的分组样本、监测数据指标、事后数据分析和不同方案评估。