缘奇科普-奇怪的知识又增加了

如何对一组数据进行统计分析

原创版权 未知作者:缘起 字体大小选择: [ ]



如何对一组数据进行统计分析

数据分析步骤:

1. 明确问题:解决工作中遇到的问题,明确的问题为数据分析提供了方向

2. 理解数据:采集数据(根据研究问题)采集数据理解字段含义

3. 数据清洗:整理数据分析所需要的内容

4. 数据分析或构建模型:根据分析结合统计方法得出业务指标

5. 数据可视化:以图表的形式或PPT形成商业分析报告

主要任务:对数据进行描述统计分析,并观察分析结论里的数据,解决问题或发现规律

一、明确问题

婴儿的性别分布是怎么样的?

婴儿的年龄分布如何?

哪种产品属性需求最大?

什么时间段的客户购买数量较高?

二、理解数据

数据集介绍

本数据集包括2个excel文件:表1购买商品信息,表2婴儿信息。

字段含义

表1购买商品字段:

① 用户ID:每个用户独有的编号

② 商品编号:商品独有的编号

③ 商品二级分类:如 母婴用品-奶粉

④ 商品一级分类:如 母婴用品

⑤ 商品属性:属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值

⑥ 购买数量

⑦ 购买时间

表2婴儿信息表字段:

① 用户ID

② 出生日期

③ 性别:0女性;1男性;2未知的性别

三、数据清洗

数据清洗分为以下7个步骤:

第一步,选择子集,即选择哪些表格的数据

第二步,列名重命名,将表格里的列名由英文改为中文

(这是为了使自己更加方便理解数据集并进行操作,非必要)

第三步,删除重复值,表2无重复数据,表1中用户id有1个重复项,此处可能为一个用户购买两个不同商品,因此无需删除

(操作方法如下)

删除重复值

第四步,缺失值处理,表1中商品属性那里有144个缺失值,但不影响数据分析所以无需删除

(操作方法:选中用户ID那一列可以看见计数29972,依次重复操作其他列,只发现商品属性计数为29828,说明商品属性缺失了144个数值)解决方法:人工添加,平均值代替

计数(查看一列有多少个数据)

第五步,一致化处理,表1,表2中购买时间需要进行一致化处理,采用分列方式进行

(操作方法:选中出生日期,数据-分列-弹出框中选择分隔符号-下一步-下一步-列数据格式选择日期YMD-完成)

分列

第六步,数据排序,在分析中透视数据后会用到

(排序在这里)

排序

第七步,异常值处理:表中无异常数据

通过筛选功能寻找错误值,表1中的商品属性有一部分为“空白”,因属性种类过多无法确定并进行手动添加,所以全部“空白”修改为0方便后续处理;表2婴儿信息中有一个1984,应当是用户错填信息,处理方法删除

四、数据分析

1.婴儿性别分布?

由下图可得女性婴儿数量比男婴儿多(0女性,1男性,2未知)

婴儿不同性别分布的数据透视图

2.婴儿年龄段分布?

操作步骤:

① 利用VLOOKUP函数将两个表格的内容进行匹配合并,提取出表一的购买日期,通过购买日期与出生日期计算婴儿的年龄(注意:购买日期那列的单元格格式需要设置为日期)

VLOOKUP函数

② 计算年龄

计算年龄

计算出来有小数,两种方法一种是利用round函数,一种设置单元格格式数值小数点后0位。

③ 通过数据透视表可见,0岁和1岁的婴儿最多(负数和年龄过大为用户错填信息?可以对数数据透视图进行筛选删除错误值)

婴儿年龄分布(这图我应该删除错误值的。。)

3.哪类产品购买量最多?

由下图可得,一级类目产品中编号为28的商品类目销量最高,二级类目中50018831的销量最高

这是一级类目商品销量
二级类目商品销量缩略图(有很多二级类目被隐藏了)

4.什么时间段的客户购买数量较高?

利用数据透视表得出,每一年的第三季度和第四季度购买数量较多,可能与节日促销活动有关


发表评论 (已有 条评论)

  

评论列表

    快来评论,快来抢沙发吧~