当前位置:网站首页 > 探索 > 使用Excel对淘宝婴儿用品数据集探索性分析

使用Excel对淘宝婴儿用品数据集探索性分析

使用Excel对淘宝婴儿用品数据集探索性分析之前我们对表1,表2的指标进行了描述性统计,接下来用excel继续进行初步的探索性分析

之前我们对表1,表2的指标进行了描述性统计,接下来用excel继续进行初步的探索性分析,下面是处理数据集一般用到的数据分析步骤:提出问题、理解数据、清洗数据、数据分析或者构建模型;数据分析第1步:提出问题

-我们要分析哪些业务指标?

我们可以就用户角度和商家角度来进行相应业务问题提出,每个子问题遵循MECE原则;

用户方面:

1、在婴儿的成长周期里购买数量最多的是哪些品类?

商家方面:

1、哪个商品品类购买数量最多,哪个商品品类购买数量最少?

2、每个品类下面的TOP1商品?

3、商品品类随着月份的变化是如何上升或者下降,方便在商品品类销售上升之前准备上新?

4、商品品类下面的产品款数分布,哪些是热门品类,哪些品类款数少竞争力小?

数据分析第2步:理解数据

-熟悉Excel的工作界面
-Excel各个字段表示什么含义?
-Excel中有哪些数据类型?
-数据的基本操作

表1 购买商品,表2 婴儿信息中的业务指标如图所示:

探索性数据分析_探索性数据分析是什么_探索性数据分析的基本方法

数据分析第3步:如何使用Excel清洗数据?

-Excel中常用的函数如何使用?
-如何去除数据列空格?
-如何规范数据源中错误格式的值?
-如何拆分单元格?
-时间格式数据如何处理?
-如何对数据进行排序和筛选?

1)选择子集

下载好的数据集另存为,保存类型为Excel工作簿;

探索性数据分析是什么_探索性数据分析_探索性数据分析的基本方法

2)列名重命名

首先我们对表1,表2的英文列名进行重命名,便于之后数据处理;

探索性数据分析_探索性数据分析的基本方法_探索性数据分析是什么

探索性数据分析的基本方法_探索性数据分析是什么_探索性数据分析

3)删除重复值

表1,七列的每一列都有重复值,其中’购买行为编号‘,我们理解用户可以有多条购买记录,但是每一个购买行为编号对应一个订单编号,应该是唯一性的,所以对’购买行为编号‘这一列进行删除重复值操作;

探索性数据分析是什么_探索性数据分析_探索性数据分析的基本方法

探索性数据分析是什么_探索性数据分析_探索性数据分析的基本方法

表2,其中’用户ID‘一列未发现重复值;

探索性数据分析的基本方法_探索性数据分析是什么_探索性数据分析

4)缺失值处理

表1,其中’商品属性‘这一列存在144条记录的缺失值,考虑到下载的数据集中关于商品属性我们无法填写正确的内容,并且这一列数据类型是字符型,我们暂时保留缺失值所在的列;

探索性数据分析_探索性数据分析的基本方法_探索性数据分析是什么

表2,每一列都不存在缺失值;

5)一致化处理

考虑到‘商品属性’这列涉及到的属性较多,暂不进行分列处理;

6)数据排序

表1 购买商品,对‘购买时间’这列进行升序处理;

探索性数据分析_探索性数据分析是什么_探索性数据分析的基本方法

表2 婴儿信息,对‘婴儿出生日期’这列进行升序处理;

探索性数据分析是什么_探索性数据分析_探索性数据分析的基本方法

7)异常值处理

表2 婴儿信息,对’婴儿性别‘这列进行数据透视;指标含义中0代表男性,1代表女性,2未说明,我们用空白格代替;

探索性数据分析的基本方法_探索性数据分析是什么_探索性数据分析

探索性数据分析的基本方法_探索性数据分析是什么_探索性数据分析

’婴儿出生日期‘一列中,19840616明显是异常值,这一列我们选择删除数据;

探索性数据分析的基本方法_探索性数据分析是什么_探索性数据分析

数据分析第4步:数据分析或者构建模型

-如何搭建数据透视表?
-如何使用vlookup进行数据分析?
-如何使用搜索引擎解决遇到的问题?

表1 购买商品,对’购买数量‘这一列进行描述统计;

探索性数据分析是什么_探索性数据分析的基本方法_探索性数据分析

探索性数据分析的基本方法_探索性数据分析是什么_探索性数据分析

用户方面:每次购买人均2件产品,订单购买数量最大值是10000;

按照我们之前提出的业务问题,

用户方面:

1、在婴儿的成长周期里购买数量最多的是哪些品类?

我们用多表关联查询vookup将表2的婴儿信息根据’用户ID‘匹配到表1,

探索性数据分析_探索性数据分析的基本方法_探索性数据分析是什么

DATEDIF函数计算出’婴儿年龄‘,分组为“0至1岁”、“1岁至2岁”、“2岁至3岁”、“3岁以上”,然后进行数据透视表;

探索性数据分析是什么_探索性数据分析的基本方法_探索性数据分析

探索性数据分析的基本方法_探索性数据分析是什么_探索性数据分析

可以看到“0至1岁”购买数量最多的商品品类是50014815;

“1岁至2岁”、”2岁至3岁“、”3岁以上“购买数量最多的是50008168;

数据表示,有27532条数据没有婴儿出生日期,131条数据中”购买时间“比”婴儿出生日期“要早,说明是提前购买,无法计算出婴儿年龄;

探索性数据分析的基本方法_探索性数据分析是什么_探索性数据分析

探索性数据分析_探索性数据分析的基本方法_探索性数据分析是什么

商家方面:

1、哪个商品品类购买数量最多,哪个商品品类购买数量最少?

探索性数据分析的基本方法_探索性数据分析_探索性数据分析是什么

可以看到28422条购买商品数据中,”28“这个品类购买的最多,”122650008“这个品类购买的最少;

2、每个品类下面的TOP1商品?

探索性数据分析_探索性数据分析是什么_探索性数据分析的基本方法

探索性数据分析_探索性数据分析是什么_探索性数据分析的基本方法

探索性数据分析_探索性数据分析是什么_探索性数据分析的基本方法

探索性数据分析_探索性数据分析的基本方法_探索性数据分析是什么

探索性数据分析是什么_探索性数据分析_探索性数据分析的基本方法

探索性数据分析是什么_探索性数据分析_探索性数据分析的基本方法

可以得到每个商品品类下的top1的商品是哪一款,然后我们看到”38“品类下”211122“产品的销量2042,占总销量3622的56%,说明买这一类产品的主要都购买了这款产品,”50014815“品类下的”50018831“款产品,销量占到总销量的65%;

3、商品品类随着月份的变化是如何上升或者下降,方便在商品品类销售上升之前准备上新?

探索性数据分析是什么_探索性数据分析_探索性数据分析的基本方法

可以很明显看到6大类分别在1月至12月的销量,商家可以根据每个商品品类淡旺季进行备货;

4、商品品类下面的产品款数分布,哪些是热门品类,哪些品类款数少竞争力小?

复制这2列到新sheet,删除商品种类ID重复值,然后数据透视;

探索性数据分析的基本方法_探索性数据分析_探索性数据分析是什么

探索性数据分析的基本方法_探索性数据分析是什么_探索性数据分析

可以看到,”28“是热门品类,下面的商品款数最多;”122650008“这个品类下商品数少,商家竞争力小;

上一篇: 高考必考五大核心素养之四:史料实证
下一篇: 数字化赋能新时代历史学发展(学术圆桌)

为您推荐

发表评论