之前我们对表1,表2的指标进行了描述性统计,接下来用excel继续进行初步的探索性分析,下面是处理数据集一般用到的数据分析步骤:提出问题、理解数据、清洗数据、数据分析或者构建模型;数据分析第1步:提出问题
-我们要分析哪些业务指标?
我们可以就用户角度和商家角度来进行相应业务问题提出,每个子问题遵循MECE原则;
用户方面:
1、在婴儿的成长周期里购买数量最多的是哪些品类?
商家方面:
1、哪个商品品类购买数量最多,哪个商品品类购买数量最少?
2、每个品类下面的TOP1商品?
3、商品品类随着月份的变化是如何上升或者下降,方便在商品品类销售上升之前准备上新?
4、商品品类下面的产品款数分布,哪些是热门品类,哪些品类款数少竞争力小?
数据分析第2步:理解数据
-熟悉Excel的工作界面
-Excel各个字段表示什么含义?
-Excel中有哪些数据类型?
-数据的基本操作
表1 购买商品,表2 婴儿信息中的业务指标如图所示:
数据分析第3步:如何使用Excel清洗数据?
-Excel中常用的函数如何使用?
-如何去除数据列空格?
-如何规范数据源中错误格式的值?
-如何拆分单元格?
-时间格式数据如何处理?
-如何对数据进行排序和筛选?
1)选择子集
下载好的数据集另存为,保存类型为Excel工作簿;
2)列名重命名
首先我们对表1,表2的英文列名进行重命名,便于之后数据处理;
3)删除重复值
表1,七列的每一列都有重复值,其中’购买行为编号‘,我们理解用户可以有多条购买记录,但是每一个购买行为编号对应一个订单编号,应该是唯一性的,所以对’购买行为编号‘这一列进行删除重复值操作;
表2,其中’用户ID‘一列未发现重复值;
4)缺失值处理
表1,其中’商品属性‘这一列存在144条记录的缺失值,考虑到下载的数据集中关于商品属性我们无法填写正确的内容,并且这一列数据类型是字符型,我们暂时保留缺失值所在的列;
表2,每一列都不存在缺失值;
5)一致化处理
考虑到‘商品属性’这列涉及到的属性较多,暂不进行分列处理;
6)数据排序
表1 购买商品,对‘购买时间’这列进行升序处理;
表2 婴儿信息,对‘婴儿出生日期’这列进行升序处理;
7)异常值处理
表2 婴儿信息,对’婴儿性别‘这列进行数据透视;指标含义中0代表男性,1代表女性,2未说明,我们用空白格代替;
’婴儿出生日期‘一列中,19840616明显是异常值,这一列我们选择删除数据;
数据分析第4步:数据分析或者构建模型
-如何搭建数据透视表?
-如何使用vlookup进行数据分析?
-如何使用搜索引擎解决遇到的问题?
表1 购买商品,对’购买数量‘这一列进行描述统计;
用户方面:每次购买人均2件产品,订单购买数量最大值是10000;
按照我们之前提出的业务问题,
用户方面:
1、在婴儿的成长周期里购买数量最多的是哪些品类?
我们用多表关联查询vookup将表2的婴儿信息根据’用户ID‘匹配到表1,
DATEDIF函数计算出’婴儿年龄‘,分组为“0至1岁”、“1岁至2岁”、“2岁至3岁”、“3岁以上”,然后进行数据透视表;
可以看到“0至1岁”购买数量最多的商品品类是50014815;
“1岁至2岁”、”2岁至3岁“、”3岁以上“购买数量最多的是50008168;
数据表示,有27532条数据没有婴儿出生日期,131条数据中”购买时间“比”婴儿出生日期“要早,说明是提前购买,无法计算出婴儿年龄;
商家方面:
1、哪个商品品类购买数量最多,哪个商品品类购买数量最少?
可以看到28422条购买商品数据中,”28“这个品类购买的最多,”122650008“这个品类购买的最少;
2、每个品类下面的TOP1商品?
可以得到每个商品品类下的top1的商品是哪一款,然后我们看到”38“品类下”211122“产品的销量2042,占总销量3622的56%,说明买这一类产品的主要都购买了这款产品,”50014815“品类下的”50018831“款产品,销量占到总销量的65%;
3、商品品类随着月份的变化是如何上升或者下降,方便在商品品类销售上升之前准备上新?
可以很明显看到6大类分别在1月至12月的销量,商家可以根据每个商品品类淡旺季进行备货;
4、商品品类下面的产品款数分布,哪些是热门品类,哪些品类款数少竞争力小?
复制这2列到新sheet,删除商品种类ID重复值,然后数据透视;
可以看到,”28“是热门品类,下面的商品款数最多;”122650008“这个品类下商品数少,商家竞争力小;
发表评论