此次分析针对某段时间内淘宝母婴产品的购买情况和相应的用户群,源数据理解分析见上一篇文章: 统计描述分析-母婴产品数据分析。接下来我们针对该数据应用EXCEL来分析我们上一篇提出的问题。
1. 对源数据的数据清洗
任何拿到手的源数据,我们都要经过数据清洗,来保证该数据可以支撑我们接下来的操作,包括:删除重复值,缺失值处理,一致化处理,数据排序以及异常值处理。
我们先将需要的数据合并成一张表格:将trade_history表格里对应的类目,交易数量和交易时间通过vlookup函数关联到婴幼儿信息表格。
*公式中将引用的A2单元格混合引用$A2,固定A列,再配合vlookup函数里的col_index_num用column函数表达,可以实现多行多列一次性匹配好
*在实操过程中碰到了vlookup无法跨表引用,原因是当时选中两个excel一起打开了让电脑误以为这是两个程序,无法跨表引用。解决方法:一个个打开。可通过打开任务管理器验证:前者可出现两个excel进程,后者只出现一个,显示备注(2).
将跨表引用的四行数据复制成数值,并删除函数引用的数据。
确认无缺失值,user_id无重复值,对birthday和day两栏日期格式进行统一,并对birthday一列进行降序排列,发现异常值,做删除处理。
添加辅助行Buy_Year(购买的年份), Buy_month(购买的月份),Age(购买时婴幼儿年龄)
Buy_Year: =Left(F2,4)
Buy_month: =Mid(F2,6,Find(“/”,F2,Find(“/”,F2)+1)-6)
Age: =IFERROR(DATEDIF(B2,F2,"y"),-DATEDIF(F2,B2,"y"))
以上数值全都复制粘贴为数值。
2. 建模分析
对购买数量做箱线图分析:
显示其平均值约等于1.61,看箱线图其绝大部分购买量都是1,选择购买量大于10的交易记录当作异常值做删除处理(量大影响统计效果,本案例的研究对象为零售购买用户,个别量大的会在统计分析时带来错误分析结果),剩余数据939条。
数据可视化:
购买数量和年龄对应关系,以及年龄对应的分布情况
从动图看,无论男孩女孩,其购买量高峰是一周岁前。
按月分析活跃度(鉴于15年只有两个月的数据,剔除了15年的数据再做比较):每年出现购买高峰的月份为11月,认为与该月的每年活动正相关。结论:母婴类产品对促销敏感,可通过活动多促进该类商品的销量。
观察到销量逐年递增,考虑到12年数据从7月开始,计算日均销量和日均活跃客户更加能客观的反映数据。
第一步:统计非重复计数的天数。我的Excel版本是2016版,没有这个功能,看到网上说有的版本有非重复计数的统计,这样就比较简单了。针对没有这个功能的版本,以下是我的做法:在源数据表格建立辅助列,通过函数=countif($F$2:F2,F2)来计算重复计数;在数据透视表中插入筛选项(或者切片器)选择辅助列显示为1的数据。
第二步:在旁边新建数据透视表计数user_id
第三步:日均销量=求和buy_mount/计数辅助列
日均活跃客户=计数项user_id/计数项辅助列
第四步: 绘制折线图
结论:日均活跃客户逐年增高,尤其14年相对增长较快,随之而来的结果是销量的快速提升。单从母婴产品类分析,2014年是淘宝相对之前年份增长快速的一年。
发表评论