当前位置:网站首页 > 探索 > 探索性分析-从淘宝母婴产品数据看有趣的事

探索性分析-从淘宝母婴产品数据看有趣的事

探索性分析-从淘宝母婴产品数据看有趣的事此次分析针对某段时间内淘宝母婴产品的购买情况和相应的用户群,源数据理解分析见上一篇文章: 统计描述分析-母婴产品数据分析。

此次分析针对某段时间内淘宝母婴产品的购买情况和相应的用户群,源数据理解分析见上一篇文章: 统计描述分析-母婴产品数据分析。接下来我们针对该数据应用EXCEL来分析我们上一篇提出的问题。

1. 对源数据的数据清洗

任何拿到手的源数据,我们都要经过数据清洗,来保证该数据可以支撑我们接下来的操作,包括:删除重复值,缺失值处理,一致化处理,数据排序以及异常值处理。

我们先将需要的数据合并成一张表格:将trade_history表格里对应的类目,交易数量和交易时间通过vlookup函数关联到婴幼儿信息表格。

探索性数据分析的基本方法_探索性数据分析_探索性数据分析的方法

*公式中将引用的A2单元格混合引用$A2,固定A列,再配合vlookup函数里的col_index_num用column函数表达,可以实现多行多列一次性匹配好

*在实操过程中碰到了vlookup无法跨表引用,原因是当时选中两个excel一起打开了让电脑误以为这是两个程序,无法跨表引用。解决方法:一个个打开。可通过打开任务管理器验证:前者可出现两个excel进程,后者只出现一个,显示备注(2).

将跨表引用的四行数据复制成数值,并删除函数引用的数据。

探索性数据分析_探索性数据分析的基本方法_探索性数据分析的方法

确认无缺失值,user_id无重复值,对birthday和day两栏日期格式进行统一,并对birthday一列进行降序排列,发现异常值,做删除处理。

添加辅助行Buy_Year(购买的年份), Buy_month(购买的月份),Age(购买时婴幼儿年龄)

Buy_Year: =Left(F2,4)

Buy_month: =Mid(F2,6,Find(“/”,F2,Find(“/”,F2)+1)-6)

Age: =IFERROR(DATEDIF(B2,F2,"y"),-DATEDIF(F2,B2,"y"))

以上数值全都复制粘贴为数值。

2. 建模分析

对购买数量做箱线图分析:

探索性数据分析的方法_探索性数据分析的基本方法_探索性数据分析

显示其平均值约等于1.61,看箱线图其绝大部分购买量都是1,选择购买量大于10的交易记录当作异常值做删除处理(量大影响统计效果,本案例的研究对象为零售购买用户,个别量大的会在统计分析时带来错误分析结果),剩余数据939条。

数据可视化:

购买数量和年龄对应关系,以及年龄对应的分布情况

探索性数据分析的方法_探索性数据分析_探索性数据分析的基本方法

从动图看,无论男孩女孩,其购买量高峰是一周岁前。

探索性数据分析的方法_探索性数据分析的基本方法_探索性数据分析

按月分析活跃度(鉴于15年只有两个月的数据,剔除了15年的数据再做比较):每年出现购买高峰的月份为11月,认为与该月的每年活动正相关。结论:母婴类产品对促销敏感,可通过活动多促进该类商品的销量。

探索性数据分析的基本方法_探索性数据分析_探索性数据分析的方法

观察到销量逐年递增,考虑到12年数据从7月开始,计算日均销量和日均活跃客户更加能客观的反映数据。

第一步:统计非重复计数的天数。我的Excel版本是2016版,没有这个功能,看到网上说有的版本有非重复计数的统计,这样就比较简单了。针对没有这个功能的版本,以下是我的做法:在源数据表格建立辅助列,通过函数=countif($F$2:F2,F2)来计算重复计数;在数据透视表中插入筛选项(或者切片器)选择辅助列显示为1的数据。

探索性数据分析的方法_探索性数据分析_探索性数据分析的基本方法

第二步:在旁边新建数据透视表计数user_id

第三步:日均销量=求和buy_mount/计数辅助列

日均活跃客户=计数项user_id/计数项辅助列

第四步: 绘制折线图

探索性数据分析的方法_探索性数据分析_探索性数据分析的基本方法

结论:日均活跃客户逐年增高,尤其14年相对增长较快,随之而来的结果是销量的快速提升。单从母婴产品类分析,2014年是淘宝相对之前年份增长快速的一年。

上一篇: 初学R并实现探索性数据分析
下一篇: 历史联想:世界发展的脉络与趋势

为您推荐

发表评论