上一片章我们对数据集进行了分析。
其中有这些问题
【拿到数据要知道自己想要分析什么】
经销商肯定更想知道哪种产品热销,更适合进更多的货。
厂家希望知道什么时间段生产什么样的产品不会导致自己积压库存。
【从该数据中分析哪些业务问题】
哪一类产品卖得最多?字段:商品一级分类。
什么年龄段购买的东西最多?字段:出生日期、购买数量。
不同年龄购买的东西是否有差距?字段:商品二级分类、出生日期。
不同性别购买的东西是否在细节上有差异?字段:性别、商品一级分类,商品二级分类。
重复购买的客户有多少?字段:用户id,商品属性,购买数量,购买时间。、
我们今天来针对数据进行探索性分析。
首先,明确数据分析的步骤
①明确问题,上面已经描述了我想分析的问题。
②理解数据,在上次的文章里也已经说明了各个数据是有什么用处的。
③数据清洗,这次文章里会讲到如何进行数据清洗。
④数据分析或构建模型。
⑤数据可视化,用图表的方式呈现。
下面来说一下清洗数据的步骤
1,选择子集,之前两个表格里面的子集没有无用的子集,所以选择都显示
2,列重命名,将表格里面的英文等转换为自己熟悉的文字,因为之前下载的文档已是中文,故这一步可以省略。
3,删除重复值,因为数据抓取的可能不是很稳定,会出现重复的数据,我们用唯一确认的内容进行选择删除重复值。
上一篇文字我有说过商品编号是对应商品的唯一编码,这次数据清洗删除重复值我选择删除这个商品编号的重复值。
具体方法:用Excel表格里数据页面里面的删除重复值选项,取消全选,只勾选商品编号。点击确定。删除完成
但是后来发现可能是不同的人购买同一商品,所以换一种方法验证是否有同一用户id购买同一商品。具体方法如下
在用户id一列插入新的一列,命名为辅助项,用公式结合b列和c列(=b&c)这样,a列得到bc列组合的一串字符,对这串字符进行删除重复数据,发现并没有重复数据,验证了刚刚那个删除重复值是错误的。
4,缺失值处理
我们点击用户id列和商品编号列来查看两列的计数是否一致,如是一致代表用户和购买商品的编号是对应的上的,没有缺失。
这边两列都显示29972,表示数据没有缺失。
5,一致化处理
上述数据每列并没有不一致的,故这一步跳过。
6,数据排序
首先,要自己清楚应该用什么条件来进行排序,然后选择排序的的子集,我这边选择的是按购买时间升序表示。
点击子集-购买时间,进行升序排序。
排序之后,日期变得统一,方便我们后续用日期来分析数据。
7,异常值处理
看到婴儿信息的性别使用012表示,我们可以把012转换成文字,方法使用查找和替换。
到此,我们数据清洗就完成了。
接下来我们进行数据分析与构建模型。
根据之前的文件问题
【从该数据中分析哪些业务问题】
哪一类产品卖得最多?字段:商品一级分类。
什么年龄段购买的东西最多?字段:出生日期、购买数量。
不同年龄购买的东西是否有差距?字段:商品二级分类、出生日期。
不同性别购买的东西是否在细节上有差异?字段:性别、商品一级分类,商品二级分类。
重复购买的客户有多少?字段:用户id,商品属性,购买数量,购买时间。
我们先分析第一个问题
哪一类产品卖得最多?字段:商品一级分类。
通过建立数据透视表发现卖的最好的是第28类产品。
第二个问题
什么年龄段购买的东西最多?字段:出生日期、购买数量。
解决这个问题我们需要结合两个数据表来分析,把表一和表二的用户id进行归集,我们需要用到cvlookup函数。
把表一的购买数量用vlookup函数移到表二。在用函数计算出婴儿的年纪
删除重复的数据,建立数据透视表发现1岁的婴儿购买物品最多,
发现里面有负年龄,应该是孩子之后出生,提前买的。
第三个问题
不同年龄购买的东西是否有差距?字段:商品一级分类(之前写二级分类,发现商品数太多,不容易统计)、出生日期。
数据有点杂乱,我的能力分析不出来。。。。。
第四个问题
不同性别购买的东西是否在细节上有差异?字段:性别、商品一级分类。
可以很好的观察性别对购买物品的喜好。
第五个问题
重复购买的客户有多少?字段:用户id,商品属性,购买数量,购买时间。
可以发现在29948人次中只有数量很少的选择了回购,而且大部分只买了两次。回购率不高
发表评论