当前位置:网站首页 > 探索 > 淘宝某婴儿用品探索性数据分析

淘宝某婴儿用品探索性数据分析

淘宝某婴儿用品探索性数据分析上一片章我们对数据集进行了分析。其中有这些问题【拿到数据要知道自己想要分析什么】经销商肯定更想知道哪种产品热销,更适合进更多的货。

上一片章我们对数据集进行了分析。

其中有这些问题

【拿到数据要知道自己想要分析什么】

经销商肯定更想知道哪种产品热销,更适合进更多的货。

厂家希望知道什么时间段生产什么样的产品不会导致自己积压库存。

【从该数据中分析哪些业务问题】

哪一类产品卖得最多?字段:商品一级分类。

什么年龄段购买的东西最多?字段:出生日期、购买数量。

不同年龄购买的东西是否有差距?字段:商品二级分类、出生日期。

不同性别购买的东西是否在细节上有差异?字段:性别、商品一级分类,商品二级分类。

重复购买的客户有多少?字段:用户id,商品属性,购买数量,购买时间。、

我们今天来针对数据进行探索性分析。

首先,明确数据分析的步骤

①明确问题,上面已经描述了我想分析的问题。

②理解数据,在上次的文章里也已经说明了各个数据是有什么用处的。

③数据清洗,这次文章里会讲到如何进行数据清洗。

④数据分析或构建模型。

⑤数据可视化,用图表的方式呈现。

下面来说一下清洗数据的步骤

1,选择子集,之前两个表格里面的子集没有无用的子集,所以选择都显示

2,列重命名,将表格里面的英文等转换为自己熟悉的文字,因为之前下载的文档已是中文,故这一步可以省略。

3,删除重复值,因为数据抓取的可能不是很稳定,会出现重复的数据,我们用唯一确认的内容进行选择删除重复值。

上一篇文字我有说过商品编号是对应商品的唯一编码,这次数据清洗删除重复值我选择删除这个商品编号的重复值。

具体方法:用Excel表格里数据页面里面的删除重复值选项,取消全选,只勾选商品编号。点击确定。删除完成

探索性数据分析_探索性数据分析的方法_探索性数据分析的内容有哪些

但是后来发现可能是不同的人购买同一商品,所以换一种方法验证是否有同一用户id购买同一商品。具体方法如下

在用户id一列插入新的一列,命名为辅助项,用公式结合b列和c列(=b&c)这样,a列得到bc列组合的一串字符,对这串字符进行删除重复数据,发现并没有重复数据,验证了刚刚那个删除重复值是错误的。

探索性数据分析_探索性数据分析的内容有哪些_探索性数据分析的方法

4,缺失值处理

我们点击用户id列和商品编号列来查看两列的计数是否一致,如是一致代表用户和购买商品的编号是对应的上的,没有缺失。

探索性数据分析_探索性数据分析的方法_探索性数据分析的内容有哪些

这边两列都显示29972,表示数据没有缺失。

5,一致化处理

上述数据每列并没有不一致的,故这一步跳过。

6,数据排序

首先,要自己清楚应该用什么条件来进行排序,然后选择排序的的子集,我这边选择的是按购买时间升序表示。

点击子集-购买时间,进行升序排序。

探索性数据分析的方法_探索性数据分析的内容有哪些_探索性数据分析

排序之后,日期变得统一,方便我们后续用日期来分析数据。

7,异常值处理

看到婴儿信息的性别使用012表示,我们可以把012转换成文字,方法使用查找和替换。

探索性数据分析_探索性数据分析的方法_探索性数据分析的内容有哪些

到此,我们数据清洗就完成了。

接下来我们进行数据分析与构建模型。

根据之前的文件问题

【从该数据中分析哪些业务问题】

哪一类产品卖得最多?字段:商品一级分类。

什么年龄段购买的东西最多?字段:出生日期、购买数量。

不同年龄购买的东西是否有差距?字段:商品二级分类、出生日期。

不同性别购买的东西是否在细节上有差异?字段:性别、商品一级分类,商品二级分类。

重复购买的客户有多少?字段:用户id,商品属性,购买数量,购买时间。

我们先分析第一个问题

哪一类产品卖得最多?字段:商品一级分类。

探索性数据分析的方法_探索性数据分析_探索性数据分析的内容有哪些

通过建立数据透视表发现卖的最好的是第28类产品。

第二个问题

什么年龄段购买的东西最多?字段:出生日期、购买数量。

解决这个问题我们需要结合两个数据表来分析,把表一和表二的用户id进行归集,我们需要用到cvlookup函数。

把表一的购买数量用vlookup函数移到表二。在用函数计算出婴儿的年纪

探索性数据分析_探索性数据分析的内容有哪些_探索性数据分析的方法

删除重复的数据,建立数据透视表发现1岁的婴儿购买物品最多,

探索性数据分析的内容有哪些_探索性数据分析_探索性数据分析的方法

发现里面有负年龄,应该是孩子之后出生,提前买的。

第三个问题

不同年龄购买的东西是否有差距?字段:商品一级分类(之前写二级分类,发现商品数太多,不容易统计)、出生日期。

探索性数据分析的内容有哪些_探索性数据分析的方法_探索性数据分析

数据有点杂乱,我的能力分析不出来。。。。。

第四个问题

不同性别购买的东西是否在细节上有差异?字段:性别、商品一级分类。

探索性数据分析的方法_探索性数据分析_探索性数据分析的内容有哪些

可以很好的观察性别对购买物品的喜好。

第五个问题

重复购买的客户有多少?字段:用户id,商品属性,购买数量,购买时间。

探索性数据分析的方法_探索性数据分析的内容有哪些_探索性数据分析

可以发现在29948人次中只有数量很少的选择了回购,而且大部分只买了两次。回购率不高

上一篇: 探索性因素分析和验证性因素分析的区别?
下一篇: 利用Python进行数据分析:Task1-数据加载及探索性数据分析

为您推荐

发表评论