当前位置:网站首页 > 探索 > 探索性数据分析——用Python表达EDA的一种快速方法

探索性数据分析——用Python表达EDA的一种快速方法

探索性数据分析——用Python表达EDA的一种快速方法机器学习的讨论通常围绕算法及其性能:如何提高模型准确性或降低其误差率,擅长特征工程或微调超参数。但是,首先要

探索性数据分析名词解释_eda探索性数据分析_探索性数据分析

生成描述性统计信息:

探索性数据分析名词解释_探索性数据分析_eda探索性数据分析

查看数据集结构的快速方法:

检查变量类型:

探索性数据分析名词解释_探索性数据分析_eda探索性数据分析

它们都是浮点数,但国家名称(字符串)除外。

显示摘要信息:

探索性数据分析_eda探索性数据分析_探索性数据分析名词解释

在这里,我们看到有些变量具有空值。

缺失

缺失值可能是由多种原因引起的,例如数据输入错误或记录不完整。这是非常普遍的现象,会对从数据得出的结论产生重大影响。

上面我们已经看到,该示例中的数据集缺少几个值,但让我们看看如何测试任何数据集。

接下来,我们需要检查它们的数量:

现在,让我们再检查一下这些缺失值的摘要信息:

eda探索性数据分析_探索性数据分析_探索性数据分析名词解释

这是.info()函数的另一面。处理缺失值有不同的策略,而且没有通用的方法。

我们查看新的数据集:

在这里我们将删除缺失的值,并生成新的值。

探索性数据分析名词解释_eda探索性数据分析_探索性数据分析

这里我们还剩余188条记录,没有空值。

可视化数据集

我们使用Seaborn可视化新数据集:

探索性数据分析名词解释_探索性数据分析_eda探索性数据分析

这样可以快速识别变量之间的异常值,聚类和明显的相关性。

我们再结合变量“gdp”和“population”

探索性数据分析_探索性数据分析名词解释_eda探索性数据分析

右上角有两个明显的异常值。与其他数据相比,有两个国家的人口水平非常极端。可以验证观察分析“population”变量本身:

探索性数据分析名词解释_探索性数据分析_eda探索性数据分析

检测异常值的另一种方法是绘制一些箱形图:

探索性数据分析名词解释_探索性数据分析_eda探索性数据分析

还可以显示这些变量的密度图并分析其偏斜度:

探索性数据分析名词解释_eda探索性数据分析_探索性数据分析

在这个例子中,我故意不处理离群值,但是有多种方法可以实现。

相关性

关联变量将为您节省大量的分析时间,这是对数据执行任何假设之前的必要步骤。相关性只计算数值变量,因此了解数据集中的变量类型很重要。

探索性数据分析名词解释_探索性数据分析_eda探索性数据分析

我屏蔽了左下角的值,以避免重复并提供更清晰的视图。右侧的值标度还提供了极值的快速参考指南:您可以轻松地发现变量之间的高低相关性。(例如“national income(国民收入)”与“purchasing power(购买力)”具有高度正相关)

结论

EDA对于理解任何数据集都是至关重要的。但是EDA需要做大量准备工作,因为现实世界中的数据很少是干净且同质的。人们常说,数据科学家宝贵的时间中有80%花费在查找、清理和组织数据上,而仅剩下20%的时间用于实际执行分析。

上一篇: 中国高岭韩韦文化传承调研会简报
下一篇: 告诉你人类为什么一直孜孜不倦的探索宇宙,您可能会绝望

为您推荐

发表评论