探索性数据分析——用Python表达EDA的一种快速方法-米儿火

探索性数据分析——用Python表达EDA的一种快速方法

探索

作者：佚名发布时间：2024-01-29 01:53:17 64浏览 0 评论

生成描述性统计信息：

查看数据集结构的快速方法：

检查变量类型：

它们都是浮点数，但国家名称（字符串）除外。

显示摘要信息：

在这里，我们看到有些变量具有空值。

缺失值可能是由多种原因引起的，例如数据输入错误或记录不完整。这是非常普遍的现象，会对从数据得出的结论产生重大影响。

上面我们已经看到，该示例中的数据集缺少几个值，但让我们看看如何测试任何数据集。

接下来，我们需要检查它们的数量：

现在，让我们再检查一下这些缺失值的摘要信息：

这是.info()函数的另一面。处理缺失值有不同的策略，而且没有通用的方法。

我们查看新的数据集：

在这里我们将删除缺失的值，并生成新的值。

这里我们还剩余188条记录，没有空值。

可视化数据集

我们使用Seaborn可视化新数据集：

这样可以快速识别变量之间的异常值，聚类和明显的相关性。

我们再结合变量“gdp”和“population”

右上角有两个明显的异常值。与其他数据相比，有两个国家的人口水平非常极端。可以验证观察分析“population”变量本身：

检测异常值的另一种方法是绘制一些箱形图：

还可以显示这些变量的密度图并分析其偏斜度：

在这个例子中，我故意不处理离群值，但是有多种方法可以实现。

探索性数据分析——用Python表达EDA的一种快速方法