当前位置:网站首页 > 探索 > 一篇文章带你了解探索性数据分析

一篇文章带你了解探索性数据分析

一篇文章带你了解探索性数据分析“这是数据分析中我最喜欢的部分:获取枯燥的平面数据,并通过可视化将其变为现实。”— 约翰·图基探索性数据分析 (Exploratory Data Analysis -

“这是数据分析中我最喜欢的部分:获取枯燥的平面数据,并通过可视化将其变为现实。”

— 约翰·图基

探索性数据分析_探索性数据分析的基本方法_探索性数据分析名词解释

探索性数据分析 (Exploratory Data Analysis - EDA) 会应用一组用于探索、描述和总结数据性质的统计技术,以确保分析的客观性和互操作性。EDA可以帮我们识别可能犯的错误,找到异常值的存在,检查变量之间的关系(相关性)及可能的数据冗余,并通过图形和重点摘要对数据进行描述性分析。

在本文中,我们将通过对 QS 世界大学排名(2017-22)数据集的分析,向你介绍 EDA 的过程。

(复制此链接到浏览器打开可下载数据:

kaggle.com/datasets/padhmam/qs-world-university-rankings-2017-2022)

EDA 的工具

探索性数据分析_探索性数据分析名词解释_探索性数据分析的基本方法

有很多工具可以被用于开发 EDA,其中比较流行的是R和Python 。R 是 R Foundation for Statistical Computing 支持的开源编程语言。它具有易于使用的界面和富有表现力的语法,可以让统计学家、数据分析师、研究人员等人检索、清理、分析、可视化和呈现数据。另一方面, Python在更大程度上促进了快速的应用程序开发。

把Python和 EDA 结合,它可以用于识别数据集中的缺失值,以确保我们很好地处理机器学习中的缺失值。当然,你也可以选择MS Excel和Tableau等其他软件。

EDA 的步骤

探索性数据分析_探索性数据分析名词解释_探索性数据分析的基本方法

1.数据收集:

探索性数据分析的基本方法_探索性数据分析名词解释_探索性数据分析

数据的收集是探索性数据分析的一个重要方面。在这个过程中,我们要定位数据,并将其放入我们系统。

2.数据清洗:

数据清理,就死从数据集中删除不需要的变量、值、以及任何异常的行为。这些异常可能会严重扭曲数据,对结果产生负面影响。

3.数据预处理:

这是一个处理计算机不能理解的真实数据(例如文本、图像、和视频)的过程,因此在此步骤中,我们将使用整洁和结构化的信息制作易于分析的数据,让它们能够被机器理解。

4.数据可视化:

为了更好地理解数据,我们必须让数据变得简单易懂,所以当我们以图表等可视数据的形式表示它时,它将帮助分析师和其他人快速地理解数据。

不同类型的 EDA

1. 单变量分析(Univariate Analysis):

单变量分析是分析数据的最简单形式。正如名称“uni”所暗示的那样,单变量分析是对一个变量的分析。它有助于数据分析师了解单个变量的值是如何分布的。它分别探索数据集中的每个变量。它会分析每个变量的特征,但不会研究和其他变量直接的影响或关系。

2. 双变量分析(Bivariate Analysis):

双变量分析会分析两个变量,并确定它们之间的关系。其中一个变量是因变量,另一个是自变量。它还可以帮助检验简单的关联假设。

3. 多变量分析(Multivariate Analysis):

当必须同时分析两个以上的变量时,我们就需要进行多变量分析。在处理现实世界的数据时,我们所做的很多预测都是基于多变量数据,因为在给定时间点或一段时间内可能有多个因素影响变量。多元分析的常见类型包括聚类分析、因子分析和多元回归分析。

用R 做 EDA分析

1. 数据收集:

Kaggle 收集了关于 QS 世界大学排名(2017-2022)的数据。QS 世界大学排名是由 Quacquarelli Symonds 每年发布的全球大学排名。QS排名得到国际排名专家组(IREG)的批准,被视为世界上阅读量最大的三个大学排名之一。

2. 数据清洗:

由于数据中多列有缺失值,让我们删除缺失值超过 4 个的行,因为我们无法分析缺失很多属性的大学。

探索性数据分析的基本方法_探索性数据分析_探索性数据分析名词解释

3. 单变量分析:

像上文解释的,单变量分析不会给出两个或多个变量之间的任何关系。它只是解释和描述数据集。在这里,我们找到了平均值、中位数、标准差等。

探索性数据分析_探索性数据分析名词解释_探索性数据分析的基本方法

4. 双变量分析:

探索性数据分析_探索性数据分析的基本方法_探索性数据分析名词解释

上图展示了大学规模与研究产出的关系。与产出“中”和产出“低”相比,具有“非常高”和“高”研究产出的大学规模更大。

探索性数据分析的基本方法_探索性数据分析名词解释_探索性数据分析

我们还得到了一个右偏分布。异常值似乎对均值影响不大。大多数大学的每个教员都有 5 到 20 名学生。

5. 多元分析:

探索性数据分析名词解释_探索性数据分析的基本方法_探索性数据分析

与其他大学相比,研究成果“非常高”的大学的“师生比例”要低得多。

探索性数据分析名词解释_探索性数据分析_探索性数据分析的基本方法

就规模而言,与公立大学相比,私立大学的“师生比例”要低得多。另一个有趣的观察是,平均“师生比”随着大学“规模”的增加而增加。

结论

探索性数据分析是进行数据分析时重要的第一步,因为它可以发掘出数据中重要的关系,因此可以作为分析过程中的指导手册。

上一篇: 一、数据分析的概念
下一篇: 小米8透明探索版和小米8那个值得买?小米8对比透明探索版深度评测

为您推荐

发表评论