当前位置：网站首页 > 探索 > 一篇文章带你了解探索性数据分析

一篇文章带你了解探索性数据分析

探索

作者：佚名发布时间：2024-02-17 16:54:04 91浏览 0 评论

一篇文章带你了解探索性数据分析“这是数据分析中我最喜欢的部分：获取枯燥的平面数据，并通过可视化将其变为现实。”— 约翰·图基探索性数据分析 (Exploratory Data Analysis -

“这是数据分析中我最喜欢的部分：获取枯燥的平面数据，并通过可视化将其变为现实。”

— 约翰·图基

探索性数据分析 (Exploratory Data Analysis - EDA) 会应用一组用于探索、描述和总结数据性质的统计技术，以确保分析的客观性和互操作性。EDA可以帮我们识别可能犯的错误，找到异常值的存在，检查变量之间的关系（相关性）及可能的数据冗余，并通过图形和重点摘要对数据进行描述性分析。

在本文中，我们将通过对 QS 世界大学排名（2017-22）数据集的分析，向你介绍 EDA 的过程。

（复制此链接到浏览器打开可下载数据：

kaggle.com/datasets/padhmam/qs-world-university-rankings-2017-2022）

EDA 的工具

有很多工具可以被用于开发 EDA，其中比较流行的是R和Python 。R 是 R Foundation for Statistical Computing 支持的开源编程语言。它具有易于使用的界面和富有表现力的语法，可以让统计学家、数据分析师、研究人员等人检索、清理、分析、可视化和呈现数据。另一方面， Python在更大程度上促进了快速的应用程序开发。

把Python和 EDA 结合，它可以用于识别数据集中的缺失值，以确保我们很好地处理机器学习中的缺失值。当然，你也可以选择MS Excel和Tableau等其他软件。

EDA 的步骤

1.数据收集：

数据的收集是探索性数据分析的一个重要方面。在这个过程中，我们要定位数据，并将其放入我们系统。

2.数据清洗：

数据清理，就死从数据集中删除不需要的变量、值、以及任何异常的行为。这些异常可能会严重扭曲数据，对结果产生负面影响。

3.数据预处理：

这是一个处理计算机不能理解的真实数据（例如文本、图像、和视频）的过程，因此在此步骤中，我们将使用整洁和结构化的信息制作易于分析的数据，让它们能够被机器理解。

4.数据可视化：

为了更好地理解数据，我们必须让数据变得简单易懂，所以当我们以图表等可视数据的形式表示它时，它将帮助分析师和其他人快速地理解数据。

不同类型的 EDA

1. 单变量分析（Univariate Analysis）：

单变量分析是分析数据的最简单形式。正如名称“uni”所暗示的那样，单变量分析是对一个变量的分析。它有助于数据分析师了解单个变量的值是如何分布的。它分别探索数据集中的每个变量。它会分析每个变量的特征，但不会研究和其他变量直接的影响或关系。

2. 双变量分析（Bivariate Analysis）：

双变量分析会分析两个变量，并确定它们之间的关系。其中一个变量是因变量，另一个是自变量。它还可以帮助检验简单的关联假设。

3. 多变量分析（Multivariate Analysis）：

当必须同时分析两个以上的变量时，我们就需要进行多变量分析。在处理现实世界的数据时，我们所做的很多预测都是基于多变量数据，因为在给定时间点或一段时间内可能有多个因素影响变量。多元分析的常见类型包括聚类分析、因子分析和多元回归分析。

用R 做 EDA分析

1. 数据收集：

Kaggle 收集了关于 QS 世界大学排名（2017-2022）的数据。QS 世界大学排名是由 Quacquarelli Symonds 每年发布的全球大学排名。QS排名得到国际排名专家组（IREG）的批准，被视为世界上阅读量最大的三个大学排名之一。

2. 数据清洗：

由于数据中多列有缺失值，让我们删除缺失值超过 4 个的行，因为我们无法分析缺失很多属性的大学。

3. 单变量分析：

像上文解释的，单变量分析不会给出两个或多个变量之间的任何关系。它只是解释和描述数据集。在这里，我们找到了平均值、中位数、标准差等。

4. 双变量分析：

上图展示了大学规模与研究产出的关系。与产出“中”和产出“低”相比，具有“非常高”和“高”研究产出的大学规模更大。

我们还得到了一个右偏分布。异常值似乎对均值影响不大。大多数大学的每个教员都有 5 到 20 名学生。

5. 多元分析：

与其他大学相比，研究成果“非常高”的大学的“师生比例”要低得多。

就规模而言，与公立大学相比，私立大学的“师生比例”要低得多。另一个有趣的观察是，平均“师生比”随着大学“规模”的增加而增加。

结论

探索性数据分析是进行数据分析时重要的第一步，因为它可以发掘出数据中重要的关系，因此可以作为分析过程中的指导手册。

本文地址： https://miehuo119.cn/tansuo/149971.html

发表评论