原英文文章见Data Exploration - A Complete Introduction | HEAVY.AI。
之前翻译了一篇初始数据分析(initial data analysis)的文章与之相关:偶然非连续:【译文】初始数据分析的十个规则
什么是数据探索?
数据探索定义:数据探索是指数据分析的初始步骤。在数据探索过程中,数据分析师使用数据可视化和统计技术来描述数据集特征(如规模,数量和准确性),以便更好地了解数据的性质。
数据探索技术包括手动和自动数据探索软件解决方案。自动数据探索软件解决方案直观地探索和识别不同数据变量之间的关系、数据集的结构、异常值的存在以及数据值的分布,以揭示模式和兴趣点,使数据分析师能够更深入地了解原始数据。
数据通常以非结构化的形式从各种来源采集,数据分析师必须首先理解并熟悉数据的全面视图,然后才能提取相关数据进行进一步分析,例如单变量、二元、多变量和主成分分析。
数据探索工具
手动数据探索方法需要编写脚本来分析原始数据,或者手动将数据在电子表格过滤。自动化数据探索工具(如数据可视化软件)可帮助数据科学家轻松监控数据源,并对其他非常大的数据集执行大数据探索。数据的图形显示(如条形图和散点图)是可视化数据探索中的重要工具。
手动数据探索的常用工具是 Microsoft Excel 电子表格,它可用于创建用于数据探索的基本图表、查看原始数据以及标识变量之间的相关性。若要标识 Excel 中两个连续变量之间的相关性,可以使用函数 CORREL() 返回相关性。为了确定 Excel 中两个类别变量之间的相关性,双向表方法、堆积柱形图方法和卡方检验是有效的。
有各种各样的专有自动化数据探索解决方案,包括商业智能工具、数据可视化软件、数据准备软件供应商和数据探索平台。还有一些开源数据探索工具,包括回归功能和可视化功能,可以帮助企业集成各种数据源,实现更快的数据探索。大多数数据分析软件都包含数据可视化工具。
为什么数据探索很重要?
人类处理视觉数据比数字数据更好,因此对于数据科学家和数据分析师来说,为数千行和列的数据点分配意义并在没有任何视觉组件的情况下传达该含义是极具挑战性的。
数据探索中的数据可视化利用熟悉的视觉提示(如形状、维度、颜色、线条、点和角度),以便数据分析人员可以有效地对元数据进行可视化、定义,然后执行数据清洗。执行数据探索的初始步骤使数据分析师能够更好地理解和直观地识别可能未检测到的异常和关系。
什么是探索性数据分析?
探索性数据分析(Exploratory Data Analysis,EDA)类似于数据探索,是一种用于分析数据集的广泛特征的统计技术。用于探索性数据分析的可视化工具,如 HEAVY.AI的Immerse platform实现了与原始数据集的交互性,使分析师能够更深入地了解数据中的模式和关系。
地理信息系统(GIS)中的数据探索
GIS是一个框架,用于收集和分析与地理位置相关的数据、地理位置与地球上人类或自然活动之间关系的数据。随着世界上如此多的数据现在都带有地理位置信息,地理空间分析师面临着快速增长的地理空间数据量。
先进的GIS软件解决方案和工具有助于将时空分析整合到现有的大数据分析工作流程中,这使数据分析师能够轻松创建和共享直观的数据可视化,这将有助于空间数据探索。表征和缩小原始数据范围的能力对于可能面临数百万个面和数十亿个映射点的空间数据分析师来说是必不可少的一步。例如,了解 GIS 技术改进灾难响应操作的方式。
机器学习中的数据探索
机器学习项目与构建它所基于的数据基础一样好。为了表现良好,机器学习数据探索模型必须摄取大量数据,如果不首先彻底探索这些数据,模型准确性就会受到影响。构建机器学习模型之前要遵循的数据探索步骤包括:
检测和处理缺失值检测和处理异常值
数据探索机器学习的最终目标是提供数据洞察力,从而激发后续特征工程和模型构建过程。特征工程通过从原始数据创建特征来促进机器学习过程并提高机器学习算法的预测能力。
交互式数据探索
高级可视化技术应用于各种学科,使用户能够可视化模式并从复杂的数据流中获得洞察力,并做出后续的数据驱动型决策。从工程到医学再到教育的行业都在学习如何进行数据探索。
在大数据探索工具中,交互性是感知数据探索视觉技术和传播洞察力的重要组成部分。用户感知可视化并与之交互的方式会严重影响他们对数据的理解以及他们对可视化系统的总体价值。
交互式数据探索强调了协作工作的重要性,并通过集成高级交互和可视化技术促进了人际互动。加速的多模态交互平台配备了图形用户界面,优先考虑人与人的属性,通过可视化分析促进大数据探索,加速意见共享,消除单个分析的数据瓶颈,并缩短发现时间。
什么是数据探索的最佳语言?
目前,最流行的数据科学编程工具是R和Python,两者都是高度灵活的开源数据分析语言。R通常最适合统计学习,因为它是作为统计语言构建的。Python通常被认为是机器学习的最佳选择,因为它具有生产的灵活性。数据探索的最佳语言完全取决于手头的应用程序以及可用的工具和技术。
Python中的数据探索
使用Python进行数据探索的优势在于易于学习、生产就、与常用工具的集成、丰富的库以及来自庞大社区的支持。几乎每个工具包和功能都是打包的,只需调用方法的名称即可执行。
Pandas是一个开源的Python数据分析库,可以用于分析任何数据帧(dataframe)并生成关于数据集的完整HTML报告。这使Python数据探索变得更加容易。导入Pandas后,它允许用户以各种格式导入文件,其中最受欢迎的格式是CSV。Pandas数据探索库提供:
如何使用 Pandas 改进数据探索的技术在广泛的 Python 社区论坛中进行了详细讨论。
R 中的数据探索
使用 R 过程进行数据浏览和可视化如下所示:
数据探索和数据挖掘之间有什么关系?
从大型无组织池中检索相关数据主要有两种方法:数据探索(手动方法)和数据挖掘(自动方法)。数据挖掘是机器学习中的一个研究领域,指的是通过应用算法从数据中提取模式的过程。数据探索和可视化为将数据应用最有效的进一步统计和数据挖掘处理提供了指导。
一旦揭示了不同变量之间的关系,分析师就可以通过构建和部署数据模型来继续进行数据挖掘过程以获得新的洞察力。数据探索和数据挖掘有时可以互换使用。
数据发现(Data Discovery)与数据探索
在数据探索后熟悉了数据,即可开始数据发现。数据发现是面向业务用户的过程,用于探索数据和回答高度具体的业务问题。此迭代过程查找模式并查看群集、事件序列、特定趋势和时间序列分析,并在商业智能系统中起着不可或缺的作用,提供数据的可视化导航并促进所有业务信息的整合。
大多数流行的数据发现工具提供数据探索、准备和建模功能,支持可视化和可理解的数据表示,允许交互式导航和共享选项,支持对数据源的访问,并提供数据准备、分析和分析的无缝集成。了解HEAVY.AI's converged analytics platform 如何集成这些功能,以好奇心的速度从最大的数据集中获取见解。
数据检查(Data Examination)与数据探索
数据检查和数据探索实际上是同一个过程。数据检查评估整个数据的内部一致性,以确认数据的质量以供后续分析。内部一致性的可靠性是基于同一测试中不同项目之间的相关性的评估。此评估衡量旨在测量不同项目的相同构造的测试或调查的可靠性。
发表评论