数据分析是艺术还是科学?
我们经常讨论数据分析和Bl科学方面:执行复杂查询所需的计算和算法。当然,Bl的很大一部分是数学,在一般情况下理解数据需要计划如何在一端构建分析结构,在另一端解释结果,在一些人眼中这是一种艺术形式。
什么是探索性数据分析?
探索性数据分析(EDA)是数据分析过程的第一步。在这里,可以了解拥有的数据,然后找出想要问的问题以及如何构建它们,以及如何最好地操纵可用数据源以获得所需的答案。
可以通过现有数据中的模式、趋势、异常值、意外结果等等进行广泛地查看研究,并使用可视化和定量方法来了解数据所讲述的故事,在其中寻找线索、逻辑、问题或研究领域等线索。
探索性分析由约翰·图基(john Tukey)在20世纪70年代开发,经常被描述为一种哲学,对于如何进行分析没有硬性规定。尽管如此,它也产生了一整套统计计算环境,用于帮助定义“什么是EDA”和处理特定的任务,比如:
发现错误和缺少的数据;
绘制出数据的基础结构;
确定最重要的变量;
列出异常和异常值;
测试假设/检查与特定模型有关的假设;
建立一个简约模型(可以用最小的预测变量来解释数据);
估计参数并确定相关的置信区间或误差范围。
工具和技术
用于进行探索性数据分析的常用的统计编程包是S-Plus和R,后者是一种强大、通用、开源的编程语言,可以与许多Bl平台集成。
可以使用这些工具执行的特定统计功能和技术包括:
聚类和降维技术,可创建包含多个变量的高维数据图形显示;
原始数据集中各字段的单变量可视化,并进行汇总统计;
双变量可视化和汇总统计允许评估数据集中的每个变量与正在查看的目标变量之间的关系;
多变量可视化,用于映射和理解数据中不同字段之间的交互;
k -均值聚类(根据最接近的均值为每个聚类创建“中心”);
预测模型,例如线性回归。
适合BI的地方
使用正确的数据连接器,可以将EDA数据直接合并到Bl软件中,从而进行分析。更重要的是,可以将此设置为允许数据以另一种方式流动,在(例如R)中构建和运行使用BI数据的统计模型,并在新信息流入模型时自动更新。
例如,可以使用EDA来映射资金流程,跟踪每一个步骤和部门所经历的过程,从营销线索转换为客户,以便简化这一过程,实现平稳的过渡。
这种情况的潜在用途非常广泛,但最终,它归结为这种探索性的数据分析,即在对数据进行任何假设之前了解和理解数据。它可以避免意外地创建不准确的模型,或者构建基于错误数据的准确模型。
发表评论