探索性数据分析( Exploratory Data Analysis, EDA) 是指对已有数据在尽量少的先验
假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据
分析方法,该方法在20世纪70年代由美国统计学家J.K. Tukey提出。 传统的统计分析方法
常常先假设数据符合-一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,
以此了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型分布,导致数据
分析结果不理想。探索性数据分析则是一种更加贴合实际情况的分析方法,它强调让数据
自身“说话”,通过探索性数据分析可以真实、直接地观察到数据的结构和特征。探索性数
据分析出现之后,数据分析的过程就分为两个阶段:探索阶段和验证阶段。探索阶段侧重
于发现数据中包含的模式或模型,验证阶段侧重于评估所发现的模式或模型,很多机器学
习算法(分为训练和测试两步)都遵循这种思想。当拿到一份数据时,如果做数据分析的
目的不是非常明确、有针对性,可能会感到有些茫然,那么此刻就更加有必要进行探索性
数据分析了,它能帮助我们初步了解数据的结构和特征,甚至发现- -些模式或模型,再结
合行业背景知识,也许就能直接得到一些有用的结论。
发表评论