1、探索性数据分析(探索性数据分析(EDA)EDA的提出的提出 1977年,美国统计学家John W. Tukey出版了探索性数据分析一书,引起了统计学界的关注。该书指出了统计建模应该结合数据的真实分布情况,对数据进行分析,而不应该从理论分布假定出发去构建模型。EDA重新提出了描述统计在数据分析中的重要性,它为统计学指明了新的发展方向和数据相结合。EDA的定义的定义 探索性数据分析是对调查、观测所得到的一些初步的杂乱无章的数据,在尽量少的先验假定下进行处理,通过作图、制表等形式和方程拟合、计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法。EDA的主要特点的主要特点n研究从原始数据入手,
2、完全以实际数据为研究从原始数据入手,完全以实际数据为依据依据 传统的统计分析方法通常是先假定数据服从某种分布,然后用适应这种分布的模型进行分析和预测。但实际上,多数数据(尤其是实验数据)并不能保证满足假定的理论分布。因此,传统方法的统计结果常常并不令人满意,使用上受到很大的局限。n分析方法从实际出发,不以某种理论为依据分析方法从实际出发,不以某种理论为依据 传统的统计分析方法是以概率论为理论基础,对各种参数的估计、检验和预测给出具有一定精度的度量方法和度量值。而EDA在探索数据内在的数量特征、数量关系和数量变化时,什么方法可以达到这一目的就采用什么方法,灵活对待,灵活处理。方法的选择完全取决于
3、数据的特点和研究的目的。n分析工具简单直观,更易于普及分析工具简单直观,更易于普及 传统的统计分析方法都比较抽象和深奥,一般人难于掌握,EDA则更强调直观及数据可视化,使分析者能一目了然地看出数据中隐含的有价值的信息,显示出其遵循的普遍规律及与众不同的突出特点,促进发现规律,得到启迪,满足分析者的多方面要求,这也是EDA对于数据分析的的主要贡献。数据类型数据类型n 结构化数据:结构化数据: 二分类型:如性别 多分类型:如职业 有序类型:如收入水平 数值类型:如年龄、收入 n 非结构化数据:非结构化数据: 文本 音频 视频 图片 单变量分析单变量分析l频率和众数:频率和众数:针对于无序的分类的变
4、量l百分位数:百分位数:针对于有序的或连续的变量l位置度量:位置度量:均值和中位数l散布度量:散布度量:方差、标准差、偏度、峰度、四分位数极差偏度和峰度偏度和峰度 偏度的计算公式: 偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为0,呈现右偏的数据偏度大于0,呈现左偏的数据偏度小于0。331 峰度的计算公式: 峰度是刻画分布状态的陡缓程度的指标。峰度等于0,分布呈正态,峰度大于0,分布呈尖峰状态,峰度小于0,分布呈平峰状态。3442四分位数极差四分位数极差 四分位数极差定义: 判断数据异常点的方法:称 为数据的下、上截断点。大于上截断点或小于下截断点的数据均为异常点。QQR131,5.1
5、11RQRQ135 .1直方图直方图 对于分类属性,每个值在一个箱中。对于连续属性,将值域划分成箱(通常是等宽的)并对每个箱中的值计数。 正常型直方图:正常型直方图: 它的形状是中间高两边低,左右近似对称。 双峰型直方图:双峰型直方图:当直方图中出现了两个峰,这是由于观测值来自两个总体、两个分布的数据混合在一起造成的。 平顶型直方图:平顶型直方图:当直方图没有突出的顶峰,呈平顶型 。形成的原因:1.多个总体多个分布混合在一起;2.变量在某个区间均匀变化。 偏态型直方图:偏态型直方图:偏态型直方图是指图的顶峰有时向左偏、有时向右偏。 孤岛型直方图:孤岛型直方图:在直方图旁边有孤立的小岛出现。直方
6、图作用直方图作用 数据是否接近对称 数据分散性如何 数据是否有异常值 数据中是否有间隙箱线图箱线图箱线图是一种显示一维数值属性值分布的图形。它有6个数据节点:上边缘、上四分位数中位数、下四分位数下边缘、异常值。箱线图的作用:箱线图的作用:识别异常值;判断数据的偏态;比较几批数据的形状。正态性检验正态性检验 正态分布是许多检验的基础,比如F检验,t检验,卡方检验等。因此,对于一个样本是否来自正态总体的检验是至关重要的。u图示法图示法1. 直方图:直方图:是否以钟型分布2. 箱线图:箱线图:观测矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置,则分布较为对称。3. QQ图图 对于样本
7、 ,其次序统计量是 。QQ图是由以下的点构成的散点图:若样本数据近似于正态分布,在QQ图上这些点近似地在直线附近。xxxn,.,21 xxxn,.,21 ,25. 0375. 01xini.1ni xyu非参数检验方法非参数检验方法Kolmogorov-Smirnov 正态性检验:正态性检验:检验统计量为 表示一组随机样本的累计频率函数 , 表示分布的分布函数。Shapiro-Wilk的的(W检验检验)夏皮络威尔克检验当 时可以使用。 xxDFFon max xFn xFo508n两个变量的关系两个变量的关系 两个数值型变量线性相关两个数值型变量线性相关(服从二元正态分布) 秩相关秩相关(两个
8、有序的分类变量) 两个无序分类变量关联性分析两个无序分类变量关联性分析两个数值型变量线性相关两个数值型变量线性相关1. 计算计算Pearson样本相关系数样本相关系数Pearson样本相关系数的取值范围和含义是:l 相关系 数 的取值在-11之间。l 0表示两变量存在正的线性相关关系 , 0.8表示两变量之间具有较强的线性关系, 0.3表示两变量之间的线性相关关系较弱。问题:当我们得到相关系数 后,是否就能直接判断两变量之间的关系? niniiiyyxxyxiiyx12212. 相关系数的假设检验:相关系数的假设检验:l提出零假设:两变量无线性相关关系l选择检验统计量:Pearson相关系数的
9、检验统计量为t统计量,即其中,t统计量服从n-2个自由度的t分布。l计算检验统计量的观测值和p值。l决策。如果p值小于显著水平 ,应拒绝原假设,认为两变量有线性相关关系,否则两变量不存在线性相关关系。 212nt应用时注意的问题应用时注意的问题n进行线性相关分析前,可以先绘制散点图。n要求两变量都来自正态总体的随机变量。n出现异常值时慎用。秩相关秩相关设 的秩统计量是 , 的秩统计量是 。则Spearman相关系数是:对于Spearman相关系数,也可以做假设检验:检验统计量:其中t统计量服从n-2个自由度的t分布。nininiiixySSRRSRqiiSR12121212nxytqqxyxx
10、xn,.,21RRRn,.,21YYYn,.,21SSSn,.,21两个无序分类变量关联性分析两个无序分类变量关联性分析方法: 检验检验统计量为:其中, 统计量服从自由度为(n-1)(m-1)的 分布。 为观测频数, 为期望频数。2nimjijEEAijij112222AijEij多个数值型变量可以使用散点图矩阵多个数值型变量可以使用散点图矩阵多个分类变量可以使用网状图多个分类变量可以使用网状图补充补充n当目标变量是分类型变量,解释变量是数值型变量时可以利用方差分析方差分析的方法,来判断目标变量在不同分类水平下解释变量的均值是否存在显著差异。初步结论初步结论u变量是否有缺失u变量是否有异常值u变量是否有冗余u变量的分布情况u样本是否有重复u样本是否存在不平衡类问题简单的处理简单的处理u对于缺失问题可以删除删除记录或者插补插补u对于异常值可以删除删除或者替换替换u对于变量冗余问题可以使用 变量选择方法变量选择方法来消除冗余变量u对于变量分布的问题可以使用一些简单函数简单函数来进行变量变换u若样本存在重复记录可以使用去重复去重复过程来解决u对于不平衡类问题可以使用过抽样过抽样来解决其它的问题其它的问题u是否需要抽样u是否需要降维u是否需要生成新的变量u是否需要对变量进行从新计算u连续属性是否需要离散化谢谢
发表评论