探索性数据分析的目的就说让人能了解数据概貌,形成对数据的直观认识,尽可能探索数据属性间的关联。这种认识包括但不限于:数据中有哪些属性字段与属性值,缺少哪些属性值,属性字段值的分布如何,数据的组织结构如何,属性间有哪些关系和联系。
探索性数据分析可以让我们充分了解数据,了解业务,同时对重要因子的确定、特征工程的支持、模型的选取和调整等后续深度挖掘工作有着重要的影响。
数据字段分类
以表格形式组织而成的数据,每一行可以代表一个实体,每一列代表着实体的一个字段。如果仅考虑每个字段的统计性质,可以把每个字段按照衡量尺度分成四类:
定类尺度(类别尺度)
这种尺度衡量的数据属性表达,集中在几个有限的值当中,并且在这些值相互之间没有大小之分。如男女。
定序尺度(顺序尺度)
该尺度衡量的数据属性与定类尺度的相同点是,它的值域同样集中在几个有限的值当中,只是这些值彼此之间是有大小之分的。如优良中差。
定距尺度 (间隔尺度)
相比于定序尺度,定距尺度对衡量范围进行了扩充,一方面它的值域不再限定于一个集合中,另一方面它也可以衡量值与值之间的大小。比如30度 20度 10度。但是定距尺度是不能衡量倍数关系的,也就是不能做乘除运算。
定比尺度 (比例尺度)
相比定距尺度,定比尺度填补上了“0点”的衡量,有了这个“0点”,乘除运算就变得有意义。比如长度、重量、速度等。
发表评论