这样一来,我们就可以直观地发现一些明显的数据特征。就拿图中标识出来的两家知名公司来说。我们会发现通用电气General Electric的经营业绩比较稳定,而埃克森美孚Exxon Mobil就相对显得大起大落一些。虽然两者有明显不同,但自2008年起,市场价值均有显著的回落,这应当与当时席卷全球的经济危机有关。
图一 基于JMP软件生成的动态泡泡图
有人在发现这些特征后会迸出一些新的想法:通用电气、埃克森美孚都是美国的企业,中国企业的表现又如何的呢?我们可以在使用“泡泡图”的同时,在JMP中调用“数据筛选”功能就可以得到类似图三的界面。
从中可以清晰地观察到,自2004年以来的7年间,共有392个次的中国企业登上了福布斯排行榜。虽然在数量上、市值、销售额等经营指标上与世界顶级企业有一定差距,但以中石油Petro China、中石化Sinopec China Petroleum等位代表的一批国有大型企业发展速度很快,令世界瞩目。
图二 JMP软件中动态泡泡图与数据筛选的配合使用
实际上,探索性数据分析还远远不止这些。分析人士完全可以在数据分析的初期不受太多理论条件的束缚,充分展开想象的翅膀,多角度、多层面地对现有数据的规律进行可视化的探索,新的线索往往就会自然而然地出现了,为下一步的统计建模与预测等精细化分析奠定良好的基础。
总之,探索性数据分析强调灵活地探求线索和证据,重在发现数据中可能隐藏着的有价值的信息,比如数据的分布模式、变化趋势,可能的交互影响,异常变化等等,而传统的统计方法则侧重于评估已经发现的证据,通常要求分析人员具备一定的统计学基础。根据不同的业务目的和数据资源选用不同的技术,或者综合使用这两类技术,将会使我们更快地获得更多的发现。对于大都不具备统计学功底但数据分析任务却越来越多的企业人员(如市场分析人员、质量管理人员等)来说,重视、学习并用好探索性数据分析往往能事半功倍。
发表评论