——数据分析深度理解,全是方法论及经验,不看真的就亏了!" /> ——数据分析深度理解,全是方法论及经验,不看真的就亏了!全文共 13806 个字,建议阅读需 10 分钟大家好,看到一篇数据分析好文,分享给大家,主要讲数据分析方法论" />
当前位置:网站首页 > 探索 > 【统计知识】万字长文——数据分析深度理解,全是方法论及经验,不看真的就亏了!

【统计知识】万字长文——数据分析深度理解,全是方法论及经验,不看真的就亏了!

【统计知识】万字长文——数据分析深度理解,全是方法论及经验,不看真的就亏了!全文共 13806 个字,建议阅读需 10 分钟大家好,看到一篇数据分析好文,分享给大家,主要讲数据分析方法论

全文共13806个字,建议阅读需10分钟

大家好,看到一篇数据分析好文,分享给大家,主要讲数据分析方法论经验总结以及个人成长!希望能给你带来收获~

前言

我是一个数据从业者,很早以前就想把自己在工作和学习中的心得做个总结。一方面是对自己过往经历的一个总结和回顾;一方面最近几年大数据是越来越火了,也希望自己的经验能帮到那些对数据有热情、希望从事数据行业的新人们;还有一方面,也非常重要,是希望跟广大同行们做一个交流,互相帮助,共同成长。

在开写之前,先做下自我介绍。我在企业里从事数据相关的工作已经有11年了,在这些年里,我做过咨询顾问、数据分析师、售前工程师、开发工程师、数据分析经理直至总监。在管理岗上,我带过数据分析、数据挖掘、数据产品、数据仓库等各种团队,其中带数据分析团队时间是最长的。先后就职于国企、传统制造业和互联网企业。总的来说,比较杂。现在想来其实有得有失。缺失的是,在任何一个细分领域上都没有做得特别深入,不算是一个合格的专家;得到更多的是,我对整个数据的产生、处理、分析直至为企业提供价值的过程都有过体会和思考,从而也使我能够站在一个更高的角度上看问题。到底是成为一个专才好还是通才好,我觉得这没有一个确定的答案。个人觉得T型人才是比较受欢迎的,也就是自己的技能和业务面同时要有宽度和深度。当然,到底多宽或多深才合适,取决于个人的职业发展意向。基于我的经验,我分享的更多是对这个行业的理解、做事情的思想和方法论,而不会侧重于具体的实现技术。想学技术的同学请绕行。

后面我预计要分享的内容包括数据分析、产品、仓库、数据团队建设等等。个人经验最多的是数据分析,就从这里开始吧。可能包括以下话题:

什么是数据分析

一句话定义,数据分析是一个从数据中通过分析手段发现业务价值的过程。这个过程的起点是获取一份数据,这个过程的终点是发现业务价值。过程可以大致为分数据获取——数据清洗——数据处理——数据建模——分析结果呈现——业务价值发现——业务价值实现这几个阶段。

在具体说明每个阶段之前,首先要谈下我对数据和业务价值这两个概念的理解。

过程的详细说明:

在开始做分析之前,首先要有分析目标!分析目标!分析目标!重要的事情说三遍。

数据分析有哪些分类

1、面对的问题不同:战略、运营

战略分析:是为了解决公司战略方向问题,回答要向哪里去的问题。

运营分析:不同于战略分析,运营分析以解决实际运营问题为目标,比较微观。

2、服务的部门不同:业务、数据

3、分析的范围不同:行业、公司、部门、业务环节

4、项目的阶段不同:咨询、实施

综上,根据数据分析的使用场景、业务阶段、服务人群、范围及层次不同,可以分为很多种。以上只是列举出一部分。在每种场景下,数据分析的目标、关注的重点和难点都有所不同,分析师要在分析过程中时刻关注自己有没有偏离目标,并对重点和难点有充分的准备。

如何设定分析目标

从我的经历看,数据分析的目标主要来自两方:一方是业务,一方是数据部门自身。

对于一个具体的数据分析项目来说,可能以上两方的因素都会存在,只是占比多少而已。以下详细说明这两种方式的场景、前提及“坑”。

总结一下,分析目标的设定是数据分析最初也是最重要的一步。一个合理的分析目标应该具备以下特征:

怎样才算是一个合格的数据分析师

可以从分析师的工作目标、工作内容和能力要求三个方面回答这个问题。其中工作目标和工作内容是息息相关的。要说清楚这个问题,我认为除了一些公认的标准之外,还有一些标准是因公司和行业而异的。也就是说,必须把它放在一个具体的公司业务框架之中考虑。

1、工作目标主要由公司的业务发展阶段决定

一般来说,无论是哪个公司,都希望分析师能有效地利用数据引导和驱动业务发展,实现数据的价值。但是,公司发展的情况不同,对数据分析师的价值定义也会不同。

2、工作内容主要由公司的数据建设程度决定

参照第一章,分析师的主要工作内容数据获取、数据处理、数据清洗、数据建模、分析结果呈现、数据价值发现及实现。无论分析的目标是什么,大体总要经过这几个阶段。由于数据建设的阶段不同,分析师在这几项工作内容上所花费的时间也不同。在公司数据建设早期,分析师可能在数据获取、数据处理和清洗、指标建设上花费更多的时间;数据建设到达一定阶段之后,分析师的工作更多会在数据建模、呈现和数据价值实现上。

3、分析师的能力要求

对分析师的能力要求可分为通用能力和技术两部分,同时也可以分为业务和数据两部分。

① 业务能力:业务要求又可以分为微观和宏观两方面:

②数据通用能力:

③数据技术:

好的分析师在实际的业务操作中至少会做好三点:

什么企业需要数据分析师

企业需要数据并不等于需要数据分析师。

如果仅是想看数据,其实有很多企业可以提供这样的服务和工具。比如流量统计工具GA,比如报表工具Tableau。这些工具都可以在不需要分析师的情况下,对业务人员做简单的培训就可以用起来。

分析师承担的是相对复杂的、个性化的、以分析为目的(而不是查询)的任务。

如果企业有如下情况之一,那么可能是需要建立一支分析师队伍了。

怎样建立一支分析师团队

从企业层面看,如果要建立分析师团队,要弄清楚几个问题:

建立分析师的目的是什么?

分析师属支持角色,那么他们支持的对象是谁?

分析师的主要工作内容什么?

分析师的规模多大较为合适?

如何评估分析师的绩效?

弄清楚这五个问题之后,就会知道应该招聘具备什么经验的人,招聘多少人,以及对水平的要求有多高,如何考核他们等等。

那么如何思考这五个问题?

建立分析师团队的目的:虽然成立分析师团队的决定通常是由高层做出的,但是主要目的不一定只是为了做决策支持,也许是自底向上产生的需求推动。有很多情况下,管理层觉得他们需要看数据,因此招聘了有决策支持经验、具备宏观思维的分析师,但实际上又安排了分析师去支持具体业务;或者反过来,管理层希望分析师能支持具体的业务,但是他们又安排分析师评价整个公司的运营情况,甚至提出战略方向。这两种情况都会造成人才的浪费。要知道业务分析和决策支持对分析师的要求是不同的。至少,前者需要分析师能关注到细节,而后者要求分析师不拘小节,视野要足够高。

分析师支持的对象:如果目的明确了,通常支持的对象就清晰了。

分析师的主要工作内容:这同样主要取决于团队定位,具体的工作内容可参照《数据分析有哪些分类》

分析师团队的规模:规模取决于多种因素,比如工作内容的复杂程度、业务需求的多少和缓急、能招聘到的人员的技能水平等。

分析师的绩效评估:最直接的评估方法是看分析师产出的数量和质量。如果只看产出的数量是比较容易的,比如可以看完成需求的多少、分析报告的数量等。但由于分析负责的业务线不同,这会忽略工作的难度。需要注意的是,分析师很多工作的投入和产出是不成比例的。比如沟通、业务梳理等基础性的工作占据他们大部分的时间,而这些工作可能只有很少的可见交付物的输出。除了产出量,还需要看产出的质量。最理想的质量评估就是看对业务的贡献,即提升了多少业务价值。但这同样是比较困难的,因为有时候业务价值也很难量化。除了对外的产出,还有一个维度是看对数据团队内部的支持,因为分析师通常是作为联系数据团队和业务团队的桥梁存在。比如,对数据指标体系的建设和数据仓库、数据产品的建设中做出的贡献。但是同样,这些贡献也很难量化。

如何实现数据分析的价值

在之前的章节中已经提到分析的价值在于业务价值,而业务价值实现的最后一步是把分析结论应用于业务中,并反复迭代。

我想从一个例子来说明分析师在整个价值实现链条中的位置和作用。

假设我们在考虑如何实现一件工具的价值,这件工具可以是一把钳子,或者更复杂点,比如一部电脑。在这个例子中:

也就是说,数据分析的价值除了分析师这个因素之外,还受到其他因素的影响。

比如:

呃。。。是不是漏了点什么?分析师哪里去了?其实分析师的作用正在于对上述因素形成过程中的影响:

数据分析师团队的分工与合作

个人感觉分析师团队很不好带,数据分析师团队最大的三个痛点是:

散:在公司级别的团队中表现尤其显著。由于支持的业务多,而各业务的发展目标不同,导致无法设立一个统一的业务目标,只能按人去设定目标,管理效率很低。

乱:正是由于业务目标散乱,造成分析师之间的工作无法统一和协同。很多时候都是各自为战,没有配合,甚至出现目标冲突的情况。

弱:不能影响业务,不能建立话语权。这个在上文中已经说过,此处不再赘述。

这里面的关键是解决“散”的问题。很显然,如果把眼光放在部门级的业务上,是无法解决这个问题的。因此,需要把视野扩展到全公司。基于公司统一的发展目标,建立一个统一的分析框架。正如数据分析是服务业务的,分析框架也要基于业务模型来建立。业务模型的标准是:

有了业务模型,现在需要建立分析模型。我的经验是对着业务模型提问题。首先是公司级的:公司的发展目标是什么?需要哪些要素来完成这个目标?各要素之间如何互相促进?然后将上述问题分解到部门级。

最后可以将问题归类,可以分为:目标分析、运营分析、要素分析等。这些分类好的问题就是分析师分工的基础。

传统的分工方式是分析师按支持业务部门分工,或者按支持的业务模块分工。

这种分工方式的结果是:

第一、分析师对业务的了解如同盲人摸象,每个人都只能了解到部分业务,不能也不会从整体考虑业务问题,对问题的定位缺乏深度;

第二、分析师的工作是割裂的,自己的分析结果不容易被其他分析师采用。

以电商平台模式举例,运用上面的方法:

建立业务分析模型:用户、商品两个主要要素。链接这两个要素的是用户购物体验。用户自身会有用户生命周期,商品自身会有商品生命周期。还可以进一步细化:用户购物体验包括查找商品信息、下单、配送、付费、售后等体验。商品生命周期可以包括采购、仓储、上下架等。商品要素包括定价、分类、功能、用户评价等。

提问:公司的发展目标?假设公司的发展目标就是追求销售利润最大化(实际上很多电商平台不是通过这个模式来盈利的)。要素?利润的大部分通常是由高净值人群和高毛利商品贡献的。要不断发展壮大高净值人群和提升高毛利商品的销量。各要素之间如何促进?高净值人群不会只买高毛利商品,平台也不可能只卖高毛利商品。链接这两者的是用户体验。

分析师可以根据分析主题分成两个大组:一组的分析任务包括识别高净值人群、分析高净值人群的购物体验、分析高净值人群的生命周期;二组的分析任务包括识别高毛利商品、分析用户对高毛利商品的购物体验、分析高毛利商品的生命周期。当然,还可以把购物体验单独作为一组或者在上述基础上进一步细分。比如高净值人群分为A、B、C等几个不同特征的人群,如果其特征差异很显著,可以基于人群分组做进一步划分。

这样分工的好处是:

第一、分析师是基于分析模型的分组,组内目标一致,组内分析结果是可以共享和互相借鉴的;

第二、组内大目标的设定可以较为宏观,促使分析师从整体考虑问题。

第三、组内对大目标的分解最终会落实到具体业务上,不会太虚。

第四、不同分组间的分析师虽然目标不同,但是使用的数据维度基本一样,很多的基础性工作是可以共建的,且分析结果也可以互相借鉴。

一篇好的分析报告有什么样的标准

写分析报告应该是每个分析师的必做功课之一,不管是简单的或者复杂的,正式的或者非正式的。

什么是分析报告?我定义为有特定的主题、分析过程和结论的都可以算作分析报告,而不拘泥于表现形式。

那么怎么才算是一篇好的分析报告?相信每一个分析师都会有自己的标准。比如:对业务有意义、数据准确、逻辑严密等。这些都没有错,但是报告是给人看的,而每个人的背景和需求不同,那么从报告读者的角度出发去衡量报告的好坏会更加客观。

既然要从读者出发,那么首先就要对读者分类。从我的经验出发,我们可以把报告的读者按职级不同简单分为决策层、执行层;按对业务的了解程度不同分为了解和不了解两类。那么读者可以细分为四类:

我将从选题、数据选择、分析过程、结论、报告结构、可视化这几个方面去说明对不同类别的读者,一篇好的分析报告的标准是什么。

总结下,我认为报告选题、数据选择、分析过程、结论、报告结构、可视化是影响一篇报告质量的主要因素。但是分析报告如同一件艺术品,没有放之四海而皆准的标准,只有是否迎合和满足的受众的需求。

因此,分析师必须清楚谁会看你的报告、你的读者希望从你的报告中得到什么、读者的背景(包括业务和数据方面的知识)是怎样的、读者对你和数据的信任度如何。如果分析师要写出一篇好的分析报告,需要了解的不只是数据和业务。

数据分析三元论:势、道、术

1、势

有个成语叫“大势所趋”,顺应趋势、迎合潮流的事情做起来总是事半功倍的。

在做数据分析之前,我们要问一问:在这个时代、行业、公司做数据分析是大势所趋吗?

要回答这个问题,首先要搞清楚哪些因素构成了数据分析的“势”。我列举如下几个:

行业:我以为只有那些能够产生大量数据、且市场需求和业务模式变化较快、竞争较为充分的行业更适合做数据分析。大量数据是基础和原材料;市场需求和竞争压力是内在的驱动力。比如To C的电商行业,数据量已经到了一定量级,而人的需求往往是变化较快的,且这个行业没有形成事实上的垄断。虽然阿里、京东的电商平台已经占据了很大的市场份额,但是他们之间仍然存在竞争,而且垂直电商也还有生存空间。再比如电信和金融行业,也能满足以上几个条件。但是有些行业,看起来业务规模大,但实际上不适合去做数据分析。比如家装、餐饮,这两个行业虽然古老,但除了某些巨头之外,信息化做的相对较差,数据采集都是问题,更谈不上做数据分析了。再比如能源行业,也能够产生大量的数据,但是因为市场需求相对稳定,且基本形成了国家垄断,没有做数据分析的内在需求。

公司的数据环境:数据环境包括信息化水平、数据文化、老板对数据的重视程度等。这几个因素是很好理解的。信息化水平决定了数据的量和质量,消除数据不一致、清洗脏数据要花多少时间和精力,做过的人都知道。。。数据文化包括数据相关的流程、规章、制度,公司内部对数据认知和利用的程度等。最后,我向来认为数据是一把手工程,由于数据从采集到价值产出,都是涉及多个部门的利益,没有老板的支持,做好数据是天方夜谭。

2、道

所谓“道”,主要指分析体系和框架、目的和价值。

而这些主要受公司的业务模式和业务需求的影响。说白了,业务模式越简单、越清晰,数据分析越容易出成果。因为简单的业务模式能显著减少数据分析师学习业务的成本。分析体系和框架也会简单明了,在分析时需要考虑的影响因素就越少。而价值链短业务模式更容易让分析主题直接与业务收益挂钩,更容易让数据分析成果变现。而分析需求越稳定,就可以给分析师更多的时间深入研究下去,不断迭代,最终产出更大的价值。分析需求越清晰,花在需求讨论中的时间就越少,最终分析成果被转化的可能性就越大。

3、术

所谓“术”,是指数据分析的方法和过程,其中分析思维和分析技术对分析结果的影响。

正如我在开篇所述,数据分析所涉及技术体系非常庞大,而且学习资料也很多,不在本专栏范围之内。我重点想说说我经验中的一些分析技巧(包括思维和方法):

是的,业务老鸟就是比新手能更快地“嗅”出问题的根源;其次要对数据有足够的敏感度,数据之间都是有关系的,某个相关的指标变化也许就能告诉我们答案。究竟这个假设是不是问题的答案,最终取决于数据验证。“小心”的意思是,一定要保证在验证过程中不受其他因素的干扰,AB测试无疑是个很好的方法。还有,在求证过程中要保持逻辑的严密。

上一篇: 景观社会的分裂主体: 以德里罗的《美国志》为例
下一篇: 【探索】大数据背景下医院数据资源分类框架与数据标准化分析

为您推荐

发表评论