当前位置:网站首页 > 社会 > 1. OneEntity统一实体

1. OneEntity统一实体

1. OneEntity统一实体为打破数据孤岛,创造更大的数据价值,阿里设计了OneEntity,来提供全域数据与服务。本文作者分析了创造OneEntity的原因和价值,解析了

为打破数据孤岛,创造更大的数据价值,阿里设计了OneEntity,来提供全域数据与服务。本文作者分析了创造OneEntity的原因和价值,解析了OneEntity体系。

前几篇你跟草帽小子一起了解了阿里数据中台的建设计划,接下来我们一起来解密OneEntity体系。

一、数据孤岛

阿里巴巴作为一家包含多条业务线的公司,如电商、金融、广告、文化、教育、娱乐、设备和社交等领域,数据区域包含国内、国外;数据场景包含线上的人货场钱、线下的人货场钱位置等数据,以及物流、用餐、咨询、影视、出行、阅读、音乐和健康等相关数据。

仅是与人相关的数据就包含业务账号信息、PC cookie、无线IMEI与IDFA等设备标志、身份属性等。

而随着人们互联网行为的多样化,如果每天都有数千亿条实体数据产生,而这些数据都分属于不同业务单元,那么数据就很容易孤立。

自然社会是指_人的属性主要有自然属性社会属性与什么属性_属性自然社会主要人有那些

草帽小子思考:以前总是不理解数据孤岛这一部分,明明已经建立了onedata体系,做好了各业务线数据接入,ODS层数据全面接管,明明数据都汇总到了一块,为何还说数据孤岛呢?

直到真正开始做用户画像这一工作才发现,底层的指标体系往往是直接面向各个业务线内,缺乏一个业务线间的关联,这是由业务局限性导致的。比如说,你是淘宝的运营人员,那你会关注钉钉的指标体系是怎样的吗?

答案是显然不会。

那这样就产生了数据的断层,单是从底层的指标层,用户在钉钉的行为习惯,淘宝的人员是无法获知的。那如果我作为淘宝的人员,既想知道他在淘宝上购物行为,也想知道他在钉钉、支付宝、优酷等地方的行为习惯,又该从何得知呢?

二、数据只有融通才能真正产生价值

为打破数据孤岛,创造更大的数据价值,阿里设计了OneEntity来提供全域数据与服务。OneEntity体系主要包含统一实体、全域标签、全域关系、全域行为4大类。

属性自然社会主要人有那些_人的属性主要有自然属性社会属性与什么属性_自然社会是指

1. OneEntity统一实体

将若干个实体归拢到一起,并命名为OneEntity,可分为一般质量、高质量、高价值OneEntity。

2. GProfile全域标签

基于归拢后的数据对OneEntity进行贴标签的操作。在OneEntity体系中,如何为OneEntity贴上标签并找出高质量、高价值的OneEntity是最常见的问题。

这几离不开标签的萃取能力,那阿里是怎么萃取标签的呢?

自然社会是指_属性自然社会主要人有那些_人的属性主要有自然属性社会属性与什么属性

(1)有效

一方面,主动去找人口学、社会学等学科的教授,学习与“人”相关的理论知识;

另一方面,调研了很多业界的标签分类体系,取长补短。

最终,将“人”的立体刻画划分为“人的核心属性”和“人的向往与需求”2大部分,具体包含4大类:

人的核心属性,可分为自然属性、社会属性。

人的向往与需求,可分为兴趣偏好、行为消费偏好。

在以上四大类的基础上,我们又尝试根据不同的业务形态进一步细分二级、三级分类。

(2)高速

标签的萃取工作包含:数据采集;清洗,去噪声并统一;反复试用并确定最佳算法及模型;为模型选择计算因子并对模型中的每一个计算因子调配权重;产出标签质量评估报告以辅助验收。

我们随机抽查了若干个在用的标签,预估工作量和工作周期,一个有价值的标签的萃取,平均耗时2周。

慢的主要原因,一是由于萃取流程复杂,每个标签萃取都依赖底层的基础数据,而较少依赖上一层汇总的数据中间层数据;二是大量重复的人力,对应的标签萃取逻辑时可以复用的,包含算法的选择、模型训练和计算因子的加权等,但由于不同人来做,造成了很多重复工作。

标签萃取过程复杂,那有什么可以参考的流程呢?

自然社会是指_人的属性主要有自然属性社会属性与什么属性_属性自然社会主要人有那些

首先,数据源层面:建设一套完整的数据源,以OneEntity体系为核心,将OneEntity相关实体及其行为全部串联起来,与存量的标签一起作为数据源。

其次,标签计算层面:将标签萃取逻辑沉淀为2种,分别对应到偏好类标签和分类预测类标签的工具型产品的生产过程中,包含计算因子、权重等业务规则、数据样本选择、模型与算法选择等。

最后,标签监测层面:沉淀质量评估报告和生产监测、上线等管理流程。

当一整套工具型产品上线之后,批量生产十几个同类型标签只需要2天左右,这是因为在补足数据源、确定业务规则、选择数据样本、选择算法与模型的过程中,减少了大量的代码开发与模型训练的工作。

在这个过程中,参与的角色也发生了变化,从原本的以数据产品经理、数仓工程师、数据科学家为主导,转变为对业务更为熟悉的业务人员、数据分析师为主导。

3. GRelation全域关系

找到对象的关联关系,当OneEntity代表人时,就可以找出他的亲属、朋友、校友和同事等;当OneEntity代表商品时,就可以找出他的上下游商品/货等。

4. GBehavior全域行为

将与OneEntity相关的实习及行为关联起来,形成一套用户行为体系。如:

在大数据的世界里,将孤岛数据实现融通并加以萃取,可以围绕一个主题展开全面剖析。

专栏作家

草帽小子,公众号:一个数据人的自留地,人人都是产品经理专栏作家。《大数据实践之路:数据中台+数据分析+产品应用》书籍作者,专注用户画像领域。

上一篇: 公路工程项目社会稳定性风险评估.doc
下一篇: 青年服务社会,青春汇入五莲——北中医三附院“医心医路”研究生团队社会实践纪实

为您推荐

发表评论