当前位置:网站首页 > 探索 > 数据资产管理:数据发现,发现什么,怎么发现?

数据资产管理:数据发现,发现什么,怎么发现?

数据资产管理:数据发现,发现什么,怎么发现?今天我们聊聊数据资产管理这个话题,有人会问,数据资产盘点都是人工在做,有没有更智能的方法,能够自动盘点数据,让数据更容易查找和使用?嗯,有的。

探索发现纪录片_探索发现秘境追踪第五季_发现探索

今天我们聊聊数据资产管理这个话题,有人会问,数据资产盘点都是人工在做,有没有更智能的方法,能够自动盘点数据,让数据更容易查找和使用?

嗯,有的。它就是经常配合BI工具(商业智能)一起使用的数据管理工具——数据发现。

01 数据资产发现,是什么?

数据资产发现是一个可视化、智能化的数据管理工具,它的定位是使业务和技术人员能够在需要时更容易找到、理解和使用他们想要的数据。

这个概念是不是似曾相识?是的,数据资产发现与数据资产目录在定位上很相似,从本质上讲,数据资产发现就是一种更智能的数据资产目录工具。如果我们将大数据比作石油的话,数据发现就是勘探、采集、处理和炼化石油的过程,它能够更加自动化的识别数据资产,对数据进行迁移、清洗、标记、编目和可视化,从而最大化的释放数据价值。

通常来讲,数据资产发现具备如下能力:

1、多数据源连接

数据资产发现可以连接多个数据源,实现数据的可视化、集成和迁移。支持的数据源除了结构化数据,还能够对非结构化数据、半结构化数据的关键元数据进行识别和采集。

2、元数据分析

对元数据信息进行统计分析,可视化展示数据源的元数据,包括数据表的大小、注释、列数量、时间列数量、主键数量等信息,更细一步地,还统计了列级别的元数据,包括列注释、字段类型、列长度、是否主键列等信息。

3、数据分类和编目

数据发现与数据分类密切相关,通过自然语言处理、语义解析,根据数据的有用性、敏感性或安全性要求进行识别、分类和编目,形成业务、技术多个视角能够识别、查询和浏览的数据资产目录。

4、清理和准备数据

有了数据目录,用户就可以轻松找到想要的数据。但是找到了数据,不一定就意味着它能直接使用,因为这些数据往往还存在很多的质量问题,必须要对这些数据作进一步的清理。数据发现工具一般具备自助数据准备和自动进行数据清理功能,提供有关值域范围、异常值、错误值和其他数据属性和问题的检查和处理,为数据共享和分析提供支撑。

5、数据探索

数据探索是帮助业务人员整合来自各种来源的数据,以了解数据结构并构建交互式可视化来解释该数据。在数据探索中,用户通过使用人工智能技术,来查看自各种来源的数据,并尝试从这些数据中提取重要或有意义的信息。数据发现工具使用热图、数据透视表、饼图、条形图和地理地图等多种方法来帮助用户从数据中获得洞察力,从而实现业务目标。

02 数据资产发现,发现什么?

很多企业数据资产管理的最大痛点就是数据分散,企业不知道自己有哪些数据可用。企业数据大部分分散在不同的系统、不同的数据源和不同的设备中,识别、分类、处理和分析数据,并从中获得洞察力对任何企业都至关重要。

那么,数据发现到底能够发现什么?

数据的位置:数据发现通过连接数据源、采集和分析元数据,能够识别企业有哪些数据,并定位这些数据在哪里存放,谁可以访问它。

数据的结构:数据发现可以自动解析数据的结构,包括对结构化、半结构化和非结构化数据的的数据特征提取,通过统计模型对数据进行分类。

数据的传输:数据发现捕获数据的流向,了解传输哪些数据、如何传输以及通过哪些渠道传输。

敏感的数据:数据发现通过内置的数据口径、标准和规则,可以自动识别数据的技术属性和业务属性,可以快速对身份证号码,姓名,地址,手机号、银行账号等敏感信息进行识别、分类和跟踪,方便评估安全或隐私风险并定义缓解策略。

数据的问题:数据发现通过数据质量检核,可以对数据集中的数据值域范围、异常值、错误值、重复数据等数据问题进行稽核,快速发现数据集中的问题数据,并执行数据清理,以提高数据质量。

数据的含义:数据发现通过丰富的图表,通过可视化的方式展示数据资产地图,直观清晰的展现数据富含的意义、用途等,使得用户可以快速的了解数据,并从数据中获得洞察力。

03 数据资产发现,怎么发现?

当下,数据资产发现主要有两种形式:手动发现和智能发现。

1、手动数据发现

在过去 20 年里,在机器学习进步之前,数据相关工作人员对数据的相关作业,如:发现数据、采集数据、处理数据、分析数据等,大部分需要依靠人类的脑力和体力。简单地说,人们通过人为的方式,识别和记忆关于哪些数据可用,存储在哪里,为什么需要,以及为最终用户提供带来什么价值。

后来,企业开始有意识的管理数据,通过监控元数据和数据血缘,发现并了解数据分类和流程。数据管理员,通常是具有复杂技术和知识的人才能胜任,负责企业数据资产的盘点和管理,基于一定业务规则对数据资产进行分类和编目。在这一过程,数据管理员通过手动的方式建立数据目录、绘制数据地图,以理解企业中的数据资产。而这一方式,一直沿用至今。

2、智能数据发现

大数据时代,数据呈爆炸式增长,且数据在企业业务发展的过程中,扮演的角色越来越重要。传统手动发现数据的方式,在应对企业的数据管理和使用需求,以及大规模、多样化的数据增长情况下,显得越来越吃力。因此,企业迫切需要一种更加自动化、智能化的数据发现工具,来帮助企业从数据中获得更深入的洞察力。

随着技术的进步,智能数据发现工具逐步成熟了起来。智能数据发现主要使用增强分析、自然语言处理、机器学习等人工智能技术,对数据进行定位、探查、清理、集成和可视化,来呈现和洞察数据价值。智能数据发现是一个飞跃,通过对可用数据源的整体理解和分析,在黑匣子中进行一些处理并得出合理答案。

有了AI的加持,数据发现有了令人兴奋的创新方向:

对此,也有一些专家认为数据发现类似于数据挖掘,这是一些公司用来尝试从大型数据集中提取可操作数据的过程。在某些方面,数据发现也可以通过与电子发现(e-discovery)的相似性来解释;例如,在涉及法律领域的电子发现中,指定的 IT 专业人员从可能适用于案件相关的大型数据集中提取数据,辅助办案。数据发现采用了类似的方法——从大量数据中筛选出相关且可操作的数据项。可能有人会问:有了智能数据发现还需要手动数据发现吗?个人认为,现阶段大部分的数据发现还需要人工手动干预,而基于机器学习等人工智能技术的利用可以帮助改进数据发现过程,例如自动发现数据中的数据质量问题、法规遵从性问题等,而数据结果还是需要人为决策。

04 数据资产发现,解决哪些问题?

数据资产发现也叫自助式数据探查和分析,从定位上讲,是服务于业务人员,帮助业务人员从数据中获得有价值的信息,这些信息可帮助用户在竞争对手之前发现宝贵的机会,而无需咨询 IT 部门,使得数据分析和使用变得“平民化”。可视化的数据呈现,提高了数据的可操作性,让业务人员能够更快地找到答案。数据发现为企业提供了一种易于理解、清洗和分析数据的友好方法,使用户可以轻松深入研究变量并提出新的问题和见解。

1、识别数据应用中的痛点每个企业的数据管理和应用都会有独特的痛点和问题,例如自多个来源的大量数据、复杂的架构、数据安全和法规遵从性等,所有这些都应该得到解决和持续监控。尽可能多地提前识别这些问题,可以帮助企业在问题升级之前解决问题并确保企业的数据保持安全。

2、使用多样化的数据源如果企业可以从多个来源收集和使用数据,那就预示着企业可以从中获得更加深入的见解。但是,值得注意的是,企业需要正确处理和使用数据,确保数据完整性、数据质量和个人隐私保护。数据发现有助于企业从不同数据源中收集、清理相关数据,这些数据可以提供大量可操作的信息。

3、用企业的数据讲故事数据发现为业务用户提供了自助式数据分析和探索的能力,以可视化的方式进行数据呈现,形成业务人员更容易理解的故事板。直观、可视化的“数据故事板”可以帮助人们理解信息,以及从中得到有价值信息,帮助用户进行决策。例如:数据发现通过对企业多渠道中的客户行为、交易和情绪数据的分析和评估,来获取客户的 360 度视图,在客户流失之前进行预警,从而辅助决策人员作出应对策略。

05 数据发现工具,怎么选?在国外一个数据管理工具评价网站显示,2022年 9个最流行的数据发现工具有:

你有没有发现以上数据发现工具其实侧重点并不相同,有侧重数据管理的,也有侧重数据分析的。例如:JMP Statistical Discovery——SAS公司的数据管理产品,是侧重跨数据源数据采集、自助数据准备和自动进行数据清理。而Google Cloud的Looker,微软的Power BI,以及Salesforce的Tableau则更侧重自助式的数据可视化能力。那么,一个数据发现工具到底都应该包含哪些通用功能,企业选型应重点关注哪些方面呢?通过对以上工具的研究,笔者发现一个完善的数据发现工具,需要具备以下功能:

除了以上基本功能之外,在数据发现工具中首先要考虑的是数据治理,企业的数据环境中可能有上百套系统,成千名用户在创建数据,企业必须确保这些数据能够自动化的集中式治理。其次,数据安全和隐私也是需要重点关注的方面,数据发现平台需要提供一定的安全机制,如:用户认证、访问控制、数据脱敏、数据加密等,确保数据安全和合规使用。

上一篇: 航天科技对我们生活的影响?
下一篇: 30年奋斗梦想成真,中国进入太空站时代

为您推荐

发表评论