当前位置:网站首页 > 探索 > 被黄仁勋和OpenAI接连点名

被黄仁勋和OpenAI接连点名

被黄仁勋和OpenAI接连点名随着大模型和向量数据库的组合方案被认可,今年6月,Zilliz在2019年开源的向量数据库产品Milvus,在GitHub上的star总数达到2万——其中

文 |真梓

封面来源|IC photo

2023年夏天的一个午后,向量数据库公司Zilliz创始人兼CEO星爵的头像准时闪动在视频会议中。

距离36氪上次见到这个头像,恰好过去一年——2022年8月,身在美国的星爵同样通过视频会议的方式和36氪连线。

一切看似毫无变化,但会议室中的每一位都心知肚明,这是完完全全、彻底不同的一年。

今年1月底,ChatGPT上线两月便收割1亿月活用户。随后,百川智能、光年之外等中国大模型创企批量成立,国外Anthropic、Runway、LangChain等拿下知名风投巨额投资。接下来,各企业开始风靡训练行业模型、探索AI应用

向量数据库——这一曾经小众IT产品的高光时刻同期而至。

催化剂首先出现在3月的英伟达GTC大会中,一身皮衣的黄教主在洗脑般宣告“AI iPhone时刻已至”后,专门讲到向量数据库和英伟达的结合场景。不久后,OpenAI在发布Plugin插件功能时,强调用户可以通过向量数据库,让大模型访问个性化数据。

大模型出现前,向量数据库的使用场景常限于推荐系统、视觉检索等,会被投资者质疑市场天花板不高,空间有限。也正因此,向量数据库的名字很少被非专业从业者听闻——纵观全球,三年前专注于此的创业公司很可能不超过5家。

但随着大模型爆火,向量数据库帮助大模型更新数据、构建知识库、消除幻觉的能力愈发被普及。这个之前一点也不拥挤的领域,短短几月内承载的关注度超出以往任何时刻。

作为全球第一家开源向量数据库产品的公司,成立于2017年的Zilliz,在年初被英伟达、OpenAI分别提及后,立刻迎来用户量的飞速增长。

“我们和英伟达、OpenAI合作得比较早,但某种意义上它们的提及,帮Zilliz破圈了。”星爵对36氪表示。随着大模型和向量数据库的组合方案被认可,今年6月,Zilliz在2019年开源的向量数据库产品Milvus,在GitHub上的star总数达到2万——其中,有近一半star是今年大模型出现后的新增。不止开源,星爵预测,今年年底Zilliz的商业化收入会比年初增长20~30倍。

而在增长、破圈之中,争议随之而来。

当云厂商、大数据公司批量发布相关产品,一级市场水下项目悄然出现,海外同类公司一月内获投5家,向量数据库不再是鲜有人踏足的无人区。于是,关于向量数据库产品门槛不高、不值得投资的说法开始出现。对此星爵直言,“向量数据库技术门槛不高”,是他从业数年里看到的最大误读。

“传统数据库只需要处理一维数据,向量数据库里低则是几百维,多则是几千维的高维数据。它既是一个计算密集型,又是存储密集型的产品,系统设计相当复杂。”星爵觉得,向量数据库恰恰可能是人类历史上最复杂的一个数据库系统。

另一个疑惑是,随着国内外愈发多不同背景的企业入局,作为专业向量数据库厂商的Zilliz,此时又会如何定义自己?

对此星爵首先表示,Zilliz是“长期主义的幸存者”。过去五年,即便各类质疑不断,但他和Zilliz最深的恐惧,却是环顾四周无人同行,“最怕Zilliz做五、六年,还独自站在一个赛道里,那可能是一开始的方向就选错了”。

面对潜在竞争,他眼中的向量数据库分为专业选手和非专业选手,不同选手对应着不同市场。

“对不需要专业产品的场景来说,Faiss等向量检索库,或各类传统数据库的改造方案已能满足需求。但我们这类专业选手,最适合数据量大、查询实时性和吞吐率要求高的场景。”即便已成大模型时代的全球明星企业,星爵依旧以技术人的视角细致分析,“和其他方案相比,专业向量数据库有更快的查询效率,更高的吞吐率,能容纳更大的数据处理规模。最终,用户会看到更合适的性价比。”

以下是36氪和Zilliz创始人兼CEO星爵的对话(经编辑):01 开源社区一年增幅打平过去三年,大模型让向量数据库破圈

36氪:今年大模型火爆,Zilliz作为合作方被英伟达和OpenAI分别提及,当时你的感受是?

星爵:其实Zilliz和英伟达、OpenAI已经合作过比较长的时间。

我们和英伟达的合作从2018年就开始,和OpenAI的合作始于去年。所以其实Zilliz没有特别关注会不会被提及,大家只是在共同解决比较有趣的技术问题。

不过,它们提到Zilliz以后,国内的确引起比较多的反响。我们差不多从5年前就开始做向量数据库,某种意义上它们的提及,帮Zilliz破圈了。

36氪:最近半年Zilliz业务的增长如何?开源和商业化两方面都可以谈谈。

星爵:6月我们的star数量到了2万。而去年6月份,我们star数破1万。从时间来看,Zilliz 2019年开源了向量数据库产品Milvus,三年时间GitHubstar数破1万,后面一年破2万,等于这一年有3倍的增速。而从开源的情况观察,我们现在有70~80%的客户来自于全球。

36氪:那么商业化方面呢?

星爵:我们预计今年年底对比年初,会有20~30倍的增幅。

这种进展,首先来自大模型爆发的推动,大模型对我们来说属于Killer Application。

大模型的应用里,很多企业要建造专有知识库。而知识库的数据要用向量数据库进行处理、检索,再和大模型做整合,这是一个现在看来最高效、最准确、性价比也很高的最优解。

这是一个不分行业的需求。每个企业都有自己的知识库,如果每个企业都需要一个大模型,那么理论上都需要用向量数据库改造知识库。今年对我们来说,这块需求确实长了很多。

我们还看到一个比较有趣的现象,就是大模型的发展也促进了向量数据库在另外一些场景,如多模态,计算机视觉、推荐系统、自动驾驶、生物制药方面的增长。

我觉得大模型是一个特别好的催化剂。它作为首个Killer Application,让向量数据库走入了主流开发者、工程师的视野,让它破圈。

36氪:关于大模型和向量数据库的结合,之前也看到Zilliz从存储、计算成本的方面解释过向量数据库的优势。

星爵:是的。如果从生物学角度,我觉得人脑之所以能进化出海马体,是大脑的区域要分工,让人体更高效。

放到计算机科学里,过去的几十年里,经典的冯·诺依曼架构强调存储与计算分离。存算分离的一个核心原因是,它能达到成本和效率的最佳平衡。存储的价格在历史中远低于计算的价格,计算的价格是很贵的。存储和计算分离以后,如果有些任务我们之前处理过,我们学会了那些东西,那就不用再在计算单元里面重新做处理,直接从存储体里去调用就好。

36氪:那么,模型上下文能力的扩大(比如近期升级的Claude),是否会对向量数据库“海马体”的定位造成些许影响?

星爵:大模型上下文的扩大将更加有利于接受更复杂的上下文信息,这等于扩大了CPU 和存储之间的带宽,本质上更利于向量数据库和大模型的结合。无论大模型的参数达到多大规模,上下文多长,大模型始终只是数据的有损压缩,依然有大量的长尾信息需要通过信息检索的方式补齐。

36氪:另一个大的应用场景——消除幻觉也有不同的方案。你觉得向量数据库在消除幻觉方面的特别之处在于?

星爵:解决幻觉主要有两种方法,一种是向量数据库+Prompt,另外一种是Fine-Tune。我觉得向量数据库和Prompt其实是密不可分的。

消除幻觉的过程是把知识库向量化以后,通过向量数据库找到相关知识点,再把相关的知识点的需求,通过Prompt反馈给大模型。

Fine-Tune是另外一种方式,和向量数据库加上Prompt的方式去比,实施成本更高。主要涉及两个方面,第一,它要对大模型进行更改和训练。完整训练一个大模型,可能需要上万块GPU,成本可能是数千万美金,每次Fine-Tune的成本是非常高的。

第二个点,Fine-Tune对人员的要求很高,AI工程师领域博士人才一将难求,工资也很高。Fine-Tune需要懂AI的专业人员才能去实施,真正具备这样知识技能的人,现在全球不超过100万。

整体来看,现在向量数据库+Prompt的方案,可以使每一个应用开发者,使每一个产品经理都能轻轻松松帮大模型消除幻觉。

36氪:你怎么看纯粹的Prompt?提示词工程也被看作消除幻觉的方式之一。

星爵:它可能是另外一种场景,其实不是消除幻觉。

Prompt可以让大模型有一个更精准的设定,比如说你给大模型的人设是一个有10年工作经验的Java工程师,那么你再问它一个Java相关的问题,它会回答的更精准。我觉得本质上这不是在消除幻觉,而是让你优化自己的问题。

其实大模型本质上已经具备了一个20年工作经验的Java工程师的知识,只是看你能不能用正确的方式引导。但如果今天你发明了一个新的语言,叫Java36。这个语言是36氪内部发明的、对外部没有公开材料的语言,那么大模型肯定是不知道的。这时你需要用向量数据库,把这些关于Java36的私域知识告诉大模型。

02 未来增量场景:智能体、多模态

36氪:在构建知识库、大模型的海马体之外,你还看到了什么新兴的向量数据库场景?

星爵:我们现在看到的新兴场景是智能体。智能体的外形不重要,是不是人的形状也不重要。本质上来讲,它要具备高度理解能力,能够快速迭代学习。任何一个生物体的智能都需要记忆,向量数据库在智能体里会扮演记忆体这个核心组件的角色。有了记忆体,智能体就可以做迭代。也就是同样一个事情,智能体第二次做要比第一次更好,接下来就可以做更强的思维推导,完成一些更复杂的任务。

这还是因为,大模型不具备很长的上下文,在记忆方面是比较缺失的,所以需要向量数据库帮忙记住上下文,帮它完成更复杂的任务。

36氪:知识库、智能体,都是大模型时代的探索热点。在这些热点场景的加持下,你觉得现在是向量数据库的iPhone时刻吗?还是需要等待多模态大模型?

星爵:我觉得现在是iPhone时刻。因为多模态是离不开大语言模型的。正如我们人类,人类有视觉,有嗅觉,什么感官都有,但是人类所有信息的沟通是语言串起来的。

除了图片视频以外,生物学,新药研制这些领域有很多大模型,而这些大模型其实也和大语言模型结合紧密。一个蛋白质,一个分子结构,最终的功能表达还是用语言去描述。

语言模型是我们出现的第一个大模型。大模型以后也会在多模态、跨模态里扮演很重要的角色。基础模型在未来两三年内会有更大的发展,会和大语言模型一起支持更多模态。就是通过一个比较大的语言模型,把跨模态打通。

大语言模型是向量数据库的第一个杀手级应用,但向量数据库作为一个基础支撑,未来的场景一定是横跨计算机视觉、自动驾驶、推荐系统、AI制药多领域、多模态的。

36氪:推荐系统、AI制药等场景,在大模型出现之前也是向量数据库的应用场景。

星爵:是的。其实在过去的5年,我们在刚才提及的这些领域里也都积累了非常多的用户。

如果简单来讲,大语言模型是第一个让向量数据库拥有100万个企业级用户的产品。之前所有场景加起来,我们可能有1万个企业级用户,现在大语言模型可以让我们有100万个企业级用户的可能。但是接下来,随着计算机视觉、视频多模态的打通,向量数据库可能也会有更多场景,我们的企业用户可能会达到上百万。这也是下一个Killer Application。

03 最大误读:向量数据库没有门槛

36氪:最近半年向量数据库确实破圈,但火热中也有争议。比如有人说自己不需要专业的向量数据库,用ES加上向量检索引擎就可以。

星爵:场景不一样。用ES做基于倒排索引,不具备模糊查询的能力。

而大语言模型的信息检索、知识库检索其实需要一个近似检索,对于相同的问题,它可能会有不同的答案。对于不同的问题,它也会有类似的答案。ES是解决不了这种近似查询需求的,这是向量数据库独有的能力。

36氪:在这半年里,很多企业想用大模型,但或许对大模型的应用场景、能力有些错位的预期。相应地,你有没有观察到这半年向量数据库也存在一些误解?

星爵:就我自己的观察,过去半年向量数据库突然火起来,导致很多厂商争先恐后进入这一赛道。本质上我觉得有竞争是个好事情,但这反而让一些人感到向量数据库的门槛不高,这是一个最大的误解。

我们做了5年,而且是一个专业的数据库团队在做。我们认为,向量数据库可能是人类历史上最复杂的一个数据库系统。

比如,向量数据库要处理海量的高维数据,传统数据库要处理的是一维数据。一个关系型数据库,它每一列建索引,本质上是在一维的数据上面建。比如说在年龄上面建索引,在工作单位上面建索引,在兴趣爱好上面建索引。

而向量数据库里存储了低则几百维,多则几千维的高维数据。它既是一个计算密集型,又是存储密集型的产品,系统设计其实相当复杂。

36氪:比如,Zilliz之前在产品设计上遇到过怎样的挑战?

星爵:举个例子,在传统数据库里面很多是单机解决方案。数据量大时,数据库做扩展会在业务层做分库分表,再用负载均衡,把请求平均分配到不同的单机版实例上。

2019年左右,我们的1.0版本也采用了这样一个比较简单的架构,就是用一个单机版方案,基于代理的负载均衡支持一定范围的分库分表和扩展。但是接下来,我们发现这里存在很大的问题。第一,向量数据库的向量数据增长很快。第二,很多用户需要数据实时的能力,既要做实时的更新,还要做实时的查询。还有一种特别大的需求,就是用户在处理非结构化的数据时需要一个动态的Schema。

传统的数据库落地场景中,用户可能在电商这个品类里已经自己知道大概有五、六千万个SKU,中间可能有几百个大类,几千个小类。他自己可以基于这种类别进行分库分表。

但非结构化数据的处理场景,变化很快,用户可能随时要多加一个维度的信息进来。他很难从第一天就确定自己的业务逻辑,完全了解未来的业务逻辑,再按照业务逻辑做分库分表。所以,他不能够去做分库分表,反而对动态Schema的要求特别高。看到这样的一些场景以后,我们从2020年开始,果断做了Milvus2.0的设计,是一个完全的分布式解决方案,也支持动态Schema。用户不用在自己的业务逻辑方面去做取舍,可以支持快速变化的业务场景。

对于Zilliz来说,从1.0版本到2.0版本,也付出了很大的研究成本。

36氪:说到壁垒和竞争,确实入局向量数据库的公司越来越多了,比如有些方案是基于ClickHouse改造。在你看来,不同基因的向量数据库是否适用的市场不一样?

星爵:是专业选手和业余选手的区别。如果用户的向量数据量不大,对延时吞吐率的要求也不高,比如只有数百万个向量,能够接受秒级延迟,吞吐率可能在100以内,这类用户可以用基于Redis、ES,甚至你讲的ClickHouse改造的方案去实现。

但如果说用户的数据量比较大,在千万级以上,需要毫秒级的响应。比如,我们就有很多用户需要10毫秒以内的响应,需要一个很高的吞吐率。甚至有些用户最高每秒钟有5万个查询请求,这样的一些场景,必须且只有专业的向量数据库产品才能提供这么好的性能,支持这么高的数据量。

和Faiss等向量检索库,以及一些在传统数据库上魔改出的插件方案对比,专业向量数据库更快、更强、更大,可以有更快的查询效率、更高的吞吐率、能容纳更大的数据处理规模。最终,用户会看到更加合适的性价比。

36氪:所以框定向量数据库最佳客户画像的维度,首先是业务场景,接着是数据规模,和对延时性、吞吐率的需求。

星爵:对,第一个是和大模型结合,另外就是推荐系统、图片检索、视频分类等场景。

具体就是刚才讲的三个维度,第一个是企业的数据量大小,数据量越大就越可能会用一个专业向量数据库,一般来说是千万级的向量是一个门槛。

第二是说它需要查询的实时性,需要秒级甚至秒内的响应。第三个就是吞吐率,吞吐率和使用人数相关。就是看有多少用户要用这个系统,比如一个小团队,可能就20个人,一天都不会有人同时做查询,QPS可能就是1~2,这种情况用其他方案是可以的。但比如,36氪网站上要做所有以前文章的检索和查询,要提供一个用户实时搜索功能,估计每秒钟至少是几十、上百个查询,这种吞吐率的要求,就需要用到向量数据库,而不是Faiss这种检索库、或者插件以及魔改方案。

36氪:另一个现象,近期国内大厂纷纷发布向量数据库和行业模型的组合,会对Zilliz产生怎样的影响?

星爵:向量数据库和大模型之间确实有很紧密的合作关系。但不局限于行业模型,Zilliz更加关注类似于OpenAI的通用模型。基于向量数据库+大模型的 Retrieval Augmented Generation 是我们目前关注的新的开发范式。接下来, Zilliz 也将继续与国内主要的大模型厂商一起合作,围绕向量数据库和大模型构建新的方案。

36氪:互联网大厂也会自己发布向量数据库,和Zilliz的产品会有怎样的差异化?

星爵:一句话总结,Not all Vector databases are born equal。自诞生第一天起,Milvus 和 Zilliz Cloud 就关注于服务企业级用户,面向生产环境,也是全球第一个能够支持百亿规模向量的向量数据库。在我们发布的VectorDB benchmark中,Milvus 的性能也在多个数据集中大幅领先。另外,在Zilliz自己的产品体系里面,Zilliz Cloud 相较于开源的Milvus,更加关注开箱即用的使用体验,不仅提供了Serverless 实例,也提供了数据备份、迁移、导入、主备容灾等一系列服务化的能力。

36氪:现在我们的客户、用户还会提出什么新需求?

星爵:其实大模型这个时代,我觉得向量数据库在底层架构方面不需要做很多更改,基本上可以满足用户需求。但从上层的产品和功能方面来说,用户的确提出了很多要求。

不久前,我们对自己的产品进行面向大模型的升级。大模型时代,很多应用开发者进入到我们的视野。以前,可能向量数据库的使用群体是全球的100万个AI开发者。而过去半年,我们看到全球数千万的应用开发者在接入大模型,开发大语言模型的应用,也开始使用向量数据库。为了提升易用性,我们做了两个比较大的更新,一是基于应用开发者的使用习惯,提供了Restful的API,方便他们调取。第二,由于他们的应用场景更加灵活,变化更快,因此需要灵活的Schema,针对这个需求我们也做了升级。

36氪:海内外用户的需求或许挺有差异?

星爵:我觉得存在一些差异。主要在于,国外的大模型应用落地早于国内,所以国外大语言模型应用的爆发比国内大概早半年。

但国内市场我们也在积极布局,7月我们也发布了面向国内的云产品,支持国内的用户跑在国内的公有云之上。个人认为,今年下半年中国的大模型应用开发会迎来热潮。

36氪:一年前我们谈到,Zilliz的市场化会在海外。大模型出现后,国内企业也很积极,Zilliz的重点依旧会是海外市场吗?整体的商业化策略是?

星爵:接下来我们还是要立足全球市场,但也会兼顾中国市场。商业化层面,我们肯定是立足于开源,发布云原生产品。开源会成为很重要的获客渠道,我们会利用开源去进行用户转化。

另一方面,Zilliz的商业模式会构建在公有云之上。经过近期的更新,我们在公有云上可以提供三个不同系列的产品,第一个面向个人开发者和小团队,第二个是公有云上代理,面向于中小型企业,第三种是对数据的安全性要求更高的大企业,我们提供专有云方案。Zilliz整体的目标是,立足于云计算,在云上为客户提供多种不同类型的产品。

————————

本文来自微信公众号“数字时氪”(ID:digital36kr),作者:真梓,36氪经授权发布。

上一篇: 基于熵权法及支持向量机的企业管理人员价值工作法研究/冯立杰 贾依帛 岳俊举 王金
下一篇: 《历史研究》读后感

为您推荐

发表评论