你的位置:昆明瓦存网络科技有限公司 > 新闻动态 >
7天建造一个AI Agent应用!高明刀兵:一体化数据库
发布日期:2024-10-31 12:14    点击次数:122

7天建造一个AI Agent应用!高明刀兵:一体化数据库

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

几个工程师、一个星期,就能作念一个AI Agent应用了。

恶果be like——

能明白用户复杂龟龄令,保举恰当条目的奶茶店。

保举两公里内、评分4.5以上、东谈主均亏蚀25元以内干净卫生的奶茶店。

要知谈,这背后需要它能分析处理不同模态的数据,比如文本、地舆信息、图像等。

放在昔时,构建这样的AI应用需要多个不同的数据库,还需要配备陶冶丰富且规模较大团队来防守复杂技艺栈。

如今,能如斯叮属措置,多亏了背后的一体化数据库OceanBase。

最新发布会上,OceanBase推出首个面向实期间析处理场景的GA版块:4.3.3版块。

不仅推出全新向量检索功能,达成SQL+AI一体化,还进一步增强多模态数据处贤慧商。

嗅觉方方面面王人是为AI期间作念好了准备啊。

为啥能这样说?

从最新发布的新智商看起。

首个面向实期间析的GA版块

这次OceanBase 4.3.3中枢升级的智商主要有3方面:

AP场景性能进步多模态数据相沿向量检索与索引

领先,OceanBase 4.3.3版块升级了对复杂数据类型处贤慧商。

新增Array类型,这意味着数据库不错径直存储、查询和操作数组数据。并对Roaringbitmap类型数据的揣度性能进行了优化,意味着数据库或者更高效地处理和操作大型围聚数据。

其次,OceanBase 4.3.3在向量交融查询的关键智商上带来进步,推出全新向量检索智商,相沿向量数据类型和向量索引,并基于向量索引提供庞大搜索智商。

用户可通过SQL及Python SDK等款式活泼调用OceanBase的向量检索智商。

如今,在通用数据库中集成向量插件照旧成为一种趋势,这种款式或者径直复用通用数据已有功能和生态。

OceanBase与蚂蚁集团麇集建造了向量索引库,这个索引库照旧在蚂蚁集团无数业务场景中得回考证(如生物识别、企业里面常识库等),性能进修。

现场跑分摈弃自大,该向量库在960维的GIST数据集上进展出色,在ANN Benmarks测试中性能远超其他算法,名挨次一。

稀疏是在 90% 以上的调回率区间,查询性能(QPS)比较此前最优算法 glass 进步 100%,比较基线算法hnswlib进步300%。

该向量引擎深度交融了OceanBase的存储引擎和SQL引擎,达成SQL+AI一体化。或者在一条SQL语句中达成标量、向量、空间地舆等夹杂查询。

比如“望小京”demo中,用户给的指示词为“保举两公里内、评分4.5以上、东谈主均亏蚀25元以内干净卫生的奶茶店”。这背后波及到处理文本、图像和地舆位置等不同类型的数据,需要更庞大的数据分析和查询智商。

终末,OceanBase 4.3.3还针对AP(分析处理)场景进行大幅性能优化,尤其是在海量数据分析时,或者提供更短的反映时间和更高的蒙眬智商。

TPC-H 1T场景进步64%TPC-DS 1T场景进步36%ClickBench hot- run进步49%cold-run性能进步149%

同期大幅完善了及时AP功能,包括相沿列存副本、升天视图、外在集成、快速导入导出等。

达成倨傲TP和AP负载的物理资源强结巴,可确保系统在处理事务型负载时,不受分析型负载的影响,稀疏是在及时数据分析和决策场景中,或者保握系统的高性能与踏实性。

在易用性方面也作念了升级,通过提供AP参数版块,用户不错针对不同场景选拔特定模板,不需要再单独树立参数。并增强了AP场景中对SQL会诊智商的相沿。

追忆来看,OceanBase 4.3.3在基础散布式智商上,带来更强性能、向量多模交融、融入AI技艺栈。

也就是将AI与数据库进一步交融。

这并不难明白,AI应用/AI Agent大势场地,各样应用智能化升级立异,底层数据库必须紧随趋势升级。

不外在这之中,OceanBase还反复提到了一个关键词——一体化。

它不仅是OceanBase的自己脾气,如今也逐渐成为行业拥抱AI期间的一个优解。

Why?

更快股东AI应用大规模落地

关于数据库的发展,行业内逐渐达成一些共鸣。

AI智商大幅进步,导致寰球80%以上的非结构化数据被激活,背后的挖掘分析需求井喷,在这一新变化下,数据处理濒临更大规模、更多模态、及时性更强以及数据碎屑和数据孤岛问题。

这些变化给数据库建议了诸多新的发展需求。

最紧要的就是,散布式数据库成为一种大趋势。

华东师范大学数据学院院长、CCF数据库专委会常委钱卫宁建议,互联网期间数据走向了盛开环境,在数据是散布式的期间里,数据库也需若是散布式的。

散布式数据库不错让多台处事器协同功课,完成单台处事器无法处理的任务,尤其是高并发或者大数据量的任务。

除此除外,跟着AI、云揣度等技艺发展,数据库还呈现出以下脾气。

第一,云揣度的普及股东了云数据库的快速发展。云数据库提供按需膨胀、高可用性和本钱效益。

第二,大数据和非结构化数据需求增加,多模态是一种趋势,NoSQL数据库(如MongoDB、Cassandra、Redis、Couchbase)越来越受到接待。NoSQL数据库提供了更好的膨胀性和活泼性,适用于存储和处理多样数据类型,如文档、键值对、图数据等。

第三,HTAP数据库成为热门,致使是主流数据库的一项基础智商。这类数据库或者同期处理事务性和分析性职责负载,倨傲了企业及时数据处理和分析的需求。

第四,开源亦然一大趋势。开源数据库(如PostgreSQL、MySQL、MariaDB)凭借其社区运行的发展模式、庞大的功能和活泼的部署款式,成为企业和建造者的热门选拔。

不外来到本色落地层面,尽管数据、数据库在变得愈增加元复杂,关联词企业用户总照旧但愿能只用一套系统来解决不同职责负载。

比如能同期在事务处理(如支付、订单等高频来回场景)和复杂的实期间析查询,这背后需要TP+AP联接。

以及AI与多模查询智商的交融,如Rockset和Oracle这样的数据库系统通过hybrid search交融查询技艺,将SQL查询与向量化查询相联接,使得数据处理或者同期包含文本、结构化数据和向量数据等不同类型。

方方面面影响下,一体化联想逐渐成为被阛阓爱好的门道。

以MongoDB和Oracle为代表的数据库厂商正在各自股东一体化数据库的发展。国度工业信息安全发展讨论中心等共同编制的《散布式数据库发展趋势讨论请问》中也暗示,散布式数据架构的联想正在走向一体化。

在这之中,OceanBase的一体化理念终点明白。它包括:

一体化居品:多职责负载(TP+AP)、多模(SQL+NoSQL)、向量(SQL+AI)。一体化引擎:一体化存储,一体化事务,一体化SQL。一体化架构:包括单机散布式一体化与多云原生。

OceanBase先容,这种一体化的念念路是跟着客户需求不断发展而来。

领先在底层架构联想上,单机散布式一体化与多云原生并存,不错倨傲大中小企业的不同需求。OceanBase照旧和当今主流云厂商均达成互助,达成公有云“多云共生”,同期也提供专有云、夹杂云等不同部署环境,保证一致体验。

其次跟着数据库场景不断变化,从传统场景到泛互联网场景,OceanBase从TP到TP+AP,逐渐走向多职责负载一体化。

比如在第一阶段OLTP+,会裸潜入山东转移这类客户的需求,他们主要存眷复杂查询场景,需要增强业务处理遵守。

第二阶段裸潜入了海底捞这类用户的需求。海底捞本来使用两个系统分裂处理OLTP和OLAP,这导致OLTP和OLAP之间存在数据延长,没法保证数据一致性,还需要两份数据两份本钱。OceanBase能将其整合,不仅使合座本钱镌汰,还能进步底本的AP性能。

第三阶段还会裸潜入及时营销等场景,对及时AP建议更多条目。

以及在本色实行中,OceanBase发现越来越多客户将OceanBase既应用在KV存储场景,也应用在NoSQL场景,或者替换HBase、Redis等。因为OceanBase或者解决各个场景中许多毒手问题,比如关于NoSQL而言,最大的挑战在于数据规模,散布式架构不错很好解决数据膨胀的问题。

因此,妥当用户需求,OceanBase在不断增加对多种数据类型的相沿,达成多模一体化。

终末,来到AI期间。“AI for DB,DB for AI”成为共鸣。

AI应用大规模落地的前提是大模子技艺或者在百行万企低本钱易用。

数据库的发展陶冶不错为AI应用实行提供参考。比如在数据库中引入向量插件,达成SQL+AI,或者大幅简化原有AI技艺栈,让打造AI Agent的门槛骤降。

终末追忆来看,以OceanBase为代表的一体化数据库不仅能为企业提供更更好的数据底座,况兼方方面面王人倨傲AI应用发展的需求。它总体呈现出这些脾气:

第一,高效的数据处理和分析。

相沿HTAP,或者在并吞个系统中同期处理事务性(OLTP)和分析性(OLAP)负载。企业不错及时地对来回数据进行分析,而不需要恭候数据的同步和转动,从而加速决策速率和反映时间。

实期间析,不错在数据生成的同期进行分析,确保数据的时效性,这关于及时保举、风控、监控等AI应用至关蹙迫。

第二,简化的数据防守。

一体化数据库或者确保数据的一致性和完满性,因为事务处理和分析处理在并吞个系统内完成,幸免了数据同步和和洽经由中可能出现的延长和不实。

通过将多种数据类型(如酌量型数据、文档数据、向量数据等)集成在一个系统中,一体化数据库简化了数据存储和防守。企业不需要珍重多个数据库系统,减少了数据孤岛问题和运维复杂性。

第三,活泼性和膨胀性。

一体化数据库相沿多模态数据处理,或者处理和分析结构化、半结构化和非结构化数据。这种活泼性使企业不错在一个平台上处理不同类型的数据,倨傲多样业务需求。

一体化数据库不错在公有云、独到云和土产货数据中心的夹杂环境中部署,相沿异构环境下的数据防守和应用。这使企业或者字据业务需求活泼选拔和和洽部署有贪图。

第四,简化AI应用构建。

AI应用频频需要进行高效的向量检索和相同性搜索。一体化数据库通过深度集成向量引擎,相沿快速向量化揣度和相同度查询,进步AI应用的性能。

一体化数据库或者将数据存储和AI模子细密联接,相沿复杂的AI职责负载。这种集成减少了数据传输的延长,提高了模子磨练和推理的遵守。

第五,镌汰本钱和复杂性。

一体化数据库减少了企业需要珍重的数据库系统数目,简化了技艺栈,镌汰了系统集成和运维的复杂性。

通过优化资源垄断和减少多系统间的数据同步和和洽,一体化数据库镌汰了总体领有本钱,提高了投资答复率。

AI期间,Data is Power。

李飞飞当初细目作念ImageNet,背后的中枢逻辑就在于,她确信AI改换寰球,数据是最省略最径直的款式。

如今,AI应用落地趋势照旧开启。数据动作坐褥身分,在AI期间已是水电般的存在。

而一体化数据库正在为数据更充分活泼高效应用提供新念念路。

据了解,一体化数据库OceanBase将成为蚂蚁集团的AI数据底座,为一系列AI期间新应用“支小宝”、“蚂小财”以及支付宝百宝箱智能体建造平台的数据防守提供相沿。

一体化正在成为数据库发展历程中,一个泾渭分明的标的。

— 完 —

量子位 QbitAI · 头条号

存眷咱们,第一时间获知前沿科技动态



栏目分类
相关资讯