向量连接世界,Zilliz 举办首届非结构化数据峰会

随着 5G 时代的到来,大数据分析和应用得到了各个行业的广泛关注,各种新的应用也时刻产生巨量的非结构化数据,如何工具化、平台化、规模化地使用这些非结构化数据,成为企业关注的焦点。

9 月 24-25 日,刚融资 6000 万美元的向量数据库公司 Zilliz 出品的 2022 首届非结构化数据峰会成功举行,本届峰会以“矩阵革命——向量连接世界”为主题,Zilliz 核心产品和研发团队携手来自金融、人工智能、互联网等多领域的专家,分享了以向量数据库为代表的非结构化数据处理技术发展与应用实践。

Zilliz Cloud:非向量数据库产品家族新成员

作为向量数据库包括非结构化数据领域的先行者,Zilliz 一直在探索如何管理、使用、快速价值化非结构化数据,从而赋能企业提效增益。

Zilliz 创始人兼首席执行官星爵表示,非结构化数据已经占数据总量的 80%以上,未来几年增速将会超过结构化数据。但与此同时,非结构化数据的价值目前还远未充分挖掘,Zilliz 会继续深耕在向量数据处理领域的能力,包括数据的可观测性、工作流管理、数据安全、数据隐私、数据应用等层面。如今,Zilliz 在非结构化数据处理的生态圈,已经贡献了 Milvus 和 Towhee 两个开源项目,在非结构化数据处理领域不断提供创新解决方案。

星爵 Zilliz 创始人兼首席执行官

言出必行,Zilliz 随即以此次峰会为契机,重磅发布了全新产品——Zilliz Cloud,为用户提供了一个新的云选项。

谈及推出 Zilliz Cloud 的初衷,Zilliz 合伙人和技术总监栾小凡这样解释:在非结构化数据领域,很多工具是散的,用户只能把各种各样的开源组件拼接起来使用,处理流程会比较繁琐,并且在稳定性、易用性方面还会遇到各种问题。

Zilliz Cloud 正是为了解决这些痛点而生,它是基于 Milvus 构建的一个能够托管的云服务,由最懂得做非结构化处理及向量检索的团队——Milvus 原班人马打造。Zilliz Cloud 具备高可用、成本优化、扩展性强等特点,能够打通数据之间的隔阂,完成数据的转换、分析、迁移、可视化等管理动作,更重要的是,通过这一系列操作,非结构化数据将被转化成可以检索的向量数据,从而为业务提供更大的价值。

Zilliz 产品家族图

面对新成员的华丽亮相,作为家族元老的 Milvus 和 Towhee 也不逞多让。

Milvus 是一个开源的分布式向量数据库,不但集成了业界成熟的向量相似度搜索技术,更在此基础上对高性能计算框架进行了大幅度优化。在即将推出的 Milvus 2.2 版本中,增加了磁盘索引(DiskANN)这一选项,相比于传统的纯内存索引方案,DiskANN 可以把用户的本地磁盘作为存储索引,牺牲少量的查询性能,但能换来成本的大幅降低,用户可以使用更低成本的具备 SSD 且内存更小的机器进行数据库部署。同时新版本还将增加数据批量导入、RBAC 权限控制、查询 Pagination、限流与反压等功能。

Towhee 是传统 ETL 工具覆盖能力的补充,相比传统 ETL,非结构化数据的 ETL 在业务侧的原始数据层更大、转换过程更加面向深层次语义、过程会引入大量 AI 能力。通过使用 Towhee,任何用户都能够基于 Python 代码一键构建面向生产的高性能非结构化数据处理流水线。未来,Towhee 将会持续得到优化和升级,比如在现有的 pipeline 定义接口上提供一个类似于 Spark、Flink 的流水线定义接口;同时将更加深入地集成类似英伟达这样的技术生态,进一步提升整个流水线面向生产的执行效率;也会不断努力满足社区用户的需求,解决中文模型的缺口。

眼花缭乱的非向量数据库应用场景

非结构化数据的不断增长,驱动着基于 AI 的非结构化数据分析与检索技术的不断发展。

据 Zilliz 合伙人和产品总监郭人通介绍,在应用生态层面,非结构化数据搜索在图片搜索、视频搜索、文本语义搜索、跨通道搜索、推荐/问答系统、版权保护、欺诈检测、数据查重、网络安全、药物发掘、异常检测等场景有着良好的应用前景;在行业生态层面,当前非结构化数据生态的基础软件和工具远远少于结构化数据生态,未来有着非常广阔的增长空间。

技术的应用离不开不同行业的实践,多位嘉宾从各自业务出发,通过实际问题剖析,阐述了如何有效地提取非结构化数据的语义信息,如何实现大规模、高精度、高吞吐的非结构化数据分析与检索。

中国电信翼支付风控总监汤敏伟分享了翼支付如何利用 Milvus 构建更加智能的金融风控体系;

百度资深研发工程师方泽阳分享了 Milvus 语义索引库如何帮助百度飞桨 PaddleNLP 提高语义检索的精准性;

虎牙安全算法高级研究员黎官钊分享了 Milvus 如何帮助虎牙团队快速进行敏感区域特征识别与检索,提高视频内容安全审查效率;

陌陌数据平台资深专家孔云龙分享了 Milvus 如何帮助陌陌进行垃圾信息甄别、假照识别等。

金融支付、深度学习、视频直播、社交……Milvus 在越来越多的领域实践落地和发挥价值,这让我们近距离感知到了非结构化数据和向量检索的极大发展空间,也对于打破数据孤岛,实现优质数据互联互通更加有信心。

“单丝不成线,孤木不成林”,纵深挖掘非结构化数据潜能意义重大。2022 首届非结构化数据峰会,给我们展示了一张非结构化数据处理技术进展与实践成果的全景图。面向未来,Zilliz 也发出倡议,希望借助本次峰会达成共识,经验共享,创新共创,与更多的开发者、生态伙伴、创业公司一起探索,推动向量数据库在各行各业的应用,共建非结构化数据的美好未来。

原文地址:https://www.toutiao.com/article/7148774711252484612/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


学习编程是顺着互联网的发展潮流,是一件好事。新手如何学习编程?其实不难,不过在学习编程之前你得先了解你的目的是什么?这个很重要,因为目的决定你的发展方向、决定你的发展速度。
IT行业是什么工作做什么?IT行业的工作有:产品策划类、页面设计类、前端与移动、开发与测试、营销推广类、数据运营类、运营维护类、游戏相关类等,根据不同的分类下面有细分了不同的岗位。
女生学Java好就业吗?女生适合学Java编程吗?目前有不少女生学习Java开发,但要结合自身的情况,先了解自己适不适合去学习Java,不要盲目的选择不适合自己的Java培训班进行学习。只要肯下功夫钻研,多看、多想、多练
Can’t connect to local MySQL server through socket \'/var/lib/mysql/mysql.sock问题 1.进入mysql路径
oracle基本命令 一、登录操作 1.管理员登录 # 管理员登录 sqlplus / as sysdba 2.普通用户登录
一、背景 因为项目中需要通北京网络,所以需要连vpn,但是服务器有时候会断掉,所以写个shell脚本每五分钟去判断是否连接,于是就有下面的shell脚本。
BETWEEN 操作符选取介于两个值之间的数据范围内的值。这些值可以是数值、文本或者日期。
假如你已经使用过苹果开发者中心上架app,你肯定知道在苹果开发者中心的web界面,无法直接提交ipa文件,而是需要使用第三方工具,将ipa文件上传到构建版本,开...
下面的 SQL 语句指定了两个别名,一个是 name 列的别名,一个是 country 列的别名。**提示:**如果列名称包含空格,要求使用双引号或方括号:
在使用H5混合开发的app打包后,需要将ipa文件上传到appstore进行发布,就需要去苹果开发者中心进行发布。​
+----+--------------+---------------------------+-------+---------+
数组的声明并不是声明一个个单独的变量,比如 number0、number1、...、number99,而是声明一个数组变量,比如 numbers,然后使用 nu...
第一步:到appuploader官网下载辅助工具和iCloud驱动,使用前面创建的AppID登录。
如需删除表中的列,请使用下面的语法(请注意,某些数据库系统不允许这种在数据库表中删除列的方式):
前不久在制作win11pe,制作了一版,1.26GB,太大了,不满意,想再裁剪下,发现这次dism mount正常,commit或discard巨慢,以前都很快...
赛门铁克各个版本概览:https://knowledge.broadcom.com/external/article?legacyId=tech163829
实测Python 3.6.6用pip 21.3.1,再高就报错了,Python 3.10.7用pip 22.3.1是可以的
Broadcom Corporation (博通公司,股票代号AVGO)是全球领先的有线和无线通信半导体公司。其产品实现向家庭、 办公室和移动环境以及在这些环境...
发现个问题,server2016上安装了c4d这些版本,低版本的正常显示窗格,但红色圈出的高版本c4d打开后不显示窗格,
TAT:https://cloud.tencent.com/document/product/1340