什么样的数据库才能训练出强大的生成式AI?来看看MongoDB的解决方案吧!

人工智能正以前所未有的速度发展,而生成式 AI (GenAI) 处于这场变革的前沿。GenAI 拥有广泛的功能,涵盖文本生成以及音乐和艺术创作。但是,GenAI 的真正独特之处在于它能够深入理解上下文,生成的输出与人类输出极为相似。它不仅仅是与智能聊天机器人对话。GenAI 拥有改变行业的潜力,可提供更丰富的用户体验并解锁新的可能性。

在接下来的数月和数年内,我们将见证那些利用 GenAI 蕴藏的强大能力的应用程序崭露头角,这些应用程序可以提供前所未有的各种功能。与现在广受欢迎的聊天机器人(如 ChatGPT)不同,用户不一定会发现 GenAI 正在后台工作。但在后台,这些新应用程序将结合使用信息检索和文本生成,以实时提供真正个性化且与上下文有关的用户体验。此过程被称为检索增强生成,或简称 RAG。

那么,检索增强生成 (RAG) 是如何运作的,以及数据库在此过程中发挥着什么作用?下面我们将更深入地探讨 GenAI 领域及其数据库要求。

请查看我们的 AI 资源页面,来详细了解如何使用 MongoDB 构建采用 AI 技术的应用程序。

训练 AI 基础模型 所面临的挑战


GenAI 面临的主要挑战之一是无法访问私有或专有数据。AI 基础模型(大型语言模型 (LLM) 是其子集)通常针对公开可用的数据进行训练,但无法访问机密或专有信息。即使这些数据位于公共域中,也有可能已经过时且不太相关。LLM 在识别最近的事件或很新的知识方面也存在局限性。而且,如果没有适当的指导,LLM 可能会生成错误的信息,这在大多数情况下均不可接受。

数据库在应对这些挑战方面发挥着重要作用。应用程序可以使用数据库来检索相关数据并将其作为上下文包含在提示中,而不是直接向 LLM 发送提示。例如,银行应用程序可以从传统数据库中查询用户的交易数据,将该数据添加到提示中,然后将这一经过设计的提示发送至 LLM。此方法可确保 LLM 生成准确的最新回复,消除了数据丢失、过时以及不准确的问题。

针对 GenAI 应用程序选择数据库时

需考虑的 4 个因素


当所有人都可以访问相同的工具和知识库时,企业想要利用 GenAI 实现真正的竞争优势就没那么容易了。相反,实现差异化的关键来自于在由基础模型和 LLM 提供支持的生成式 AI 的基础之上,对您自己的独特专有数据进行分层。在选择数据库以充分发挥由 GenAI 提供支持的应用程序的潜力时,组织应重点考虑四个主要因素:

1.可查询性:数据库需要能够支持丰富的表达式查询和二级索引,以提供实时、上下文感知的用户体验。无论查询的复杂性或数据库中存储的数据大小如何,此功能均可确保在数毫秒内完成数据检索。

2.灵活的数据模型:GenAI 应用程序通常需要不同类型和格式的数据,称为多模式数据。为了适应这些不断变化的数据集,数据库应具有灵活的数据模型,支持轻松载入新数据,而无需更改模式、修改代码或发布版本。对于关系数据库而言,使用多模式数据可能具有挑战性,因为关系数据库是设计用于按照严格的模式规则来处理结构化数据,其中的信息会被整理到包含行和列的表中。

3.集成向量搜索:GenAI 应用程序可能需要针对不同类型的数据(如自由形式文本、音频或图像)执行语义查询或相似性查询。向量数据库中的向量嵌入支持语义查询或相似性查询。向量嵌入会捕获数据的语义含义和上下文信息,使其适合用于处理各种任务,如文本分类、机器翻译和情感分析。数据库应提供集成的向量搜索索引,让两个单独的系统保持同步变得简单,并确保开发者使用统一的查询语言。

4.可扩展性:由于 GenAI 应用程序的用户群和数据规模在增长,数据库必须能够动态地横向扩展,以支持不断增长的数据量和请求率。对横向扩展分片提供原生支持可确保数据库存在的限制不会阻碍业务增长。

理想的数据库解决方案:

  MongoDB Atlas  


MongoDB Atlas 是一个功能强大的多用途平台,用于处理 GenAI 的独特需求。MongoDB 使用的强大查询 API 可轻松处理多模式数据,让开发者能够用更少的代码交付更多功能。MongoDB 被开发者评为最受欢迎的文档型数据库。对开发者而言,使用文档既简单又直观,因为文档会映射到面向对象的编程中的对象,与关系数据库中数不尽的行和表相比,开发者更熟悉前者。灵活的模式设计考虑到了数据模型的不断发展以满足 GenAI 用例的需求,这些用例本身就是多模式。通过使用分片,Atlas 可以横向扩展以支持由 GenAI 提供支持的应用程序所导致的数据量和请求量的大幅增长。

MongoDB Atlas Vector Search 能够以原生方式嵌入向量搜索索引,因此无需维护两个不同的系统。Atlas 会不断地使用源数据确保 Vector Search 索引为最新状态。开发者可以使用单个端点和查询语言来构建将常规数据库查询过滤器与向量搜索过滤器结合使用的查询。这样可以消除摩擦,为开发者提供了快速制作原型并交付 GenAI 解决方案的环境。

结语 

GenAI 已准备好重塑行业,并为各个行业提供创新的解决方案。借助合适的数据库解决方案,GenAI 应用程序可以蓬勃发展,提供准确、上下文感知和动态的数据驱动型用户体验,来满足当今快节奏的数字环境日益增长的需求。使用 MongoDB Atlas,组织可以在敏捷性、生产力和业务增长方面释放潜能,在快速发展的生成式 AI 领域提供竞争优势。

要了解有关 Atlas 如何帮助组织集成并处理 GenAI 和 LLM 数据的更多信息,请下载我们的白皮书《借助 MongoDB 将生成式 AI 和高级搜索嵌入到您的应用程序中》

 

原文地址:https://blog.csdn.net/MongoDBChina/article/details/135681299

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读552次。com.mongodb.MongoQueryException: Query failed with error code 292 and error message 'Executor error during find command :: caused by :: Sort exceeded memory limit of 104857600 bytes, but did not opt in to external sorting.' on server 11.51.141.63:27017 _mongodb 大文件 下载失败
文章浏览阅读635次,点赞9次,收藏8次。MongoDB 是一种 NoSQL 数据库,它将每个数据存储为一个文档,这里的文档类似于 JSON/BSON 对象,具体数据结构由键值(key/value)对组成。
文章浏览阅读2.1k次。和。_mongodb 日期类型
文章浏览阅读1.7k次。Scalestack等客户期待使用MongoDB Atlas Vector Search和Amazon Bedrock构建下一代应用程序
文章浏览阅读970次。SpringBoot整合中间件mongodb、ES_springboot3 elasticsearch json数据
文章浏览阅读673次。MongoDB 简介_尚医通sql
文章浏览阅读1k次,点赞8次,收藏9次。官网下载MongoDB安装包后进行解压(因了解并不深入,故暂不进行详细说明,自行查找其他安装方法,后期了解深入后将进行该教程的完善)在bin目录下使用命令启动:./mongod --config …/mongodb.conf。该文章任然处于完善中,如果存在错误遗漏的地方,欢迎私信联系。安装相关的nuget包后即可通过以下方法连接数据。YX9010_0@的第二十篇文章。
文章浏览阅读1.2k次,点赞17次,收藏26次。社交场景, 使用 MongoDB 存储存储用户信息, 以及用户发表的朋友圈信息, 通过地理位置索引实现附近的人, 地点等功能.游戏场景, 使用 MongoDB 存储游戏用户信息, 用户的装备, 积分等直接以内嵌文档的形式存储, 方便查询, 高效率存储和访问.物流场景, 使用 MongoDB 存储订单信息, 订单状态在运送过程中会不断更新, 以 MongoDB 内嵌数组的形式来存储, 一次查询就能将订单所有的变更读取出来.物联网场景, 使用 MongoDB 存储所有接入的智能设备信息, 以及设备汇报的日
文章浏览阅读686次。您可以使用 update_one() 方法来更新 MongoDB 中调用的记录或文档。update_one() 方法的第一个参数是 query 对象,用于定义要更新的文档。注释:如果查询找到多个记录,则仅更新第一个匹配项。第二个参数是定义文档新值的对象。_python 更新 mongodb 数据
文章浏览阅读1.3k次。首先来学习一下nosql这里安装就不进行介绍 只记录一下让自己了解mongodb。_nosql注入
文章浏览阅读4.1k次,点赞8次,收藏7次。在data的目录下,创建一个db文件。因为启动MongoDB服务之前必须创建数据库文件的存放文件夹,否则命令不会自动创建,而且不能启动成功。第一步:安装时,Custom是指可以自定义安装路径,然后傻瓜式安装即可(注意:先不要安装图形化工具,否则安装时间会特别长):如果要想连接成功,必须要开服务,即mongod -dbpath C:MongoDBdatadb的cmd要一直开着。然后回车,ctrl+F输入port找到端口号,一般为:27017。打开命令行,然后找到bin文件地址,并输入。_mongodb windows安装
文章浏览阅读5.1k次,点赞3次,收藏43次。详细介绍MongoDB数据库的基本知识,安装方法,基本操作,_mongodb数据库
文章浏览阅读3.2k次。安装教程翻看以往文章。_navicat 连接mongodb
文章浏览阅读426次,点赞9次,收藏12次。win10开放端口:https://blog.csdn.net/m0_43605481/article/details/119255256。我的是阿里云服务器,所以直接在安全组中加入规则,端口范围:27017,授权对象:0.0.0.0。windows在mongodb安装文件夹的bin文件夹中的mongod.cfg。数据库名字是test,打算创建一个用户,账号aaa,密码bbb,权限readWrite。因为该用户是创建在test数据库的,所以在最后要加上test。O了,然后恢复了test的数据。
文章浏览阅读1.1k次。聚合操作主要用于处理数据并返回计算结果。聚合操作将来自多个文档的值组合在一起,按条件分组后,再进行一系列操作(如求和、平均值、最大值、最小值)以返回单个结果。MongoDB的聚合查询​聚合是MongoDB的高级查询语言,它允许我们通过转化合并由多个文档的数据来生成新的在单个文档里不存在的文档信息。MongoDB中聚合(aggregate)主要用于处理数据(例如分组统计平均值、求和、最大值等),并返回计算后的数据结果,有点类似sql语句中的count(*)、groupby。..._如何将几个db的数据统整在一起做查询
文章浏览阅读680次,点赞7次,收藏8次。(2)application.properties配置文件。(4)UserService类。(5)测试和测试结果。
文章浏览阅读1k次,点赞17次,收藏25次。Studio 3T 2023.9 (macOS, Linux, Windows) - MongoDB 的专业 GUI、IDE 和 客户端,支持自然语言查询_mongodb客户端
文章浏览阅读1.1k次,点赞32次,收藏27次。插件式的存储引擎架构可以实现 Server 层和存储引擎层的解耦,可以支持多种存储引擎,如 MySQL 既可以支持 B-Tree 结构的 InnoDB 存储引擎,还可以支持 LSM 结构的 RocksDB 存储引擎。MongoDB 中的记录就是一个 BSON 文档,它是由键值对组成的数据结构,类似于 JSON 对象,是 MongoDB 中的基本数据单元。的简称,是 JSON 文档的二进制表示,支持将文档和数组嵌入到其他文档和数组中,还包含允许表示不属于 JSON 规范的数据类型的扩展。
文章浏览阅读5.1k次,点赞6次,收藏96次。本文设计了一种基于智能室内温度控制的自动调速风扇。以STM32系列单片机为核心主控板,通过程序代码驱动和使用温度传感器模块实现对环境温度的实时监测,并可以实时显示环境温度。同时,可以设置温度检测的上下警告值,根据需求自行调节。_stm32 温控风扇
文章浏览阅读898次,点赞13次,收藏21次。在MongoDB中,我们使用find()和find_one()方法来在集合中查找数据,就像在MySQL数据库中使用SELECT语句来在表中查找数据一样。_pymongo find_one