PG-NoSQL特性:全文检索对 json 和 jsonb 数据类型的支持

文章目录
前言

一、​PostgreSQL 全文检索简介

1. tsvector

2.tsquery

3.英文全文检索例子

二、 json 、 jsonb 全文检索实践

1.查看to tsvector 函数

2.创建数据生成函数

3.创建 json 测试表

4.json 数据全文检索测试

总结

前言
第一部分简单介绍 PostgreSQL 全文检索
第二部分演示全文检索对 json 、 jsonb 数据类型的支持 。

一、​PostgreSQL 全文检索简介
对于大多数应用来说全文检索很少在数据库中实现,一般使用单独的全文检索引擎,例如基于 SQL 的全文检索引擎 Sphinx 。PostgreSQL 支持全文检索 ,对于规模不大的应用如果不想搭建专门的搜索引擎, PostgreSQL 的全文检索也可以满足需求 。

如果没有使用专门的搜索引 擎 ,大部检索需要通过数据库 like 操作匹配,这种检索方式的主要缺点在于:

不能很好地支持索引,通常需全表扫描检索数据,数据量大时检索性能很低 。
不提供检索结果排序,当输出结果数据量非常大时表现更加明显 。
PostgreSQL 全文检索能有效地解决这个问题 , PostgreSQL 全文检索通过以下两种数据类型来实现 。
在 PostgreSQL 10 版本之前全文检索不支持 json 和 jsonb 数据类型, 10 版本的一个重要特性是全文检索支持 json 和 jsonb 数据类型,这一小节将演示 10 版本的这个新特性 。

  1. tsvector
    tsvector 全文检索数据类型代表一个被优化的可以基于搜索的文挡,要将一串字符串转换成 tsvector 全文检索数据类型,代码如下所示:

postgres=# select ‘Hello,cat,how are u?cat is miling!’::tsvector;
tsvector

‘Hello,how’ ‘are’ ‘is’ ‘miling!’ ‘u?cat’
(1 row)
字符串的内容被分隔成好几段

::tsvector只是做类型转换,没有进行数据标准化处理
to_tsvector函数可对于英文全文检索进行数据标准化处理

postgres=# select to_tsvector(‘english’,‘Hello cat,’);
to_tsvector

‘cat’:2 ‘hello’:1
(1 row)
2.tsquery
tsquery 表示一个文本查询 ,存储用于搜索的词, 并且支持布尔操作“&” 、“ | ”、“!”
将字符串转换成tsquery,没有做标准化

postgres=# select ‘hello&cat’::tsquery;
tsquery

‘hello’ & ‘cat’
(1 row)
to_tsquery 函数可以执行标准化

postgres=# select to_tsquery(‘hello&cat’);
to_tsquery

‘hello’ & ‘cat’
(1 row)
全文检索示例:用于检索字符串是否包括“ hello”和“ cat ” 字符,本例中返回真。

postgres=# select to_tsvector(‘english’,how are u’)@@to_tsquery(‘hello@dog’);
?column?

f
(1 row)
注:这里使用了带双参数的 to_tsvector 函数,函数 to_tsvector 双参数的格式如下所示:to_tsvector([ config regconfig,] document text),本节 to_tsvector 函数指定了 config 参数为english ,如果不指定 config 参数,则默认使用 default_text_search_config 参数的配置 。

3.英文全文检索例子
下面演示一个英文全文检索示例,创建一张测试表并插入 200 万测试数据,如下所示:

create table test_search(id int4,name text);
insert into test_search(id,name) select n,n||‘_francs’ from generate_series(1,2000000) n;
select * from test_search where name like ‘1_francs’;
explain analyze select * from test_search where name like ‘1_francs’;
在这里插入图片描述
执行计划进行了全表扫描,执行时间为 145毫秒左右,性能很低
创建索引,再次执行计划

create index idx_gin_search on test_search using gin(to_tsvector(‘english’,name));
explain analyze select * from test_search where to_tsvector(‘english’,name)@@to_tsquery(‘english’,‘1_francs’);
在这里插入图片描述
创建索引后,以上查询走了索引并且执行时间下降到0.2毫秒,性能提升了。如果将 SQL 修改为不走索引

explain analyze select * from test_search where to_tsvector(name)@@to_tsquery(‘1_francs’);

在这里插入图片描述
由于创建索引时使用的是 to_tsvector(’english’,name)函数索引,带了两个参数,因此 where条件中的 to_tsvector 函数带两个参数才能走索引,而 to_tsvector(name)不走索引。

二、 json 、 jsonb 全文检索实践
1.查看to tsvector 函数
postgres-# \df to_tsvector
在这里插入图片描述
10 版本的 to_tsvector 函数支持的数据类型增加了 json 和 jsonb 。

2.创建数据生成函数
为了便于生成测试数据,创建以下两个函数用来随机生成指定长度的字符串, random_range(int4,int4)函数的代码如下所示:

create or replace function random_range(int4,int4)
returns int4
language sql
as KaTeX parse error: Can't use function '$' in math mode at position 14: select ($̲1+floor(($2-$1+…;
接着创建 random_text_simple(length int4)函数,此函数会调用 random_range(int4,int4)函数,其代码如下所示 :

create or replace function random_text_simple(length int4)
returns text
language plpgsql
as d e c l a r e p o s s i b l e c h a r s t e x t : = ′ 0123456789 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z ′ ; o u t p u t t e x t : = ′ ′ ; i i n t 4 ; p o s i n t ; b e g i n f o r i i n 1.. l e n g t h l o o p p o s : = r a n d o m r a n g e ( 1,l e n g t h ( p o s s i b l e c h a r s ) ) ; o u t p u t : = o u t p u t ∣ ∣ s u b s t r ( p o s s i b l e c h a r s,p o s,1 ) ; e n d l o o p ; r e t u r n o u t p u t ; e n d ; declare possible_chars text:='0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ'; output text:=''; i int4; pos int; begin for i in 1..length loop pos:=random_range(1,length(possible_chars)); output:=output||substr(possible_chars,pos,1); end loop; return output; end; declarepossiblecharstext:=0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ;outputtext:=;iint4;posint;beginforiin1..lengthlooppos:=randomrange(1,length(possiblechars));output:=outputsubstr(possiblechars,pos,1);endloop;returnoutput;end;;
random_text_simple(length int4)函数可以随机生成指定长度字符串,下列代码随机生成含3位和6位字符的字符串 :

select random_text_simple(3);
select random_text_simple(6);
在这里插入图片描述
后面会使用这个函数生成测试数据

3.创建 json 测试表
创建 user_ini 测试表,并通过 random_text_simple(length int4) 函数插入 100 万随机生成的六位字符的字符串 ,作为测试数据 , 如下所示 :

create table user_ini_text(id int4,user_id int8,user_name character varying(64),create_time timestamp(6) with time zone default clock_timestamp());
insert into user_ini_text(id,user_id,user_name) select r,round(random()*1000000),random_text_simple(6) from generate_series(1,1000000) as r;
select * from user_ini_text limit 1;
4.json 数据全文检索测试
使用全文检索查询表 user_ini_text且on 的 user_name 字段中包含 U6XUW4 字符的记录,如下所示 :

select * from user_ini_text where to_tsvector(‘english’,user_name)@@to_tsquery(‘ENGLISH’,‘U6XUW4’);
explain analyze select * from user_ini_text where to_tsvector(‘english’,‘U6XUW4’);
正常执行说明全文检索支持 json 数据类型 ,只是上述 SQL 进行了全表扫描,性能较低,执行时间为738毫秒
在这里插入图片描述
创建索引,再次执行SQL查看执行计划

create index idx_gin_search_json on user_ini_text using gin(to_tsvector(‘english’,user_name));
create index idx_gin_search_json on user_ini_text using gin(to_tsvector(‘english’,user_name));
在这里插入图片描述
从上述执行计划看出走了索引, 并且执行时间降为 0.034 毫秒,性能非常不错 。

总结
前一部分对 PostgreSQL 全文检索的实现做了简单介绍,并且给出了一个英文检索的例子,后一部分通过示例介绍了 PostgreSQL的一个新特性,即全文检索对 json、jsonb类型的支持 。PostgreSQL 对中文检索也是支持的, 可自行测试 。

csdn:https://blog.csdn.net/qq961573863/article/details/127470028
墨天轮:https://www.modb.pro/db/530796
公众号:Xiao Yang Mum
image.png

原文地址:https://blog.csdn.net/qq961573863/article/details/127491426

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读752次。关系型数据库关系型数据库是一个结构化的数据库,创建在关系模型(二维表模型)基础上,一般面向于记录SQL语句(标准数据查询语言)就是一种基于关系型数据库的语言,用于执行对关系型数据库中数据的检索和操作主流的关系数据库包括Oracle、Mysql、SQL Server、Microsoft Access、DB2等非关系型数据库NoSQL(nOSQL=Not Only SQL),意思是“不仅仅是SQL”,是非关系型数据库的总称。除了主流的关系型数据库外的数据库,都认为是非关系型主流的NoSQ.._redis是非关系型数据库吗
文章浏览阅读687次,点赞2次,收藏5次。商城系统中,抢购和秒杀是很常见的营销场景,在一定时间内有大量的用户访问商场下单,主要需要解决的问题有两个:1. 高并发对数据库产生的压力;2. 竞争状态下如何解决商品库存超卖;高并发对数据库产生的压力对于第一个问题,使用缓存来处理,避免直接操作数据库,例如使用 Redis。竞争状态下如何解决商品库存超卖对于第二个问题,需要重点说明。常规写法:查询出对应商品的库存,判断库存数量否大于 0,然后执行生成订单等操作,但是在判断库存是否大于 0 处,如果在高并发下就会有问题,导致库存_php库存结余并发
文章浏览阅读1.4k次。MongoTemplate开发spring-data-mongodb提供了MongoTemplate和MongoRepository两种方式访问MongoDB,MongoRepository的方式访问较为简单,MongoTemplate方式较为灵活,这两种方式在Java对于MongoDB的运用中相辅相成。_springboot插入指定的mongodb数据库
文章浏览阅读887次,点赞10次,收藏19次。1.背景介绍1. 背景介绍NoSQL数据库是一种非关系型数据库,它的特点是可以存储非结构化的数据,并且可以处理大量的数据。HBase是一个分布式、可扩展的列式存储系统,它是基于Google的Bigtable设计的。HBase是一个开源的NoSQL数据库,它的核心功能是提供高性能的随机读写访问。在本文中,我们将对比HBase与其他NoSQL数据库,例如Redis、MongoDB、Cass...
文章浏览阅读819次。MongoDB连接失败记录_edentialmechanisn-scram-sha-1
文章浏览阅读470次。mongodb抽取数据到ES,使用ELK内部插件无法获取数据,只能试试monstache抽取mongodb数据,但是monstache需要mongodb replica set 模式才能采集数据。############monstache-compose文件。#replicas set 启动服务。# 默认备份节点不能读写,可以设置。# mydb指的是需要同步的数据库。#登录主mongodb初始化rs。#primary 创建用户。# ip地址注意要修改。# ip地址注意要修改。_monstache csdn
文章浏览阅读913次,点赞4次,收藏5次。storage:fork: trueadmin登录切换数据库注意: use 代表创建并使用,当库中没有数据时默认不显示这个库删除数据库查看表清单> show tables # 或者 > show collections表创建db.createCollection('集合名称', [options])table1字段类型描述capped布尔(可选)如果为 true,则创建固定集合。固定集合是指有着固定大小的集合,当达到最大值时,它会自动覆盖最早的文档。_mongodb5
文章浏览阅读862次。Centos7.9设置MongoDB开机自启(超全教程,一条龙)_mongodb centos开机启动脚本
文章浏览阅读1.3k次,点赞6次,收藏21次。NoSQL数据库使用场景以及架构介绍
文章浏览阅读856次,点赞21次,收藏20次。1.背景介绍1. 背景介绍NoSQL数据库是一种非关系型数据库,它的设计目标是为了解决传统关系型数据库(如MySQL、Oracle等)在处理大量不结构化数据方面的不足。NoSQL数据库可以处理大量数据,具有高性能、高可扩展性和高可用性。但是,与关系型数据库不同,NoSQL数据库没有固定的模式,数据结构也不一定是表格。在NoSQL数据库中,数据存储和查询都是基于键值对、列族、图形等不同的...
文章浏览阅读416次。NoSQL定义:非关系型、分布式、开放源码和具有横向扩展能力的下一代数据库。由c++编写的开源、高性能、无模式的基于分布式文件存储的文档型数据库特点:高性能、高可用性、高扩展性、丰富的查询支持、可替换已完场文档某个指定的数据字段应用场景:社交场景:使用mongodb存储用户信息游戏场景:用户信息,装备积分物流场景:订单信息,订单状态场景操作特点:数据量大;读写操作频繁;价值较低的数据,对事物性要求不高开源、c语言编写、默认端口号6379、key-value形式存在,存储非结构化数据。_nosql
文章浏览阅读1.5k次,点赞3次,收藏2次。Exception in thread "main" redis.clients.jedis.exceptions.JedisConnectionException: Failed to create socket. at redis.clients.jedis.DefaultJedisSocketFactory.createSocket(DefaultJedisSocketFactory.java:110) at redis.clients.jedis.Connection.connect(Conne_redis.clients.jedis.exceptions.jedisconnectionexception: failed to create so
文章浏览阅读6.5k次,点赞3次,收藏12次。readAnyDatabase(在所有数据库上都有读取数据的权限)、readWriteAnyDatabase(在所有数据库上都有读写数据的权限)、userAdminAnyDatabase(在所有数据库上都有管理user的权限)、dbAdminAnyDatabase(管理所有数据库的权限);:clusterAdmin(管理机器的最高权限)、clusterManager(管理和监控集群的权限)、clusterMonitor(监控集群的权限)、hostManager( 管理Server);_mongodb创建用户密码并授权
文章浏览阅读593次。Redis是一个基于内存的键值型NoSQL数据库,在实际生产中有着非常广泛的用处_搭建本地redis
文章浏览阅读919次。Key 的最佳实践[业务名]:[数据名]:[id]足够简短:不超过 44 字节不包含特殊字符Value 的最佳实践:合理的拆分数据,拒绝 BigKey选择合适数据结构Hash 结构的 entry 数量不要超过 1000(默认是 500,如果达到上限则底层会使用哈希表而不是 ZipList,内存占用较多)设置合理的超时时间批量处理的方案:原生的 M 操作Pipeline 批处理注意事项:批处理时不建议一次携带太多命令。Pipeline 的多个命令之间不具备原子性。_redis高级实战
文章浏览阅读1.2k次。MongoDB 递归查询_mongodb数据库 递归
文章浏览阅读1.2k次。通过实际代码例子介绍:如何通过MongoTemplate和MongoRepository操作数据库数据_springboot操作mongodb
文章浏览阅读687次,点赞7次,收藏2次。首先欢迎大家阅读此文档,本文档主要分为三个模块分别是:Redis的介绍及安装、RedisDesktopManager可视化工具的安装、主从(哨兵)模式的配置。_redis 主从配置工具
文章浏览阅读764次。天下武功,无坚不摧,唯快不破!我的名字叫 Redis,全称是 Remote Dictionary Server。有人说,组 CP,除了要了解她外,还要给机会让她了解你。那么,作为开发工程师的你,是否愿意认真阅读此心法抓住机会来了解我,运用到你的系统中提升性能。我遵守 BSD 协议,由意大利人 Salvatore Sanfilippo 使用 C 语言编写的一个基于内存实现的键值型非关系(NoSQL)..._redis 7.2 源码
文章浏览阅读2k次。MongoDB 的增删改查【1】_mongodb $inc