如何解决DynamoDB查询限制
我对Limit
在DynamoDB上的查询/扫描方面有疑问。
我的表有1000条记录,所有查询都返回50个值,但是如果我将Limit
设为5,那并不意味着查询将返回前5个值,它只是说该查询表上的5个项目(以任何顺序,因此它们可以是非常旧的项目或新的项目),因此查询中可能有0个项目。实际如何获取查询的最新5个项目?我需要将Limit
设置为5(数字是示例),因为查询/扫描比这更多的项目将非常昂贵。
查询具有此输入
{
TableName: 'transactionsTable',IndexName: 'transactionsByUserId',ProjectionExpression: 'origin,receiver,#valid_status,createdAt,totalAmount',KeyConditionExpression: 'userId = :userId',ExpressionAttributeValues: {
':userId': 'user-id',':payment_gateway': 'payment_gateway'
},ExpressionAttributeNames: {
'#valid_status': 'status'
},FilterExpression: '#valid_status = :payment_gateway',Limit: 5
}
我的表的索引是这样的:
我是否应该使用第二个索引或类似的东西对字段createdAt
进行排序,但是如何确定查询将查询所有项目?
解决方法
如果我将Limit设置为5,这并不意味着查询将返回前5个值,它只是说查询表上的5个项目(以任何顺序,因此它们可能是很旧的项目或新商品),因此查询中可能有0个商品。实际如何获取查询的最新5个项目?
您的观察是正确的,不幸的是,没有Query
选项或任何其他操作可以保证一个请求中有5个项目。要了解为什么是这种情况(不仅是亚马逊方面的懒惰),请考虑以下极端情况:您有一个拥有十亿个项目的庞大数据库,但是执行了一个非常具体的查询,其中只有5个匹配项,现在进行请求您希望的:“还给我5项”。这样的请求需要先读取10亿个项目的整个数据库,然后才能返回任何内容,而客户端肯定会在那时放弃。因此,这不是DyanmoDB的Limit
的工作方式。它限制了DyanamoDB在响应之前需要完成的工作量。因此,如果使用Limit = 100
,DynamoDB将在内部读取100个项目,这将花费一定的时间。但您是对的,您不知道它将响应100个项目(如果所有这些都与过滤器匹配)还是0个项目(如果它们都不与过滤器匹配)。
因此,要有效地执行您想做的事情,您需要考虑一种不同的数据建模方法-即如何组织分区和排序键。这样做的方法有多种,每种都有其优点和缺点,您需要自己考虑选择方案。既然您询问了GSI,我将给您一些有关如何使用该选项的提示:
您要寻找的模式称为filtered data retrieval。如前所述,如果您使用排序键为createdAt
的GSI,则可以先检索最新的项目。但是您仍然需要做一个过滤器,并且仍然不知道如何在5个过滤结果(而不是5个预过滤结果)之后停止。解决方案是要求DynamoDB首先仅将通过过滤的项目放入GSI。在您的示例中,您似乎总是使用相同的过滤器:“状态= Payment_gateway”。 DynamoDB在构建GSI时没有选择运行通用过滤器功能的方法,但是它有不同的技巧来实现相同的目的:每次设置“状态= Payment_gateway”时,还要设置另一个属性“ status_payment_gateway” ,然后在状态设置为其他状态时,删除“ status_payment_gateway”。现在,使用“ status_payment_gateway”作为分区键创建GSI。 DynamoDB仅将具有此属性的项目放入GSI中,从而完全实现所需的过滤。
通过将分区键属性设置为多个不同的值,您还可以在一个GSI中具有多个互斥的过滤条件,然后可以分别对每个这些值执行Query
(使用{{1} }。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。