DynamoDB查询限制

如何解决DynamoDB查询限制

我对Limit在DynamoDB上的查询/扫描方面有疑问。

我的表有1000条记录，所有查询都返回50个值，但是如果我将Limit设为5，那并不意味着查询将返回前5个值，它只是说该查询表上的5个项目（以任何顺序，因此它们可以是非常旧的项目或新的项目），因此查询中可能有0个项目。实际如何获取查询的最新5个项目？我需要将Limit设置为5（数字是示例），因为查询/扫描比这更多的项目将非常昂贵。

查询具有此输入

{
  TableName: 'transactionsTable',IndexName: 'transactionsByUserId',ProjectionExpression: 'origin,receiver,#valid_status,createdAt,totalAmount',KeyConditionExpression: 'userId = :userId',ExpressionAttributeValues: {
    ':userId': 'user-id',':payment_gateway': 'payment_gateway'
  },ExpressionAttributeNames: {
    '#valid_status': 'status'
  },FilterExpression: '#valid_status = :payment_gateway',Limit: 5
}

我的表的索引是这样的：

我是否应该使用第二个索引或类似的东西对字段createdAt进行排序，但是如何确定查询将查询所有项目？

解决方法

如果我将Limit设置为5，这并不意味着查询将返回前5个值，它只是说查询表上的5个项目（以任何顺序，因此它们可能是很旧的项目或新商品），因此查询中可能有0个商品。实际如何获取查询的最新5个项目？

您的观察是正确的，不幸的是，没有Query选项或任何其他操作可以保证一个请求中有5个项目。要了解为什么是这种情况（不仅是亚马逊方面的懒惰），请考虑以下极端情况：您有一个拥有十亿个项目的庞大数据库，但是执行了一个非常具体的查询，其中只有5个匹配项，现在进行请求您希望的：“还给我5项”。这样的请求需要先读取10亿个项目的整个数据库，然后才能返回任何内容，而客户端肯定会在那时放弃。因此，这不是DyanmoDB的Limit的工作方式。它限制了DyanamoDB在响应之前需要完成的工作量。因此，如果使用Limit = 100，DynamoDB将在内部读取100个项目，这将花费一定的时间。但您是对的，您不知道它将响应100个项目（如果所有这些都与过滤器匹配）还是0个项目（如果它们都不与过滤器匹配）。

因此，要有效地执行您想做的事情，您需要考虑一种不同的数据建模方法-即如何组织分区和排序键。这样做的方法有多种，每种都有其优点和缺点，您需要自己考虑选择方案。既然您询问了GSI，我将给您一些有关如何使用该选项的提示：

您要寻找的模式称为filtered data retrieval。如前所述，如果您使用排序键为createdAt的GSI，则可以先检索最新的项目。但是您仍然需要做一个过滤器，并且仍然不知道如何在5个过滤结果（而不是5个预过滤结果）之后停止。解决方案是要求DynamoDB首先仅将通过过滤的项目放入GSI。在您的示例中，您似乎总是使用相同的过滤器：“状态= Payment_gateway”。 DynamoDB在构建GSI时没有选择运行通用过滤器功能的方法，但是它有不同的技巧来实现相同的目的：每次设置“状态= Payment_gateway”时，还要设置另一个属性“ status_payment_gateway” ，然后在状态设置为其他状态时，删除“ status_payment_gateway”。现在，使用“ status_payment_gateway”作为分区键创建GSI。 DynamoDB仅将具有此属性的项目放入GSI中，从而完全实现所需的过滤。

通过将分区键属性设置为多个不同的值，您还可以在一个GSI中具有多个互斥的过滤条件，然后可以分别对每个这些值执行Query（使用{{1} }。

如何解决DynamoDB查询限制

解决方法

相关推荐