9解决elasticsearch深度分页问题

发布时间 2024-01-05 10:46:23作者: 赛博朋克V

前面说到,分页可以使用from和size参数,类似于mysql的分页offset和limit。但是如果数据量比较大时,elasticsearch会对分页做出限制,因为此时会比较消耗性能。

为什么要限制

分页的时候,elasticsearch会根据查询条件到每个分片取出数据来,然后再由coordinate节点来处理数据每个分片获取来的数据。整个行为远比mysql根据索引来查询数据耗时的多。所以elasticsearch就限制了大量数据的分页行为

把限制放大一些

es中有个设置index.max_result_window,默认是10000条数据,如果分页的数据超过第1万条,就拒绝返回结果了。如果你觉得自己的集群还算可以,可以适当的放大这个参数,比如100万。

我就是想一下子查第200万条的数据

目前没有解决方案,建议在业务上控制。示例可见百度、google搜索的做法。

我需要查询大批量的数据

elasticsearch满足你无限的查询下一页的操作,也就是一页一页的翻页行为。

search after

满足实时获取下一页的文档信息
search_after 分页的方式是根据上一页的最后一条数据来确定下一页的位置,同时在分页请求的过程中,如果有索引数据的增删改查,这些变更也会实时的反映到游标上。
为了找到每一页最后一条数据,每个文档必须有一个全局唯一值,官方推荐使用 _uid 作为全局唯一值,其实使用业务层的 id 也可以

GET test_dev/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "age": 28
          }
        }
      ]
    }
  },
  "size": 20,
  "from": 0,
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ]
}

使用sort返回的值搜索下一页

GET test_dev/_search
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "age": 28
          }
        }
      ]
    }
  },
  "size": 10,
  "from": 0,
  "search_after": [
    1541495312521,
    "d0xH6GYBBtbwbQSP0j1A"
  ],
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ]
}

scroll

生成一个快照,适合批量导出数据
使用scroll,每次只能获取一页的内容,然后会返回一个scroll_id。根据返回的这个scroll_id可以不断地获取下一页的内容

GET test_dev/_search?scroll=5m
{
  "query": {
    "bool": {
      "filter": [
        {
          "term": {
            "age": 28
          }
        }
      ]
    }
  },
  "size": 10,
  "from": 0,
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      },
      "_id": {
        "order": "desc"
      }
    }
  ]
}
  • scroll=5m表示设置scroll_id保留5分钟可用。
  • 使用scroll必须要将from设置为0。
  • size决定后面每次调用_search搜索返回的数量
GET _search/scroll
{
  "scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAJZ9Fnk1d......",
  "scroll": "5m"
}

参考 https://blog.csdn.net/andybegin/article/details/83864171