索引构建

发布时间 2023-03-25 22:03:33作者: 大熊猫同学

背景
面向C端用户的在线核心搜索系统底层采用ES作为核心“存储/检索”引擎,搜索作为用户购买决策的核心链路的一部分,对系统的可靠性要求tp9999,对查询性能要求极高(召回+排序 300ms以内)。如何搭建一套这样系统稳定、性能可靠的搜索系统呢?

索引构建

`

`

离线索引构建

离线索引构建流程图如下:

  1. 各类业务数据存储在自己的 MySQL 表,业务表会同步到 Hive 数仓(Hive数据仓库分层),可经过一些清洗处理,生成业务数据 Hive 底表
  2. 每类业务数据有自己的 Hive 底表,通过 Hive join 各类业务表中需要支持检索的字段,生成ES的Hive数据底表
  3. Hive底表同步到 HBase 中,采用的是 HBase 的 bulkload 功能,直接生成 HFile 文件。此外,由于 HBase是列式数据库,因此能够非常方便地解决:新增字段需要支持检索的问题。
  4. Spark读取 HBase 中的数据,构建ES索引文件(lucene索引文件)。在开始构建索引时,记录索引构建时间点。在spark节点服务上,创建一个ES服务,执行索引构建逻辑,创建2个索引,一个是离线索引、一个增量索引。离线索引是 T+1 的离线全量数据,增量索引则是:在索引构建开始时,到索引构建完成这段时间内的增量数据。索引构建完成后,变更的数据也会更新到增量索引中。
  5. 将生成的索引文件压缩上传到S3对象存储
  6. 索引加载服务从S3上下载索引文件,并基于自定义的ES插件,读取索引文件,加载到ES集群
  7. 做一些段合并、预热等操作preload-data-to-file-system-cache,完成索引的加载,并进行副本分配。当本集群的ES节点的分片全部就绪后,为当前集群开流量,并摘除另一个"对等"备份集群的流量,开始构建另一个集群的索引

一些索引字段:

商品的spu名称、商品spu_id---商品团队的商品表
商家店铺名称、商家id---商家团队的商家表
商品spu的库存、近30天的销量---交易团队的销售表
商品spu_id的商家录入类目(一、二、三、四级类目)以及算法预测类目---算法团队产出的表
商品spu的活动标签、券标签等各种营销活动标签---营销团队的业务表
商品spu可配送区域id---基础信息表

好处:

  1. 新增的字段接入搜索非常方便
  2. 基于spark分布式计算来构建索引,可以构建很大量级的索引。在底层spark节点上启动一个ES进程(ES安装包已经部署到节点上),然后通过ES进程来构建分片。
  3. 采用离线索引+增量索引,可缓解更新索引doc对查询性能的影响。如果ES集群中只有一个索引,索引中各个字段的数据频繁更新势必影响查询性能,频繁更新带来的段文件数量不可控,会导致不可避免的查询抖动。此外,索引中会有很多字段,有些更新频繁、有些更新不频繁,有些字段的数据重要、有些字段的不重要。只有一个索引很难满足所有的这些场景。比如:“近30天销量”是一天计算并更新一次、“商品spu可配送区域id”需要实时知道、“活动标签/券标签”可一天全量更新一次当前参与活动的spu_id,也需要接入实时的活动信息。因此,采用离线索引+增量实时索引方式能较好地兼顾各种需求下的字段变化。
  4. 相比于全部业务数据都放到一个索引的设计方式, 此方式也有更好地利用ES的page cache缓存
  5. 基于 spark 任务读取 HBase 中的全量数据构建索引,生成 lucene 索引文件这种索引生成方式,相比于:线上直接通过 restful api index document 减少了大量的网络开销和IO开销(写数据过程中还有写translog开销+merge开销)
  6. 在读取 HBase 数据生成索引分片时,能够使用更灵活的文档路由策略 ShardingStrategy,ES 默认的按 doc_id 哈希可能导致分片不均匀,可以根据全量数据(可以提前知道一些特征)自定义路由策略,从而确保分片“绝对”均匀

需要注意的地方:
ES查询非常依赖操作系统的缓存,ES节点每天都会加载一份最新的索引数据(每天构建一遍离线索引+增量索引,这些索引都可能被装载到内存中),ES节点通过定时任务每天更新索引时,可清除以前的缓存,避免生成的当天的索引在查询时没有足够的page cache而导致过多的内存换入、换出。比如构建20220104的索引时,01、02、03的索引已经过时,但有可能在内存中,而所有的查询只会查04的数据。

goods_index_20220101
goods_index_20220101_realtime
goods_index_20220102
goods_index_20220102_realtime
goods_index_20220103
goods_index_20220103_realtime

使用 HBase 做底层存储的问题

  1. HBase 存储容量适合大规模的索引构建,这里也是基于 Spark 任务全量读取 HBase 上的索引数据构建索引。如果使用单机JVM进程构建全量索引,极有可能频繁 full gc

  2. HBase 的列式数据库特性能够很好地支持动态添加字段的需求

  3. 基于搜索的其他业务需求可能需要扫描全量的ES索引中的数据,如果直接遍历ES,肯定会对线上搜索服务性能造成影响,为了避免直接遍历ES索引数据,因此需要:一张“基础索引表”。而从上面的索引构建的架构来看,HBase 中的数据与ES索引中的数据是实时同步的,因此可以作为索引基础表来使用。但是,由于 HBase 只能基于主键 row_key 进行查询,而在索引构建时,有时甚至对主键进行了“加盐”,只支持主键的“点查”,对大部分场景下的查询非常不友好。
    比如根据行政区id过滤所有的不可配送的商品,对线上搜索流程而言,只能通过一个个的 query 请求召回商品,再走不可配送过滤逻辑。这相当于是从 query 角度获取“满足某些条件”的商品。这里的 query 角度是指:通过 query 来获取商品,而“条件”是指:商品在当前行政区下可配送。而实际上很多搜索需求,并不是从 query 角度获取商品的,比如 query 推荐中计算某一类商品的“候选推荐词”,如果“候选推荐词”召回的商品都是不可配送的,需要将此候选推荐词过滤掉,也需要用到“不可配送”逻辑的过滤。而这个过滤,如果通过走线上搜索流程过滤,就会影响用户的搜索主流程。一种比较好的方案是查询“基础索引表”,但是正如索引构建架构所示:这里的基础索引表是 HBase ,而 HBase 不支持二级索引,只支持基于 row_key 的点查,无法满足此要求。

  4. 使用 tidb 替代 HBase 存储全量索引数据。首先解决了 HBase 只支持 row_key 点查的问题,能够针对各类过滤条件进行查询(tidb 能够很好地支持二级索引),从而更灵活方便地支撑业务需求。比如:搜索过滤出某些活动标签、过滤不可配送的商品……能够基于商品的标签进行过滤了(不用查询ES,从而不影响线上搜索主流程)。此外,tidb 也是分布式存储系统,能够支撑大规模索引存储。最后,tidb 支持 online DDL 在线改表增加字段,不会导致大规模锁表,也能方便地在字段上添加二级索引。

  5. 对于离线索引的构建,需要读取全量的 tidb 数据,可借助 tispark 实现。借助于 tispark 以及 tidb,能够实现 T+0 数据查询,而且相比于 HBase,能够支持二级索引等各种条件的过滤,对业务开发非常友好。

增量索引构建

ES集群部署方式

  1. 单集群跨机房部署
    只有一个ES集群,集群下不同ES节点部署在不同的机房,这样能做到跨机房容灾。但是对于线上要求较高的系统,机房之间的网络抖动很可能导致ES节点的不稳定,比如出现频繁选主,或者因心跳检测超时,master将某台data节点摘除而出现数据恢复,这对线上核心系统来说是不可接受的。
  2. 集群同机房部署,部署多集群
    一个ES集群下的所有节点部署在同一个机房下,但是为了跨机房容灾,需要在同地域下的另一个机房再部署一个同样的ES集群。这样两个集群互为备份,从而做到跨机房容灾。部署2个ES集群,需要解决这2个集群中的数据是完全相同的,这样才能在一个机房的ES集群出现故障后,可切换到另一个机房的集群上。
    集群内的节点都部署在同一个机房,机房内的网络比较稳定,这样能够保证ES节点非常稳定,避免网络抖动造成的集群不稳定。(线上核心服务一般都是同机房部署)
    双集群部署也有利于日常的索引更新,即做到离线索引每天更新一次,增量索引可做到秒级内实时更新。相比于单集群,可以不停服务迁索引。当有 doc 更新时,从离线索引里面删除doc,并往增量索引里面插入新doc。当有新 doc 时,只会写增量索引。查询时,同时向离线索引和增量索引发起查询。
  3. 集群同机房部署,跨地域部署多集群
    这种方式与第2种方式相同,只是在不同的城市/地域部署ES集群,一是跨地域容灾,另一个则是降低跨地域调用导致的网络延时(电商搜索)。

双集群部署,索引上线切流量示例图:

  1. 索引构建平台准备构建ES集群1的索引,将ES集群1的流量摘除。此时,线上只有ES集群2
  2. ES集群1的索引构建完毕,恢复集群1的流量
  3. 摘除ES集群2的流量,开始集群2的索引构建
  4. 集群2索引构建完毕,恢复流量,此时线上双集群同时在线