mysql/ClickHouse limit M,N数据不稳定问题

发布时间 2023-09-13 20:12:20作者: 若-飞

1. 遇到问题:

在clickhouse,我有一个web3_data表,大概36w条记录,以下查询的数据会变:

select * from (
      SELECT space_id, user_address, attr_name, attr_value FROM web3_data LIMIT 65500, 500 
)as a 
where user_address = '0xa047e62cede767ef25d4b5700df5e42a71d3b3e4'

 第一次查询没有得到数据:

多查几次居然能够得到数据:

请教高手之后才知道仅仅只有limit,数据是不稳定的。

 

2. 原因:

SELECT space_id, user_address, attr_name, attr_value FROM web3_data LIMIT 90000, 500 查询的结果在每次执行时可能会有所变化,这是由于数据库中数据的插入、更新或删除等操作导致的。

数据库中的数据是动态的,当您执行查询时,数据可能已经发生了变化。如果在执行查询之间进行了数据插入、更新或删除操作,结果集中的数据可能会发生变化。

如果您希望保持结果集的稳定性,可以考虑根据某个唯一标识符或其他稳定的排序条件进行排序,然后使用 LIMIT 子句来限制结果集的大小。这样可以保证从结果集中获取的数据是一致的。

例如,您可以使用类似以下的查询来获得稳定的结果集:

 
SELECT space_id, user_address, attr_name, attr_value
FROM web3_data
ORDER BY space_id
LIMIT 65500, 500

在上述查询中,我们根据 space_id 列进行排序,然后使用 LIMIT 子句来限制结果集的大小。通过指定稳定的排序条件,您可以获得一致的结果集。

数据在数据库中的存储和组织方式决定了它们在查询结果中的顺序。数据库表中的数据通常是按照它们被插入的顺序存储的,但并不意味着查询结果会按照插入的顺序返回。

以下是一些影响查询结果顺序的因素:

  1. 插入顺序:在表中插入新的记录时,数据库引擎通常会将它们追加到表的末尾或适当的数据页中。这意味着新插入的记录可能会出现在查询结果的末尾,并不一定按照插入的顺序返回。

  2. 更新操作:如果执行了针对表中现有记录的更新操作,这些操作可能会导致记录在物理存储中的位置发生变化,从而影响查询结果的顺序。

  3. 删除操作:执行删除操作会从表中移除记录,这可能会导致其他记录在物理存储中的重新组织和移动,进而影响查询结果的顺序。

  4. 索引:如果在查询中使用了索引,数据库引擎可能会使用索引来加速查询,而不是按照数据的物理存储顺序返回结果。

综上所述,查询结果并不是按照数据插入的顺序返回的,而是由数据库引擎根据数据的存储和组织方式以及查询的条件和索引来决定的。

如果您需要按照特定的顺序返回结果,可以使用 ORDER BY 子句来指定排序条件。通过指定适当的排序条件,您可以确保结果集按照您所需的顺序返回。

3. 解决:

增加order by,这样数据库就有序了。

SELECT space_id, user_address, attr_name, attr_value
FROM web3_data
ORDER BY space_id
LIMIT 65500, 500

 

参考文档:

https://juejin.cn/post/6864837626353074190