Solr使用性能优化设想-526互联

如果全量数据和增量数据有指定时间，默认近一个月

1. 是否可以通过集合名称中指定当前月份和上月集合，作为一个客户端，如果不行，可以考虑建立别名，该别名中只有近两个月的集合。

2. 其他关系表，更新数据时尽量少从solr中查询，，最后时间以当前的即可（应为bcp文件处理时是有顺序的））、参数（直接即可），最早时间考虑是否可以去掉（展示的时候，可以从全量表中查询即可，且该字段热门值可以缓存），hitcount考虑是否可以去掉（同理展示的时候从solr中查询）

但当前关系表似乎没有构成瓶颈，可以和产品经理确认下。如果不查询已有关系数据，直接插入一台机器写入似乎可以胜任。

3.数据处理程序增量的和全量分开，各使用一台机器处理。

至于一些域名和脚本关联的对象数量，只需要存储哪些关联其他对象数量超过1000个以上的即可。（对时效性要不不算太高，聚类关系抽取的时候先从该表过滤异常点，然后抽取，再判断抽取的关系中是否有异常点，然后存入表中，应该没有需要具体次数的场景，如果阈值变化，删除小于阈值的即可）

4.查询页面只真实前10000条数据。

5.导出可以全量，使用scroll进行深度分页优化。不过最好还是要限制，让用户加上时间限制或其他条件进行过滤。

6.段合并，适量加大mergeFactor参数，来降低合并频率，频繁的段合并会消耗大量系统资源