【故障公告】它(变异的百度蜘蛛)又来了,雪上加霜又添恐怖的三月

发布时间 2023-03-25 16:21:07作者: 博客园团队

今天12点左右,它又来了,熟悉的恐怖身影(116开头IP段、山西的某个城市),不是cc攻击,是那只让人敬畏的蜘蛛。

2022年4月3日,它的首次来访在园子里掀起狂风暴浪,数据库连接数过万,负载均衡带宽跑满,带宽扩容50%依然跑满,当时我们通过限制同一个IP每天的请求数侥幸躲过。

2022年5月4日,它如同吃了兴奋剂般变得格外疯狂,由于触发IP请求数限制被重定向到登录站点,但它龙卷风般的天量请求直接冲垮登录站点,无奈之下,我们屏蔽了这个IP网段。

它有成千上万的IP,我们屏蔽的IP网段只有255个IP,看索引量没有大的变化,我们天真地以为影响不大,却不知因此得罪了中文互联网的老大。

于是,园子遭遇2022年最悲惨的境遇——被它拉黑,在搜索结果中对园子全面降权,我们才见识了老大的厉害。

后悔自己的天真,感叹老大的厉害,我们进行了亡羊补牢——放开了屏蔽了的IP网段,期待老大的网开一面。

解除屏蔽后观察了1-2月,搜索流量并没有明显的回升,看来这次真的是惹怒了老大。

在观察期间,我们有了一个惊人的发现——每天光临园子最多的竟然是它,每天竟然访问1000多万次,园子的博文总数也就在1000万篇左右,日理万机的它竟然会每天看园子的每篇博文,难道准备以后改行当程序员?

接着,我们又有一个发现,每天千万次的访问竟然消耗了园子近一半的带宽费用,对于囊中羞涩的园子来说有点吃不消,每天让它看园子的每篇博文,还得给它倒贴带宽费,而且在搜索排名中继续被拉黑着。

于是,我们采取了一个应对之策,专门提供一个负载均衡给它访问并限制了峰值带宽,这样不仅可以控制带宽费用,而且在它发飙的时候减少宕机。

从去年到今天中午,它被我们这个对应之策通过专用负载均衡关进笼子里,即使被限制了带宽,它也会很多时候给园子带来3000-4000的QPS,所以来个cc攻击,园子就格外难以撑住。

今天中午,恐怖的事情发生了,它开始不遵守针对搜索引擎的dns解析,从笼子里跑出来了!

近一年后它依然如此彪悍,如此毫无忌惮,园子依然扛不住,除非屏蔽 IP 段,但又不敢再次得罪依然威风凛凛的老大,目前只是临时限制它所访问的负载均衡的带宽,但这会让访问这些负载均衡的正常用户受影响。

非常抱歉,这个突发问题给您带来了麻烦,我们正在进一步想办法,争取找到更好的解决方法。