蓝天采集器 采集规则设置

发布时间 2023-09-25 14:56:58作者: loganfan

1.创建任务

2.采集规则设置

点击 任务后面的规则进入设置规则页面

请求头建议开启,这样会伪装成蜘蛛访问

3.起始页网址

可以设置栏目页也可以设置列表页

4.内容页网址

内容页网址获取-选择正则(这种比较方便简单)操作完成记得保存,测试一下。

 

 点击保存就好了,可以测试一下。

这里的规则其实还有可以使用xpath;

 

xpath的采集规则呢相对正则来说是更加的快捷,//*@class="news_info"/a1/@href;

*是匹配所有的意思;

@是标签;

class="news_info这个是我们网页唯一的代码标识;

/代表是一层路径,//代表的是两层路径;

a1这里这个1是指的只显示1条,因为很多时候页面上一个名称有好几个链接我们就需要在这里设置只显示一条就好了。

5.获取内容

内容里面我们可以选择数据处理过滤一些标签、空格等

 

略缩图设置;由于我们的发布插件里面没有设置,需要我们手动去设置一下:文件路径在:蓝天采集器安装目录plugin eleasecmsPbootDemoSkycaiji.php

这里是对应了我们的数据库信息;我们也可以多添加一些,只需要和我们的数据库对应起来就好了。

 

以上这个插件修改只是增加略缩图,要是不需要的话不用作任何的修改;点击保存就可以了。

6.发布设置

 发布设置选择适合自己的发布方式,设置完成后点击任务后面的采集就开始采集了。