登录

火车采集器:网站分页网址不变获取规则

插件工具 maolai 3126次浏览 0个评论 扫描二维码

大家在采集列表分页内容的时候,会发现有的列表分页,点击第二页、第三页(或下一页)时,列表的页面信息有变化,但是浏览器上网址却不变。这种信息在页面是看不到的,一般要通过fiddler抓包工具抓包分析,即通过火车采集器post方式分页采集。

以下用这个网址来测试http://www.yidianda.com/category/three/1-7-24.html 这个网址有3页,链接都是相同的。

1、先通过源代码找到这个页面的开始标签和结束标签,页面开始是1/3页,结束是下一页>到第页。如下通过源代码可找到:

文章开始

结束文章

规则设置

2、打开fiddler抓包工具,分别点击第2页和第3页,看看分别获取了哪些信息。当获取完一个页面后,先按下键盘F12暂停,提取信息。不然的话fiddler会继续抓取信息、信息多的话不好查找。

fiddler抓包1

fiddler抓包2

由于图片比较不好查找,通过点击fiddler上的“View in Notepad”提取出来进行比较如下:

ec_p=2&url=&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice=

ec_p=3&url=&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice=

从上可以知道ec_p的值就是分页。火车采集设置如下:

post设置分页

注:以上规则设置完,记得点击保存哦。有的页面有id=这样的参数(有的会变,通过源代码查看),一般是[POST随机值x],这里不需要填也可以。

fiddler下载地址http://pan.baidu.com/s/1gfPOgrL(中文版不用升级)最后链接测试采集如下

链接采集测试


本文由maolai编辑整理发布,转载请注明火车采集器:网站分页网址不变获取规则!如果本文对你有帮助,可打赏博主,鼓励博主继续写作!
喜欢 (0)
[maolai]
分享 (0)
maolai
关于作者:
无折腾,不生活。一个爱折腾,爱分享的90后,欢迎你认识我,我是MAOLAI。
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址